はてなブックマークの傾向(2)

前回の記事ではカテゴリの分布とタグ毎の仕様ユーザー数を出してみたのだが、データ収集に当たっては考えなしに他にも色々データを取っていたりする。なのでまだ同じネタで引っ張れるかなーなどとよこしまなことを考えてみた。今回は前回からもう一歩踏み込んで、タグとカテゴリの関係についてのデータを紹介してみることにしたい。
なお、データには前回使用と同じく12月20日時点におけるものを使用している。タグに関しては前回も書いたとおり、エントリ毎の詳細ページを見てみなければわからない。詳細データについては上位100エントリ分しか取得していないので、今回の対象はそこまでということでご了承いただきたい。
まずは基本的なデータから。上位100エントリにおけるカテゴリの分布は以下の通り。

カテゴリ 件数
ウェブ 42
コンピュータ 25
一般 20
はてな 8
食 2
ゲーム 1
サイエンス 1
マンガ 1

IT系が強いのはここですでに明らかになっている。ただし1位は一般カテゴリの「英文メールを書くときに便利な表現集」だったりするのだけれども。
今回はタグとカテゴリの関係について、ということなのだが、標本数がが少ないのもアレなのでウェブ、コンピュータ、一般のカテゴリのみを対象とした。それぞれのカテゴリにおいてよく使われているタグ上位20種類は以下の通り。

  ウェブ   コンピュータ   一般  
  タグ名 使用回数 タグ名 使用回数 タグ名 使用回数
1 web 1261 ajax 830 lifehacks 204
2 google 1036 javascript 449 仕事 198
3 css 813 windows 381 tips 173
4 ajax 681 firefox 289 business 146
5 web2.0 535 tips 287 english 135
6 design 458 web 227 プレゼン 132
7 tool 316 apple 221 life 127
8 gmail 313 pc 210 英語 120
9 english 292 tool 193 便利 108
10 blog 290 ipod 172 lifehack 98
11 便利 250 font 155 仕事術 90
12 英語 248 software 155 ビジネス 89
13 firefox 224 programming 153 work 86
14 javascript 215 ruby 122 presentation 81
15 tips 214 design 108 生活 80
16 html 205 itunes 108 社会 80
17 デザイン 188 プログラミング 91 文章 77
18 webdesign 148 powerpoint 85 fashion 74
19 webデザイン 122 rails 85 資料 72
20 seo 107 便利 85 study 71

すこし(かなり?)見づらいかもしれない。ともあれウェブとコンピュータにおいては比較的似たような傾向のタグが使われているように見える。もちろんウェブカテゴリで[css]のように関連する技術用語が多いのは確かなんだが、いずれのカテゴリにおいても[Ajax]が多かったりもするので、それほどはっきりとした差はないと言えるのではないだろうか。コンピュータカテゴリには[Web2.0]がないですねー。[Web]に吸収されてるのかな?とか、細かいポイントならいくらでもあるのだけれども。これをサカナに1時間雑談ができれば、あなたも立派なギークです。というかAjaxは注目されすぎていると思う。ねたましい。
それよりも一般カテゴリとの対比の方が違いがはっきりわかって面白いと思う。もっとも一般カテゴリのトップが[lifhacks]ってあたりが、ユーザー層を思いっきり反映していて苦笑いモノな気はするのだが。そういう意味ではたとえ一般カテゴリに分類されていたとしても油断は禁物なのかもしれない。あとでカテゴリごとの一覧を見てみよう。
ちなみに一般カテゴリの10位には[lifehack]なるまぎらわしいタグがランクインしているが、だからといって[lifehacks]と合算したりすると、じゃあ[LifeHack]はどうなんだ、[はてな]と[hAteNa]と[_?_]も同じじゃないか……などと果てしなく作業しなければいけないハメになりそうなのでそのままにしておいた。要はものぐさである。
しかし上位20件だけではわからないものもある。調べてみたところ、ウェブカテゴリだけでも1148種類のタグが使われていたのだ。しかし20種類だとそのうちのわずか1.7%にすぎない。えー?じゃあ全体の分布ってどうなってるんだ?……というのが以下のグラフ。
ウェブカテゴリにおけるタグ使用数の分布グラフ
絵に描いたようなロングテール的グラフである。上位のほんのわずかなタグだけがたくさんの人に使われてるんだなあ。ということは色んな人たちが色んなタグをつかって情報を分類しようとしてるんだねー。あなたの工夫をこらしたタグのつけ方を教えてください……とかなんとか、それだけでまたしばらく話ができそうじゃないですか。情報分類というのはいつまでたっても古くて新しい話題であるようだ。そういえば「『超』整理法」すらまだ読んだことないな。
それはさておき。
グラフの中に変な青い線があるが、これは一体なにか。私のPCが不調だから変な線が入っちゃったんですよー、とかいうわけではない。感光体の傷ついたプリンタじゃないんだから。カンのいい人ならロングテールという単語を出したところでわかってしまったのかもしれないが、トップから使用数を足し上げていき、全体の80%を占めたところで線を引いてみたのである。ウェブカテゴリにおいては第98位のタグまでを足し上げていったところで80%に到達した。98種類といえば全体においてはたったの8.5%にすぎない。それが全体の使用数の80%を占めているのである。残りの20%を1050種類、91.5%のタグが占めている。
ロングテールは本当に長かった、というお話。
というわけでコンピュータ、一般の各カテゴリのグラフについても以下に示しておく。
コンピュータ カテゴリにおけるタグ使用数の分布グラフ
一般 カテゴリにおけるタグ使用数の分布グラフ
コンピュータカテゴリでは823種類のタグが使用され、全体の10.8%にあたる89種類のタグによって全体の使用量の80%を占めている。一般カテゴリでは全887種類のタグが使われ、全体の16.1%である143種類によって全体の使用量の80%を占める。
これらの情報をちょっと整理してみると以下の表のようになる。ついでと言ってはアレだが使用タグの総数も追加しておいた。

  ウェブ コンピュータ 一般
使用タグ総数 13983 8151 5848
タグ種類総数 1148 823 887
80%閾値 98(8.5%) 89(10.8%) 143(16.1%)

と、書いてみると一般カテゴリでは80%に到達するまでにより多くの種類のタグを要していることに気づく。タグ総数ではコンピュータよりも少ないのに、種類では逆に上回ってもいる。まあ一般と言ってもはてなブックマークにおけるカテゴリ分けでは「その他」のような意味合いも強そうだから、タグの種類にもおそらくばらつきがあるのだろう、というのはなんとなく想像できるところである。
せっかくだから高校の時に習った統計の知識でも使ってみますか……というわけで各カテゴリにおいて期待値と標準偏差を算出してみた。

  ウェブ コンピュータ 一般
期待値 12.2 9.9 6.6
標準偏差 66.5 43.6 19.1

明らかに一般カテゴリでは標準偏差の値が低くなっている。つまりバラつきが少ない、ということだ……というのが教科書的な解釈。普段標準偏差なんて使わないんだからそんなこと言われてもわかんないよ!偏差と言われると一番なじみ深いのは高校のときの模試でさんざん苦渋を嘗めさせられた偏差値くらいなもんだ!
じゃあ偏差値を出してみましょう。ネットで探せば算出の公式くらいはすぐに出てきますよ!あとはそれを表計算ソフトに叩き込めば一発だ!今回はデータ整理にグラフ作成に、OpenOffice 2.0が大活躍してるなあ。
ともあれ先に出した上位20件の表に偏差値の項目を追加してみたのが以下の表である。おまけに全体に占める割合も追加してますます読みづらくしてみました。

カテゴリ名 ウェブ     コンピュータ     一般    
  タグ名 使用回数 割合 偏差値 タグ名 使用回数 割合 偏差値 タグ名 使用回数 割合 偏差値
1 web 1261 9.0% 237.9 ajax 830 10.2% 238.3 lifehacks 204 3.5% 153.2
2 google 1036 7.4% 204.0 javascript 449 5.5% 150.8 仕事 198 3.4% 150.1
3 css 813 5.8% 170.5 windows 381 4.7% 135.2 tips 173 3.0% 137.0
4 ajax 681 4.9% 150.6 firefox 289 3.5% 114.1 business 146 2.5% 122.9
5 web2.0 535 3.8% 128.6 tips 287 3.5% 113.6 english 135 2.3% 117.1
6 design 458 3.3% 117.1 web 227 2.8% 99.8 プレゼン 132 2.3% 115.6
7 tool 316 2.3% 95.7 apple 221 2.7% 98.5 life 127 2.2% 113.0
8 gmail 313 2.2% 95.3 pc 210 2.6% 95.9 英語 120 2.1% 109.3
9 english 292 2.1% 92.1 tool 193 2.4% 92.0 便利 108 1.8% 103.0
10 blog 290 2.1% 91.8 ipod 172 2.1% 87.2 lifehack 98 1.7% 97.8
11 便利 250 1.8% 85.8 font 155 1.9% 83.3 仕事術 90 1.5% 93.6
12 英語 248 1.8% 85.5 software 155 1.9% 83.3 ビジネス 89 1.5% 93.1
13 firefox 224 1.6% 81.9 programming 153 1.9% 82.8 work 86 1.5% 91.5
14 javascript 215 1.5% 80.5 ruby 122 1.5% 75.7 presentation 81 1.4% 88.9
15 tips 214 1.5% 80.4 design 108 1.3% 72.5 生活 80 1.4% 88.4
16 html 205 1.5% 79.0 itunes 108 1.3% 72.5 社会 80 1.4% 88.4
17 デザイン 188 1.3% 76.4 プログラミング 91 1.1% 68.6 文章 77 1.3% 86.8
18 webdesign 148 1.1% 70.4 powerpoint 85 1.0% 67.2 fashion 74 1.3% 85.2
19 webデザイン 122 0.9% 66.5 rails 85 1.0% 67.2 資料 72 1.2% 84.2
20 seo 107 0.8% 64.3 便利 85 1.0% 67.2 study 71 1.2% 83.7

偏差値237.9!どんな天才なんだか一度お目にかかってみたいものである。まあもっとも低い偏差値が一般カテゴリにおいて1回しか登場しなかったタグの47.1だから分布のあり方から考えてみればそういうものになるものなのかもしれない。ともあれカテゴリごとの偏差値を比べてみると、一般カテゴリはやや低めになっている。つまり平均(期待値)からの乖離が少ないということになろう。バラつきが少ない、とはつまりそういうことだ。多分。きっと。おそらくは。
というか勢いだけでロクに知りもしない統計の計算なんかしてみたけれども、こんなところで標準偏差なんか算出してなにか意味があるんだろうか?
……まあ面白かったからいいや。というかもうおなかいっぱいだなあ。これだけやればごっそり取得したデータを使ってやった!という気分になれるというものです。Perlもかなり使ったしなあ。あー疲れた。というかお疲れさまでした。
というわけで最後に今回使用させていただいたカテゴリ毎の記事一覧表を置いておく。さあ一般カテゴリの記事はどんな感じになってるかなー。

続きを読む