制御された不完全な秩序とカオスの中に芽生える秩序

今日もWebのベキ分布を示す法則性が気になって、今度はページごとのサイト内リンクの数を調べてみました。あるページに他のページからどれだけのリンクがはられているかってことです。 結果を示す前に、何故そんなことを調べたかを説明しておきましょう。 Webのネットワークがもつスケールフリーの法則性を発見したアルバート=ラズロ・バラバシは著書『新ネットワーク思考―世界のしくみを読み解く』の中で、Webのネットワークの各ノードがもつリンク数を調査した結果をみたときの驚きを次のように書いています。 われわれはリンク数の度数分布を両対数グラフに表し、それをうまくなぞるような関数を探してみた。その結果にわれわれは度肝を抜かれた。リンク数の度数分布は、数学でいうところの「ベキ法則」にぴたりと合っていたからだ。 アルバート=ラズロ・バラバシ『新ネットワーク思考―世界のしくみを読み解く』 その後、バラバシらがハリウッド俳優のネットワークや物理学の論文引用件数、航空会社のルートマップなど、いたるところにベキ法則を発見したことは『新ネットワーク思考―世界のしくみを読み解く』に詳しい。 そんなこともあって、では、全体ではベキ法則があてはまるWebのネットワークの中に存在する1つ1つのサイト内のリンク数はどうなっているか気になったんです。 サイト内リンクはベキ分布しないこのブログのサイト内のリンク数も含め3つのサイトを調査してみましたが、最初にある程度、予想していたとおり、以下の両対数グラフのとおり、サ…

続きを読む

対数の世界でのマーケティング

「ロングテールと口コミ」などで、ベキ分布を表現するのに、両対数グラフを使ってきましたが、そもそも対数というのがあまり馴染みがないもののようです。 対数そのものの説明に関しては、以下のページを参考にしていただくとして、 対数とはどんな数か?常用対数 - Wikipedia自然対数 - Wikipedia このエントリーでは対数をつかうと何が便利かということを簡単に紹介しておくことにします。 掛け算を足し算のように扱えるまず、よく言われるのは、対数をつかうと掛け算を足し算のように扱うことができるということです。特に大きな数の掛け算だとこれが便利です。 (前略)数値があっという間に大きくなってしまうので、そのままではじつに理解しづらい。対数は、そういう現象の数値を小さく置き換え、足し算的に変化する現象に替えてくれるのである。たとえば、10の掛け算でどんどん大きくなる現象が、1の足し算でゆっくり増える現象に置き換えられるのである。 畑村洋太郎『直観でわかる数学』 100,000×10,000,000は?といわれてもすぐに計算できません。 でも、これが10の5乗×10の7乗だとわかれば、5と7を足すだけなので、答えは10の12乗だとわかります。 10を底にする常用対数は、log10=1、log100=2、log1000=3、・・・という具合に、0の数を数えたものが真数となるので、それこそ、上のような足し算が可能になるわけです。 これは慣れてくると結構便利です。

続きを読む

「データというメスでネット企業を『解剖』する」ということ

最近、磯崎さんの「グーグルは「広告業」ではない」という記事に関する反応をいろんなブログで目にしたりします。 この記事、元はといえば、磯崎さんのブログ isologue のこのエントリー「グーグルは「すごい」のか「すごくない」のか(財務的に見たGoogle)」から派生しているものだと思います。 磯崎さんの記事も、それについての反応もそれぞれ興味深いんですが、ここではそれらに書かれた個々の内容については一切触れません。 ここで触れるのは、そうした反応をみて感じた「あれ?」っていう部分、磯崎さんの記事の前提となっている、これ↓が意外と外部からの反応の際には抜け落ちちゃってるんじゃないの?ってことについて触れてみようと思うんです。 前回の「プロローグ」で、本シリーズでは、単に定性的にWeb2.0企業を語るのではなく、「データというメスでネット企業を『解剖』する」として、財務データや統計などを用いてネット企業の実像を明らかにしていきたいと述べた。 グーグルは「広告業」ではない - ネット・エコノミー解体新書 - nikkeibp.jp 磯崎さんがわざわざ「定性的に語るのでは」ない方向を示してくれたのに、なぜか「定性的に語る」方向に戻っちゃってるなって感じるものが多いのは、大いに気になるところです。 もちろん、定性的に語ることがまったくナシっていうことじゃないと思うんですが、それだけだとやっぱり表面化している部分に隠された背後のアルゴリズムが見えてこないってことはあると思うんですよね。 …

続きを読む

やっぱりベキ分布ははてブでも

予想はしていましたが、やっぱりこれもベキ分布でしたか。 上のグラフが何のデータを両対数グラフにしたものかというと、このブログのはてブでの人気ブックマークの数です。サンプルが250強しかないこともあって、バラつきもあるし、それほどきれいなベキ分布を示しているともいえませんが、なんとなく傾向としてはつかめます。 ※これはブックマーク数を散布図にしたものです。縦軸がブックマーク数になります。ただし、先に書いたように両軸とも対数をとっています。縦軸と横軸が何かわからないという指摘があったので。 (2006/08/19 21:20追記) 左上に2つ飛び出ているのは、 企業のWebマスターのための「せめてこれだけは使っておこう」間違えを恐れるあまり思考のアウトプット速度を遅くしていませんか?ですね。 この2つは3番目にブックマーク数の多い「ロングテール現象はパレートの法則とまったく対立しない」のブックマーク数より200以上もその数が多いわけです(3倍強!)。きっとはてブのトップページだとか、はてな全体のトップページにも掲載されたという特殊要因のあったエントリーだったからでしょうね。 これきっとはてブ全体で日単位とかでやればもっときれいなベキ分布が見られると思うな。 それにしてもこの世の中、ベキ分布だらけなんだなとあらためて感じます。 「富めるものはますます富む」ように自己組織化のアルゴリズムがどこかで働いているんですね、きっと。 関連エントリーベキ分布を示すWebの…

続きを読む

ベキ分布を示すWebの法則性

さて、昨日の「流入キーワードもベキ分布だった!」の続編です。 昨日は、Webサイトに流入してくる検索ワードのアクセス数の分布を見てみましたが、今日はその他のWebサイトのアクセスログの数値に関しても同じように両対数グラフ化することで傾向を調べてみました。 ページ単位でのページビューまずは一般的な企業サイトにおけるページ単位でのページビューの分布を昨日と同じように、両対数グラフで表現してみました。 途中まではベキ分布にみられる直線の分布をみせています。その後、サイトによって傾きは異なりますが、右のほうで急激に傾斜が変わり、曲線を描いているのがわかります。 このグラフが意味するのは、ページビューが少ないページは割と少なく、いわゆるロングテールになっていないということになります。昨日のキーワードの場合は1、2しか使われないキーワード(キーフレーズ)が大量に存在するためにほぼきれいなベキ分布を見せていましたが、ページビューの場合、そうはならないようです。 テールが短いことの影響が、上位20%が占める割合にもはっきり出ていて、最も急激な落ち込みが見られる赤いグラフの場合では上位20%が全体の89%を占めています。 で、昨日、ページビューの場合、こうした傾向をみせる要因として、サイトの階層構造が影響しているのではないかと考え、構造が割とフラットであるブログであれば、もしかするとベキ分布になるのではと考えたわけです。 しかし、結果は下のグラフをご覧のとおり、ブログであろうと…

続きを読む

流入キーワードもベキ分布だった!

高安秀樹さんの『経済物理学の発見』を読んで、ベキ分布にちょっと興味をもったので、手近なデータでそういう傾向を示すものがないか調べてみました。 調べてみたのは、Webサイトの検索エンジン経由の流入キーワード別アクセス数です。 流入キーワードにはフラクタル性が見られる「ロングテールと物理的制約」でも紹介しましたが、多くのWebサイトの検索エンジン経由の流入キーワードは単純に集計すると、たいていはロングテールみたいなグラフになります。 また、高安さんの本にあった「一般に、ベキ分布にしたがうような現象にはフラクタル性があります」という言葉の通り、検索エンジン経由の流入キーワード数の上位20%が全体の約80%を占め、さらに上位20%のうちの上位20%(つまり全体の4%)も上位20%のうちの80%を占めるという入れ子状の傾向も見られることが多かったりします。 ということもあって、これはもしやベキ分布なのでは?と思って、いくつかのサイトのアクセスログデータを分析してみました。 流入キーワードはベキ分布に従うまず、下のグラフをご覧ください。 このグラフは、ある2社のWebサイトの検索エンジン経由の流入キーワード別アクセス数を、両対数グラフ(x,y軸ともに数値を対数化したグラフ)で表したものです。縦軸が各キーワードごとのアクセス数(の対数)、横軸がアクセス数が多いもの順にキーワードの数(の対数)をプロットしたものになります。ようは上がアクセス数が多く下が少ない。左がキーワードの数が少…

続きを読む

はてブのB!は・・・

ふと思った。 はてブのは、Bの階乗を暗示してるのだろうか? 参考:階乗 - Wikipedia http://ja.wikipedia.org/wiki/%E9%9A%8E%E4%B9%97 = ブックマーク×ブックマーク×ブックマーク×ブックマーク×・・・・・。 ブックマークが雪だるま式に増えていくってことか?

続きを読む

2つの階層構造、2つの分類法(タクソノミーとオントロジー、あるいは、クラスとセット)

s.h.さんの素晴らしいトラックバック「HIIにHCIのアプローチを取り入れる:『アンビエント・ファインダビリティ』を読んで思ったこと」を機にしたエントリー「HCIとHIIの階層構造、生命情報/社会情報/機械情報の階層構造」に対して、またしても、s.h.さんがとっても素敵な返信をくれました。 これはなかなかいいHHI(Hito Hito Interface)ができている w このエントリで、ユビキタスコンピューティングのアーキテクチャはフラクタルなMVCフレームワークになるという事を書こうと思う。 コンピュータシステムはデータの「入力」「処理」「出力」をするものなので、このフラクタルなMVCフレームワークはちょっと考えてみれば自明な事だと思う。 s.h.log: フラクタルなMVCフレームワーク:HCIとweb2.0の相似構造、HCIとHIIの階層構造 確かにコンピュータシステムはデータの「入力」「処理」「出力」をする。 しかし、これは同時にコンピュータシステムに限ったことではなかったりもする。 システムにおける「入力」「処理」「出力」情報理論の創始者クロード・シャノンも「情報源」からの情報が「符号機(送信機)」によってコード化され、「通信路」を通って、「復元機(受信機)」でコードが復号化されて「到達先」に届く通信モデルを描いている(実際にはさらに「通信路」のところに「ノイズ」と描かれている)。 いうまでもなく「通信路」を境にinput/outputがあるわけだ。 そ…

続きを読む

ブロゴスフィアで起こる「批判」の応酬を鎮めようとすればNP完全問題にぶつかるかもしれない

ジョージ・ジョンソンの『量子コンピュータとは何か』という本を紹介した際に、核爆発のシミュレーション実験を行うための計算は、現存する中で最速の部類にはいるスーパーコンピュータを用いても、核爆発の途中の100万分の1秒を再現する計算を行う処理に4ヶ月間もかかるという話を紹介した。 つまり、核爆発のシミュレーションのための計算はどんなコンピュータを使っても処理しきれないくらい複雑なプロセスが必要だということだ。 セールスマン巡回問題 同様に、コンピュータを使っても解くのがほぼ不可能で、数学者にとっても難問である問題の1つに「セールスマン巡回問題」と呼ばれるものがある。 これは所定の特定の都市のリストから逆戻りすることなしに(つまり来た道を折り返すことなしに)すべての都市を1回ずつ訪問するための最短経路を見つけよという問題だ。 これがなぜ難問かを具体的な数字を使って紹介しよう。 例えば、訪問先が3都市なら、(3×2×1)/2=3通りの選択肢から最短経路を選べばよい。 これが訪問先が10都市になると、(10×9×8×7×6×5×4×3×2×1)/2=1,814,400通りの選択肢となる。 そして、この選択肢の数は当ブログにおいてはもはやお馴染みの指数関数的な増加をみせる。 11都市なら約2000万、12都市なら約2億4000万、そして、20都市なら100京(1兆の100万倍)を超える。30都市くらいになるとスーパーコンピュータでも(この計算方法で行うと)何億年も処理にかかる数字とな…

続きを読む