2014年10月16日木曜日

情報カスケードとドミノ効果

ヒトが順番に二択のクイズに回答する。自分より前に回答した人たちがどのように選択したかを教えたときどうなるのか?簡単な問題であれば、順番が前の人々がたまたま間違った選択肢を選んだとしても、後の人で正解を知っている人が正解を選び、いづれ正解を知っている人が多数派になります。そうなると正解を知らない人は多数派を選べば正解を選ぶことになり、正答率は上昇します。このような、たまたま最初に間違っても、いづれ多数派が正解を選ぶ状況を自己修正的であるといいます。この「自己」というのは、系の性質(問題が簡単なので、正解を知っている人の比率が高い)により系が自力で自動的に修正するためこう呼ばれています。また、正解を知らない人は多数派を選択ぶ傾向が強いため正答率が上昇しますが、このことを「集合知効果」と呼びます。

一方、難しい問題の場合、こうした修正機能や集合知効果がうまく働く保証はありません。正解を知っている人が少ないため、一旦多数派が不正解となってしまうと、それを修正するだけの正解を知った人が現れる前に、正解を知らない人が誤った多数派にどんどん流れ込んでくるため、修正されなくなるのです。こうした性質を「非自己修正的」と呼びます。このとき、正解を知らない人は多数派を選んでも正解とは限らないため、集合知効果はないか、あったとしても非常に弱くなります。

では、系が自己修正的か、非自己修正的かをどう判断すればいいのでしょう。自己修正的の場合、系の正答率は1/2より大きなある値に収束します。一方、非自己修正的な場合、正答率は1/2未満のある値か、1/2より大きなある値の二つの値のどちらかに収束します。つまり、ヒトが次々回答するときに正答率がどの値に収束するかで判断するわけです。実際、最初に集団実験で検証したときは、ノーヒントで自分の知識だけで回答したときの正答率が70%,80%の簡単な問題の場合、正答率は90%まで上昇して自己修正的。一方、50%,60%の難しい問題の場合、正答率は80%から90%に収束することもあれば、20%に収束することもあって集合知効果は弱く、非自己修正的になっていました。



左の図が、過去4回の集団実験の結果を示したものです。(実験の名前のカッコの中の数字は、クイズに回答した人数を表しています。)横軸はノーヒントでの正答率、縦軸は過去の回答を参考にしたときの正答率を表します。ノーヒントの正答率が70%以上なら、概ね過去を参照した回答の正答率は上昇し80%から100%になっています。一方、ノーヒントの正答率が50%、60%の難しい問題の場合、過去を参照した回答の正答率はノーヒントの正答率から上がることもあれば下がることもあることが分かります。

これは直感的でわかりやすいのですが、一番の問題は「カッチョ悪い」こと。要するに、見たまんま。また、正答率の分散がゼロか有限か、と言っても、実験で高々60人程度が回答するだけなので、本当にゼロに収束することはありません。では、もっと統計物理学者として「カッチョいい」「正統的な」方法はないのか?それが、ドミノ効果の測定でした。

ドミノ効果とは、ドミノ倒しの様子から連想されるような、一つの現象が次々と連鎖的に別の現象を引き起こす共同的な効果のことです。二択のクイズの場合は、最初の人が間違うかどうかが後半に回答する人への影響のことです。この影響を、最初の人と、順番がt離れたt+1番目に回答する人の選択の相関関数で計測しC(t)と書くことにします。するとC(t)/C(0)という規格化された相関関数は、最初の人が正しいか間違うかでのt+1番目の人の正答率の差を表すようになります。この規格化された相関関数の振る舞いから、系が非自己修正的かどうかが判定できます。もし、C(t)/C(0)が十分大きなtに対して正の値をとるなら非自己修正的となります。

つまり、ドミノ効果が無限に続くなら、最初に間違うと延々と続くので非自己修正的と言えるわけです。一方、C(t)/C(0)がゼロになっても自己修正的とは言えません。最初の人の影響が無視できるほど小さくなっても、後半の人々が集団的に間違う可能性は排除できないからです。

この規格化された相関関数の振る舞い(十分大きなtに対してC(t)/C(0)>0)が系の非自己修正性の十分条件を与えることをもとに、データ解析(ECCS'14のプロシーディングとして投稿中)を行ってみました。 上の正答率の散布図に示した実験のうち実験3(EXP3)のデータを用いて解析したものです。ノーヒントでの正答率が70%、80%の簡単な問題の場合、tが大きくなるとC(t)/C(0)はほぼゼロになります。一方、ノーヒントの正答率が50%,60%の難しい問題の場合、正の値にとどまっているように見えます。これを用いてtが無限大のときのC(t)/C(0)の値を推定した結果
 が水平線で示されています。その値は大体30%前後なので、最初の人が間違えることにより、後ろの人が間違える確率が30%も下がることが分かります(難しい問題の場合)。

ドミノ効果の測定が統計力学的に「カッチョいい」「正統的」であると言っている理由は、C(t)/C(0)のtが無限大での値が相転移での「秩序変数」になっているからです。このことを用いると、図のようにC(t)/C(0)のゆらぎが大きくても、tが無限大での値を推測可能になったりと、データ解析を行う上でも重要な点です(つまり、「統計物理学者の自己満足ではない」といいたいわけです)。

この解析方法を用いて他の情報カスケード実験のデータ解析も行っているのですが、ヒトの持っている情報の精度が低い場合、非自己修正的という結論になりそうです(現在進行形)。ヒトのハード(群れる)の相互作用がいかに強いかを示していると考えられますが、逆にどういう仕組みにすれば自己修正的になるのか気になります。選択肢にオッズをつけるとかやってみましたが、うまくいきませんでした。