2010年10月28日木曜日

オレルの博士論文2


前回の「オレルの博士論文」の続き。今回は彼の主要な結果を数式で簡潔に解説。彼の博士論文は、ターゲットとする系の時間変化とモデルの時間変化の違い(誤差)のうち、どの部分がモデル誤差で、どの部分か初期値誤差なのかを明らかにすること。また、系の時間変化を追跡できる時間はいくらなにかを明らかにすることにあります。問題は、初期値誤差とモデル誤差は、しばらくすると混ぜ合わさってしまうこと。t=0の初期状態に誤差がなくても、モデル誤差があると、すぐにモデルと系の時間変化は異なる軌道を描き、誤差が生まれる。すると、その時点以降はモデル誤差がなくても、誤差が系のカオス性により指数関数的に大きくなる。つまり、モデル誤差が初期値誤差になり、それが急速に大きくなって、誤差の大きな部分を占めるようになり、どこまでがモデル誤差で、どこまでは初期値誤差なのか、区別が難しくなる。

この困難に対するオレルの処方箋は単純です。系の軌道上でモデルがどのような時間変化を生むのかと、系の時間変化の差がモデル誤差(ドリフト)である。左上の図のx(t)がモデルの時間変化を記述し、そのダイナミックスはX(x)で与えられるとする。また、系の「真」の軌道をy(t)で記述し、ダイナミックスはY(y)とする。y(t)の観測には一般に誤差があり、またYを人間が完全に知ることはない。すると、xとyの差が誤差eを定義しますが、モデルの軌道が系の軌道の十分近くにある場合、4つ目の近似式で評価できる。最初の項は、初期値誤差e(0)の増幅の様子を線形演算子Mで計算し、2番目の項は、モデル誤差を表す項で「ドリフト」と呼ぶ。このドリフト項は、観測された系の軌道上yでモデルの力X(y)を積分したものでり、系の「真」の軌道上で積分しているので初期値誤差の一切入らない正味のモデル誤差となっている。このドリフトの大きさをd(t)と書くことにする。

では、d(t)とe(t)の大きさはどれぐらいなのか?それを示したのが次の図です。このグラフは、ヨーロッパの実際の天気と天気予報の誤差e(t)と上の式で計算したドリフトd(t)を描いたものです。最初の72時間までは、誤差e(t)のほとんどはドリフト(モデル誤差)d(t)であることが分かります。また、誤差やドリフトが予報時間tの平方根に比例して増加している様子も分かります。一方、図の下部にはドリフトによる初期値誤差がどう大きくなるのかを示しています。6時間ごとのドリフトを初期値誤差として線形演算子Mで時間変化させたのが点線。そして、各々の点線をドリフトに加算する。多次元空間なので、直交すると仮定。すると、72時間以降の誤差とドリフトの差も説明できる。


ドリフトd(t)の計算式として、短時間でのドリフトの大きさdmとドリフトベクトル間の角度のデータcmを用いて左上の図の最後の式を導いている。これは、ドリフトがブラウン運動していることを意味しています。相関がまったくないわけではないですが、誤差はブラウン運動し、その結果d(t)はtの平方根に比例して大きくなるというわけです。

オレルのもうひとつの結果は、モデルが系をどれぐらいの時間追跡できるのかに関するものです。系の軌道のまわり半径rのチューブの中にモデルの軌道が存在する時間は、d(t)=2rで近似的に与えられるというもので、直感的にも分かりやすい。このrとして天気の観測誤差を用いると、気象台が使っているモデル(TL319)が天気を追跡できる時間は約4時間と推定できる。

私が一番興味を持ったのは、モデル誤差がブラウン運動するという部分です。もちろん、ブラウン運動した誤差が、のちのち指数関数的に増幅されるのですが、それでも最初の3日間はブラウン運動しているように見える。モデルをもっとよくすればドリフトが減少して初期値誤差が減るので、ブラウン運動する時間も長くなる。実際、TL159という系をTL42、TL63(番号はモデルの微細さに関係)でモデル化したとき、微細なほうが誤差も小さくがtの平方根で振舞う時間も長い。ということはブラウン運動する時間の長さがモデルの評価にも使える。

このドリフトがブラウン運動するというのが非線形力学系の一般的な性質なのか、それとも天気予報のモデルに限られたことなのかも興味深いです。私は今まで、天気のようなカオス系を別の単純なカオス系でモデル化しても、その誤差は指数関数的に大きくなり、未来を予言できるはずはないと思っていたのですが。どうもそんなナイーブな話ではなく、結構奥の深い問題だということが分かり、非常に楽しめた論文でした。モデルを微細にすればするほど、誤差がブラウン運動する時間がいくらでも長くなるのか。数値計算ですこし調べたくなりました。

2番目、3番目の図はModelling error in weather forecasting, D.Orrel et al(2001) より。

2010年10月26日火曜日

オレルの博士論文


以前、週間天気予報の予想精度が予報時間(予報発表時点から予報の対象とする時点までの時間:forecast time)とともに落ちると説明しました。つまり、明日雨が降るかどうかの予報より明後日雨が降るかどうかの予報のほうが信用できないという、経験上も、またより未来のことなのだからその難しさもイメージしやすいことを述べただけです。

では、なぜ未来のほうが予報の精度は落ちるのでしょうか?月や太陽が空のどこにあるのかは、何十年後まででも精確に予言できる。月食や日蝕がいつ起こるのか完璧な予言が可能。では、未来の天気の予言はなぜ難しいのか?物理では、その原因はカオスであると教えているし、また、気象学者もそう考えている。つまり、天気の時間変化はその非線形性から初期状態の違いに敏感(初期値鋭敏性=「カオスの定義」)で、一方、ある時点での天気の状態を完全に知ることは不可能(観測網は50キロ間隔とかで、その間の地点での情報はない、など)なので、そのことが天気の状態の誤差となって、未来の天気の状態を計算しても誤差が大きくなってしまう。結果、外れることが多くなる。未来になればなるほど、予報時間が長くなればなるほど、誤差は指数関数的に増加するので、外れる率も増加し、明日よりも明後日、明後日よりもし次明後日のほうが天気予報は外れやすくなる。

つまり、大気の状態の時間変化がもつカオス性が天気予報が外れる原因である、と考えられているわけです。大気の対流の簡単なモデル(たった3個の変数しかないモデル)を研究し、それがカオス性をもつことを発見したローレンツ(1963)以降、そう信じてきたわけです。ローレンツはその3変数のモデルの時間変化のパターンに蝶の形をした、いわゆるローレンツアトラクタを発見し、この「蝶」が天気予報の難しさの象徴となったわけです。天気は蝶がひらひらと飛ぶような気まぐれな時間変化を行う。そして、気象学者はその気まぐれな蝶を網をもって追いかける。蝶はきまぐれに飛ぶ(カオス)のだから、天気予報が外れるのは仕方がない、というエクスキューズも気象学者に与えてくれた蝶。

でも、気象学者が使っている網は、蝶をちゃんと追いかけることは出来るのでしょうか?ある時点での蝶の位置の誤差(初期値の誤差)がその後の蝶の位置の計算結果に大きな誤差を生むというのは正しいのでしょう。けれど、そもそも網が蝶を追うことができないなら、初期値の誤差がどうのこうのという以前の問題ということになります。

気象学者は、網はちゃんと蝶を追えているという信念のもと、初期値誤差に対応して網の大きさを大きくすればいいと考え、「アンサンブル予報」を開発しました(1993)。これは、異なる初期状態を多数用意し、その時間変化を計算して出来た多数の未来の状態の様子から、確率の言葉で予言するというものです。1匹の蝶では初期位置の誤差に対応できないので、初期値の誤差に対応した大きな網を用意し、その中に多数の蝶をいれて(気象学者の網の運動のモデルで)飛ばす。多数の蝶のうち80%が雨、20%が晴れに到達したなら80%で雨が降ると予言するわけです。けれど、網の大きさをおおきくし、蝶の初期値誤差に対応したつもりでも、網が蝶を追えないなら意味がありません。蝶が本来飛んだであろう位置と網の位置がまったくずれてしまうので。

気象学者の信念は正しいのでしょうか?彼らの網はちゃんと蝶を追えるのか?この問題を扱ったものとして、以前、オレルの本「明日をどこまで計算できるのか」の紹介をしましたが、彼の主張を理解するために、2001年オックスフォードでの博士論文「Modelling Nonlienar Dynamical Systems: Chaos, Uncertainty and Error」を読んでみました。

彼の博士論文の動機は、天気予報が外れる原因はカオスといわれるけれど、それは本当なのだろうか、天気予報に使うモデルのもつ誤差(モデル誤差)は無視していいのだろうか、という点です。ここでモデルといっているのは、未来の天気の状態を計算するのに使う微分方程式のことであり、気象学者がもっている網の運動を記述するものです。彼は、モデル誤差を計算する方法を開発し、初期値の誤差による誤差(初期値誤差)、天気予報の誤差と比較しました。結論は、モデル誤差のほうが初期値誤差よりも大きく、3日後までは天気予報の誤差のほぼすべてはモデル誤差である。また、天気予報に使っているモデルは天気の状態を数時間しか追跡できない(=モデル誤差が観測誤差程度の大きさになる時間が数時間)というものです。数時間なら確実に予言できるけれど、それを越えれば網が蝶を捕まえられるかどうかはサイコロの世界の問題になるわけです。

つまり、気象学者のもつ網は蝶を数時間しか追うことができない。いくら網を大きくしてもあまり効果はなく、数時間すれば網から抜け出た蝶と見当違いなところを網は動くことになります。ちなみに、左上の図はオレルの博士論文の最後のページに描かれていたものですが、すでの網の中に蝶はいませんし、この後網が蝶をとらえるかどうかはサイコロ次第。

2010年10月23日土曜日

のぼうの城


爽快。読後感はこの一語に尽きます。

石田三成VS成田長親。三成は有名ですが、成田長親の名はこの本で初めて知りました。秀吉の小田原・北条攻めで、関東の北条配下の地の掃討戦を任された三成。その前に立ちはだかったのが、今の埼玉県行田市の武州・忍城。この本は北条氏の降伏まで白旗を上げることなく奮戦した忍城の様子を描いたものです。

忍城の城主・成田氏長は秀吉に通じ、秘密裏に開城し降伏せよと命じて自らは小田原城につめてい。しかし「のぼう様」こと長親は三成軍の態度に我慢がならず交戦に決定。三成率いる豊臣軍の力攻め、水攻めを跳ね返してしまう。その様の痛快かつ爽快なこと。

最後に開城の使者として三成が忍城の面々と会うのですが、そこでの三成の発言。
「この忍城攻め、当方には甚だ迷惑ながら、坂東武者の武辺を物語るものとして、百年の後も語り継がれるであろう」「よき戦にござった」そして、陣に戻る途中、大谷吉継に「負けた、負けた、完敗じゃ」と叫ぶ。

映画化がきまっているそうです。野村萬斎さんと「のぼう」様のイメージが合わないのですが、楽しみです。

2010年10月17日日曜日

安心社会から信頼社会へ―日本型システムの行方



今の日本は「みんななかよく」でやっていくには、そのコストが高くなり、無理になってしまった。では、「みんななかよく」で、自分のコミットする集団に閉じこもって「安心」するのではなく、よりオープンに他人と関係を築いていくには、どうすればいいのか。それには、「信頼」が重要である。

この本の面白いのは5章。コミットする集団で生き残るためには、集団内の人間関係の予測が大事。それは、コミットする集団外の他人(以下、「他人」)が信用できるかどうかの予測とは関係のない。「他人」を信頼する人は、知識レベルも高く、また、「他人」が信頼に値するかどうかの識別能力が優秀だが、コミットする集団内の人間関係の予測は普通。「他人」の識別能力は「他人」の立場になって考えられることなので、共感する能力も高い。一方、「「他人」を見たら泥棒と思え」と考える人は、「他人」の識別能力が劣るけれど、コミットする集団内部での人間関係の把握には優れている。「他人」の立場になって考えられないので「他人」に共感もせず、そのため大事なはずのコミットする集団への帰属感も弱く孤独を感じている。

池田氏のブログを読んでいると、日本は中間集団が圧倒的に強く、そこでの失敗は致命的。他の中間集団への移動も難しい。そこで生き残るには、集団外の人間を排除し、集団内部の人間関係を把握しなかればならない。でも、そうした集団が好きなわけでもなく、飲み屋ではコミットする集団の他人の噂と上司の悪口ばかり、とよく書かれています。

でも、そうした閉鎖的な社会もこれから崩壊し、「安心」が失われる。その「安心」に代わり「信頼」で新たに他人との関係を築いていく必要がある。それがこの本のタイトルの「安心社会から信頼社会へ」の意味。安心が消えることは悪いことではなく、信頼できる「他人」をしっかり信頼していけば、未来の可能性は大きくなる。

「他人」を信頼する心は大事にしたいですね。そのほうが面白い研究もできるだろうし。

2010年10月13日水曜日

人VSコンピュータ

人とコンピュータのどちらが賢いのか?チェスに関してはIBMのコンピュータがチェスの世界一を破り、コンピュータのほうが賢いことが示されました。かなり昔の話なので、当時は互角の闘いの末だったのですが、コンピュータの計算速度の向上を考えると、いまはチェスで人がコンピュータに勝つことはないでしょう。

一方、チェスではなく、将棋、囲碁の場合はというと、一度死んだコマが生き返ったり、場合の数が爆発したり、盤面のパターン認識が難しかったりで人間のほうが強い時代が続いていました。しかし、将棋の世界ではそれも終わり。今回は女流名人ですが、羽生さんであっても勝てたかどうかは怪しいものです。仮に勝てても、数年すればコンピュータの進化に負ける。(噂では、情報処理学会が羽生さんに対局を申し込むときに「50周年のいまなら羽生さんが勝てるかもしれないが、数年したら絶対に負けるから、いまがベスト」と口説いたとか。本当か嘘かは知りませんが。)、囲碁も、現時点では人間が強くても、過去の対戦パターンを覚え、先読みの計算速度を上げていけば、コンピュータが人間に勝つのは時間の問題です。

一方、競馬予想を計算機にやらせてみると、単純なロジットモデルに過去のレースのデータをいれただけでは全然勝てない。人の予想の精度がAccuracy Ratio(AR)で測って68%、ロジットモデルでは、20数個のファクターをいれても57%程度で、差は10%近い。これは、天気予報で言えば、明日の雨が降るのか、と明後日雨が降るのか、の一日の差程度で結構大きい。では、「競馬ファンが賢い」、「競馬ファンの予想はコンピュータよりもすごい」と言えるかというと、そうとも言いきれない。まだよくは分かりませんが、競馬ファンの予想精度のもとになる情報は、結局競馬新聞の情報であって、本命、対抗、穴馬といった印が馬券の投票によって集約されたもの。もちろん、競馬ファンがまったく予想精度の向上に寄与していないわけではなく、ARで言えば+2%程度は貢献しているのですが、68%のうちの66%が競馬新聞で+2%だけが競馬ファンの貢献とすると、「競馬ファンの予想精度はすごい」とは言えないです。(このあたりの数字とその解釈はまだ確信がないのですが。)

つまり競馬予想においては、競馬ファンの集団知がオッズを通して集約され、高精度の予想を行っているのではなく、競馬新聞の予想記事を書く人々の専門家の知が競馬ファンの投票を通してまとまっているだけ。その予想にコンピュータの単純なプログラムでは勝てない。すごいのは記者という専門家であって、競馬ファンではない。そして、問題は「競馬新聞の記者がどう予想するのか」を明かにし、「それをいかにプログラムに組み込むのか」ということになります。専門家の予想精度66%を再現する予想アルゴリズムを明かにし、ロジットモデルの57%を66%に向上させる。

将棋や囲碁ならコンピュータが人に勝つとニュースになりますが、競馬予想の場合、競馬ファンの形成するオッズに予想精度で勝っても、それが事実なら公表はしないし(どうやったかは)、ニュースにもならないでしょう。情報処理学会が総力をあげて競馬予想をして、それを販売すれば学会費を無料化とか、研究資金援助とか、いろいろ出来ると思うのですが。「将棋で勝っても日本人の将棋ファンしか興味を持たないぞ」と思うのは私だけなのでしょうか。

2010年10月10日日曜日

Kindle 3


ドキュメントスキャナで本をPDF化、いわゆる「自炊」したあとは、読むためのデバイスが必要になります。そこで、アマゾンのKindle3という電子書籍リーダーを買ってみました。Kindle 3はアマゾンの電子書籍リーダーの一番新しいもので、画面サイズは画面サイズが6インチ(実測では縦12.3、横9センチ)。値段はWIFI板で139ドル。論文を読むなら、A4が等倍スケールで読めるものがいいのですが、表示画面が30センチ、20センチでバカデカくなるのと、そういうデバイスがない。Kindle3ではなく、Kindle DXだと、9.7インチで、値段が倍(3Gで379ドル)ぐらい違う。

迷ったのですが、今回は電子書籍リーダーとはどんなものか試してみたかったので、Kindle3にしました。学生さんに講義ノートを配るのでも、コピーや印刷といった紙ではなく、電子ファイルのダウンロードに移行したいので、そのチェックもかねて。

結論からいえば、Kindle3は読む本を選ぶ。また、自炊で作成したPDFファイルだと、もうすこし高機能のものがいい。まず、画面が小さいので、文庫本程度のものを自炊したものなら読めるのですが、単行本だと文字が小さくなりすぎる。左上の画像は、「芭蕉はどんな旅をしたのか」のあるページ。この本は江戸時代地の貨幣価値に興味があって読んでいたのですが、上下2段になっていて、ファイルをそのまま表示すると文字が非常に小さい。読めないことはないのですが。表示スケールを1.5倍にしたのが画像の状況で、これなら楽に読める。Kindle3の画面サイズは文庫本が一番あっている感じです。あと、自炊のPDFファイルの場合は、ページによっては薄くかすれたようになることがあるのですが、その場合のコントラストの補正を手動で行わないといけない。これも面倒。

つまり、文庫本ならKindle3、単行本ならKindle DXぐらいの画面サイズが必要で、また自炊のPDFファイルを快適に読むなら、Kindle3よりもっと高機能のものが便利。電子書籍がもっと広まれば、自炊する必要もないのでしょうが。ソニーや他のメーカーの電子書籍リーダーに期待したいものです。リーダー自体は非常に便利なので。

追記:自炊しか電子書籍の供給がないなら、電子書籍リーダーは流行らないでしょう。しかし、電子書籍リーダーの略語、代名詞はなんになるのでしょう。あと、Kindle3の6インチの画面サイズは文庫本にはいいのですが、キーボードなどの余分なもののために、携帯性にはすこし欠ける。タッチスクリーンでキーボードを排除し、液晶の外枠はもっと細くしてほしいと、外出時に持ち出してみて思いました。

2010年10月9日土曜日

素数に憑かれた人たち


ある数以下の素数がいくつあるのか。10以下なら2,3,5,7の4個という風にx以下の素数の個数をπ(x)と表すとする。この素数の個数を表す関数π(x)の公式を導いたのがリーマン。その公式は、ゼータ関数ζ(s)のゼロ点ρに関する和が含まれている。リーマン予想とはそのゼロ点ρのうち、(負の偶数ではない)非自明なものの実部が1/2だというもの。リーマン自身は素数の個数の公式(図参章)を導いただけで満足していたみたいで、リーマン予想の部分は自分では証明できないけれど、公式には何の関係もないといってスルー。現在でも証明されていない。

このリーマン予想を丹念に、歴史的な背景も含めて解説した本です。文句なく面白い。後半の量子カオスとの関連とか、コンヌの非可換幾何との関連部分はよくわかりませんが、リーマンが導いた公式(図参照)の証明は、その大部分がトレースできるのが読んでいて非常にうれしくなります。

数学は私も好きな分野ではあるのですが、数学科の講義に出ると、ごく一部のハイパー優秀な数名と、その他大勢の普通に優秀な人に明確に分かれるシビアなところでもある。なので、私は数学(素粒子も)の研究者になることはありませんでしたが、憧れはいまでもあります。その点、物理は役にたつかもしれないけれど、なにが面白いのでしょう。そこが分からず物理学科の講義はほとんどサボったため、いま物理を教えるのに苦労しています。

2010年10月2日土曜日

投票実験の被験者募集のお知らせ

以前に紹介した投票実験の参加者募集のお知らせです。

「三人寄れば文殊の知恵」という諺があります。一人一人の知恵はたいしたことがなくても、三人集まって知恵を寄せ合えば、文殊さまのような素晴らしい知恵が生まれることを言ったものです。でも、果たしてこの諺は正しいのでしょうか?なぜ一人一人では大したことはないのに、三人集まるとパフォーマンスが上がるのでしょうか?こうしたことを実験で検証すべく、投票実験を行うことにしました。

この実験では、難しい二択のクイズに対して、他の人の投票結果の部分的な情報をもとに、各自の正答率を上げるように投票してもらいます。簡単に言えば、「人は空気を読んで投票するのか?」、また、「空気を読めばパフォーマンスがあがるのか」を検証することを目的とします。

また、関連して美人投票の実験を行います。AKBのアイドル5名の顔写真をもとに、「みんなが美人と思うほうに投票した人が勝ち」というルールに設定したとき、人はどう投票するのか?難しいクイズと同じように、他人の投票結果について部分的な情報を与えながら投票してもらい、自分が「かわいい」と思うほうを信じるのか、それとも「他の人はこう思うだろうなと空気を読むのか」を調べるわけです。

実験実施日:10月16,23,30(土)午前9時から午後19時半のうちの2時間半。説明30分、実験2時間

募集対象:北里大学の学生

謝金:3150円(税込み)+正答率上位者(2割弱)に報奨金

ご希望の方は、学部、学年、氏名、希望日時を以下の神田宛にメールしてください。折り返しご連絡します。

なお、人数や時間の都合上、お断りさせていただく場合もあります。ご了承ください。また、メールに書かれた情報は、本実験の連絡のみに用い、それ以外の用途には一切使用しません。

神田:chakkaman0629@excite.co.jp

応募のメールはこちらへ@神田