2017年1月4日水曜日

機械学習入門

あけましておめでとうございます。2017年の最初のBlogの更新ですが半年ぶりです。今年はもうすこし更新回数を増やしていきたいと思います。

お正月に読んでいた本が、Twitterで流れてきた大関先生の「機械学習入門ーボルツマン機械学習から深層学習まで」という本です。機械学習には以前から興味があり、競馬予想にも取り組んだことがあります。といっても枯れた技術である多項・多重ロジスティック回帰で過去のデータをもとに馬の勝率を予想するものでした。機械学習としての新しさを目指したものではなく、馬券市場でのヒトの集団の予想精度はどの程度なのかを知るために、機械学習と比較したというものです。結論は、

1:ヒト集団の予想が明後日雨が降るかどうかの天気予報レベルとするなら、機械学習は明々後日の天気予報レベルである」

2:競馬新聞の記者一人の予想よりは高い精度で予測出来る。競馬市場の予測に勝つことはない

3:競馬市場の予測は競馬新聞の記者の予想を軸にオッズを微調整するものである。勝ち負けに関しては集合知が新聞記者の専門家集団に勝ることはない

というものでした。

ただ、「機械(学習)は専門家集団に勝てない」と結論するには、比較に用いたロジスティック回帰はあまりにも枯れた技術で、最新の機械学習手法ではない。ニューラルネットや最近はやりのディープラーンニング(深層学習)を使えばアルファGoのように専門家集団に勝てるかもしれないわけです。

また、競馬予想で機械がヒト(専門家集団)に勝てるのかとは別に、ヒトの自然における法則性の認識の問題は高校のときからずっと興味があり、これまた最近はやりのスパースモデリングの勉強もしたいと思っていました。ヒトが認識できる自然法則はヒトの認識にのどように縛られているのか、という問題に答えるにはデータサイエンスとしてヒトの認識をモデル化して理解する必要がある。

そんなか、Twitterのタイムラインに大関先生の「機械学習入門」の情報が流れてきたので、さっそく注文して読んでみました。内容は、しらゆき姫に登場する魔法の鏡をお后さまが機械学習で作り上げていくもの。

 最初は、年齢や目のぱっちり具合などの要素をもとに、国民アンケートのデータを使って美人度を線形回帰モデルで作りましょうから始まり、線形だとあんまりなので、シグモイド関数を用いてニューラルネットでやりましょう、でも、ニューラルネットだと計算時間が発散するので、シグモイド関数をランプ関数という計算時間が劇的に短くなるものに変えましょう、これがディープラーンニングだ、という感じで展開します。

さらに、データに穴がある場合にデータを少数のパターンで生成するスパースモデリング、パターン生成において足し算しか使わない非負値制約行列分解、お肌の状態を知るための画像認識から画素間のつながりを考慮したボルツマンマシンという磁石のモデル、そして、ヒトが顔を認識する場合、画素を認識するのではなく、目や口といったパーツをベースにしていることをもとに隠れ変数モデルと、研究の最前線まで一気にすすみます。

なかなか盛りだくさんで消化不良の部分も多いのですが、機械学習で精度を上げてもヒトの現象の理解にはつながらないので現状のどこをよくすればよいのかのアイデアにはつながらない。それよりもデータのパターンを機械学習で認識した上で、それをヒトが読み、その上で機械学習でモデル化することで現状を改善するヒントにつなげていく。

今年は機械学習の勉強に励んでみようと思います。後期の大学院の講義は機械学習チュートリアルで回帰モデルあたりからディープラーニングを扱ってみましょう。とりあえず巻末の参考文献を片っ端から注文して読んでみて、競馬や現在扱っている選挙のデータのパターン認識や予測で遊んでみたいと思います。後期までに間にあうかが問題ですが、今月10日が大学院の講義のシラバスの締め切りなので、見切り発車になりそうです。

今年の抱負でした。

ちなみに、今年の研究は、日本やアメリカの選挙のモデル、非定常多腕バンディットのナッシュ均衡の集団実験による検証、外部情報のある非線形ポリア壺の情報伝達、2ch掲示板のスレッドの効用の推定と書き込み数予測などをやっていきます。卒研生が6名、大学院2名なので、新し題材を探しながらの自転車操業になりそうですが。

0 件のコメント: