さて、今回は2001年ごろに登場した、比較的新しい手法と言われる集団学習の一派『ランダムフォレスト(Random Forest)』法を用いて株価の予測を行ってみました。
ランダムフォレストって?
ランダムフォレスト(RF; random forest)法は,集団学習法の一種である.集団学習(ensemble learning,アンサンブル学習とも呼ぶ)法は決して精度が高いとは言えない複数の結果を組み合わせ,精度を向上させる方法である.いわば,「三人寄れば文殊の知恵」である.集団学習法の中の代表的な方法としてはバギング法,ブースティング法,ランダムフォレスト法がある.
(p.256 金 明哲,村上 征勝『ランダムフォレスト法による文章の書き手の同定』,2007)
大体のイメージとしては、あんまり精度が良くない予測システムを200〜500個くらい作って組み合わせることで、精度の良い結果を得ようとする感じです。
他の手法に比べて利点は?
そもそも「データを元に何かを推測する」というやり方はとっても応用範囲が広い、しかも「推測」っていうのは人工知能と絡んでくるため、ずっとずっと前から研究が続けられてきて、様々な手法が開発されてきました(e.g. Artificial Neural Network(ANN),Genetic Algorism(GA),Support Vector Machine(SVM),...and more!!)。その中の1つとして集団学習があり、さらにその中の1つとしてランダムフォレストがある感じです。
それじゃあランダムフォレストは他の手法と比べて何か利点はあるの?というと、以下の通りとなります。
- 多くのデータセットを用いることによって、とても正確な分類を行うことができる。
- 非常に多くの説明変数を扱うことができる。
- データマイニングにおける分類問題において、説明変数の重要度を見積もることができる。
(結構重要。他の手法は主にどの変数によってアウトプットが決定されるのか分からないものがある。) - 欠損したデータを良い精度で推測できるので、データの大部分が欠損していても正確さを保つことができる。
- 従来の手法に比べて、学習速度が早い。
などなど…(英語版のwikipediaよりいくつかの項目を超訳しました)
ランダムフォレストについて詳しく知りたい方は、『Breiman, Leo (2001). "Random Forests". Machine Learning (pdf)』を参照してください。
とりあえず長くなりそうなので今日は概要まで。次回から具体的な手法に入っていきます。
0 件のコメント:
コメントを投稿