第二回。今回は予測を行うにあたって、統計ソフトであるRの"randomForest"パッケージを利用する方法を用いました。
randomForestパッケージのインストール
randomForestパッケージをRに追加するには、CRANからネットワークインストールを行うやり方が最もてっとり早いです。具体的にはRを起動させてから
> install.packages("randomForest")
と入力してください。コンパイルが開始されます。
もしコンパイラが存在しないとかでエラーがでた場合、apt-getかなんかで適当にインストールしてから、再度試みるとうまくいくはずです。
randomForestパッケージの利用
randomForestパッケージの利用手順は、おおまかに以下のようになります。
- library(randomForest)でパッケージを読み込む。
- dat.rf <- randomForest(formula ,data=dat ,ntree=500)
でRFに学習させる。dataには学習に用いるデータテーブルを指定。formulaには推測に用いる変数を"y~x1+x2"のようにして記述する。y以外のすべての変数を推測に用いるならば"y~."とする。ntreeには発生させる決定木の数を指定する。 - dat.pred <- predict(dat.rf ,newdata=dat.test)
でRFに推測させる。newdataには推測に用いるデータテーブルを指定する。
- plot(dat.rf)とすると、決定木の数と予測精度の推移をグラフで見ることができる。
- varImpPlot(dat.rf)とすると、各説明変数の予測に対する寄与度を見ることができる。
次回はこのパッケージを用いて実際に予測してみます。