機械学習

機械学習とは

タスクT(アプリケーションにさせたいこと)を性能指標Pで測定し、その性能が経験E(データ)により改善される場合、タスクTおよび性能指標Pに関して経験Eから学習すると言われている。

 

■線形回帰モデル

タスクT:回帰問題

経験E:教師あり学習

性能指標P:平均二乗誤差(MSE)など

 

y = w_0x_0 + w_1x_1 + \cdots +w_mx_m = \sum^m_{i=0}w_ix_i
・入力とm次元パラメータの線型結合を出力するモデル
・回帰問題を解くためのモデルの一つ

・線型結合とは入力ベクトルと未知のパラメーターの各要素を掛け算し足し合わせたもの(行列表現をすると、入力とパラメータの内積で表される)

・入力のベクトルが多次元でも、出力は一次元(スカラ)となる

・入力ベクトルに対応するパラメータの値が大きいほど、その特徴量は予測値に大きな影響を与える。

・パラメータは最小二乗法、最尤法にて決定する 

 

非線形回帰モデル

タスクT:回帰問題

経験E:教師あり学習

性能指標P:平均二乗誤差(MSE)など

 

非線形構造を内在する構造に対して使用する。

・回帰関数として、基底関数と呼ばれる基地の非線形関数とパラメータベクトルの線型結合を使用する

・よく使われる基底関数として、多項式関数、ガウス型基底関数、スプライン関数がある

・線形回帰と異なる点として、基底関数の数、位置やバンド幅によってモデルの複雑さが変化する。そのため、過学習と未学習に注意を払わねばならない

過学習対策としてL1ノルム、L2ノルムに罰則を与える正則化が有効

・学習に使用した入力だけでなく、これまでみたことの無い新たな入力に対する予測性能のことを「汎化性能」という

・テストデータと訓練データを分ける方法として、ホールドアウト法とクロスバリデーション法がある。

 

■ロジスティック回帰

タスクT:分類問題

経験E:教師あり学習

性能指標P:正解率がよく用いられる

 

・入力とm次元パラメータの線型結合をシグモイド関数に入力することにより、0〜1の範囲の出力を得る。

・出力が0.5以上の場合Y=1、0.5未満の場合0と予測することにより二値分類に適用できる。

シグモイド関数微分シグモイド関数自身で表現できる。

 

■主成分分析

タスクT:次元圧縮

経験E:教師なし学習

性能指標P:MSEなど

 

・データに対して線形変換を行い、次元削減をする技術

・データの分散共分散行列の固有ベクトルを基底ベクトルとし、その固有値の大きさが全体への寄与率を表す。

 

■k近傍法

タスクT:分類問題

経験E:教師あり学習

性能指標P:正解率など

・最近傍のデータをk個とってきて、それらが最も多く所属するクラスに識別する。

・kを変化させると結果が変わり、kを大きくすると決定境界が滑らかになる

 

■k-means

タスクT:クラスタリング

経験E:教師なし学習

性能指標P:正解率など

・与えられたデータから距離や類似度を計算し、最も距離が近いクラスタを割り当てる

・各クラスタの平均ベクトルを計算する

クラスタの再割り当てと、中心の更新を繰り返す。

 

■サポートベクトルマシン

タスクT:二値分類

経験E:教師あり学習

性能指標P:正解率など

・「データ点と識別境界面との最小距離」を最大化にする、マージン最大化を行う。

写像関数により、元の特徴空間を高次元空間に社憎悪する事で、線形分離の可能性を高めるカーネルトリックと呼ばれる手法を用いることがある。