深層学習の説明性
万能近似定理
この定理は、特定の条件下で、ニューラルネットワークが任意の連続関数を任意の精度で近似できることを示している。
具体的には、隠れ層が1つで、その層のニューロン数が十分に多い場合、そして活性化関数が非線形である場合、ニューラルネットワークは任意の連続関数を近似できるというもの。
定理の詳細
- 関数の近似: 万能近似定理は、多層パーセプトロン(MLP)が、与えられたコンパクトな集合上の任意の連続関数を任意の精度で近似できることを示している。
- 隠れ層の重要性: 定理は、隠れ層が1つであれば十分であることを示している。ただし、その隠れ層のニューロン数が十分に多い必要がある。
- 活性化関数: この定理が成り立つためには、活性化関数が非線形である必要がある。一般的にシグモイド関数やReLU(Rectified Linear Unit)などが使用される。
制限と注意点
- この定理は、ニューラルネットワークが関数を近似できることを保証するが、そのような近似が訓練データから学習できるとは限らない。
- 実際の応用では、適切なネットワーク構造を見つけ、訓練データで効果的に学習するための適切な訓練手法を選ぶことが重要。
- また、隠れ層が1つであれば理論的には十分ですが、実際の問題では、多くの隠れ層を持つ深いネットワークが必要な場合もある。このような深いネットワークは、表現力が高く、より効率的に学習できることが多い。
LIME(Local Interpretable Model-agnostic Explanations)
ある特定の予測を説明するために使用されるモデル説明手法の一つ。
この手法は、どのような機械学習モデルに対しても適用可能(モデルに依存しない)であり、特に複雑な非線形モデル(例:深層学習モデル)に対する説明を生成するために有用。
- データのサンプリング:元の入力データ点の近傍からデータをサンプリングする。
- 予測の実行:これらのサンプルに対して元のモデルを用いて予測を行い、その出力(通常は予測ラベルや確率)を取得する。
- 単純なモデルの訓練:サンプリングされたデータ点とそれに対応するモデルの出力を用いて、単純なモデル(通常は線形モデル)を訓練する。このモデルは元の入力データ点の近傍で元のモデルの挙動を近似する。
- 説明の生成:単純なモデルの特徴量の重要度や係数を用いて、元のモデルの予測を説明する。
LIMEの主な利点はその柔軟性である。
任意のモデルに対して適用でき、各種のデータタイプ(テキスト、画像、タブラーなデータ等)にも対応している。
ただし、この手法はあくまで近似であり、全体のモデルの挙動を説明するものではなく、特定の入力データ点での挙動を説明するもの。
それにより、大局的な挙動については必ずしも詳しく説明できないという制限がある。
SHAP (SHapley Additive exPlanations)
ある入力に対しての予測結果に対して、どの特徴量が寄与したのかを解析する手法。
LIME と同様、局所的説明である。
SHAP では入力 \(x = [x_1, x_2, ...x_m]^T\) と学習されたモデル f が与えられた時、モデル f を各変数の寄与度が説明しやすい簡単なモデルで近似する。
\[g(z') = \phi_0 + \sum_{j=1}^{M} \phi_j z_i' z' = [z_1', ..., z_M']\]ここで、入力 xを単純化した z′ を考える。 各 \(z_i'\) は例えば x の i 番目の変数が観測されていれば 1 、そうでなければ 0 となる。 今求めたい変数の寄与度は上式での \(\phi_i\) 。
SHAPではモデル g に対して次の性質を持つように制約を加えます。
- local accuracy: 学習済みモデル f で予測した結果 f(x) とモデル g で予測した結果 g(z) が一致、つまり \(\phi_i\) の和は説明したいモデルの出力値 f(x) に等しい。
- missingness: \(z_i' = 0\) のときは \(\phi_i = 0\) 。つまり、結果に影響を与えないような特徴量は、その予測に対して貢献していない。
- consistency: ある変数のモデル f の出力に対する影響力が大きければ、その変数の寄与は大きくなる( \(\phi_i = 0\) が大きくなる)