butch’s blog

メモ置き場。

制限ボルツマンマシン

参考資料:

https://www.jstage.jst.go.jp/article/jjsai/28/3/28_474/_pdf

  • データの生成モデル (Generative Model)
    • ボルツマン分布に従う。
    • ボルツマン分布のエネルギー関数はバイアス項に$\theta$, 相互作用項に$w$でパラメトライズされている。
    • これらのパラメータを観測データを用いて学習する。
  • 学習には勾配法が用いられる。
    • パラメータの微分値にボルツマン分布による期待値が含まれるため計算量が大きい。
    • MCMCやCD法などの近似手法で計算されている。
  • 制限ボルツマンマシン(RBM)
    • ノードを可視変数$v$と隠れ変数$w$に分けて異なる種類の変数間にしかエッジがない完全2部グラフで表されるモデル。
    • 「条件付き独立」と「周辺確率」で重要な性質を持っている。
  • 条件付き独立
    • 可視変数を固定した時の隠れ変数の条件付き確率がシグモイド関数の積で表される。
    • あるいはその逆もまた然り。
    • 確率変数の積の形になっているのでそれぞれを独立にサンプリングできる。
    • ギブスサンプリングを行って状態を更新して行く時の計算量が減る。CD法を用いる。
    • CD法:観測データを初期値に設定してサンプリングを行う。
  • 周辺確率:
    • 最終的に欲しい確率は可視変数の周辺確率なので隠れ変数については和をとって削除する。
    • 隠れ変数に対して周辺化した確率が解析的に表現できる。
    • $\ln{\cosh{\lambdaH_j}}$ が含まれている。$\lambdaH_j = \thetaH_j + \sum_i w_{ij} v_i$
    • これを$w$についてテイラー展開すると$v$の2次以上の高次の項が発生する。
    • よって隠れ変数の導入によりモデルが複雑化されている。