Dark Knowledge

G. Hintonの"Dark knowledge"のスライドが非常に興味深いので,数式多めにメモ.

通常,多クラス識別での交差エントロピー(cross entropy) {C_H}

{ \displaystyle
C_H = - \sum_k t_k \log p_k
}

と定義されます.ここで,{ \displaystyle
p_k = \exp(x_k) / Z_x
} ({Z_x}は規格化項)で{t_k}はtrue label(正解クラスなら{t_k = 1},他は0)です.

一度 {C_H} を最小化する訓練(hard target model)をして,出力 {\nu_k} が得られたとします. この {\nu_k} を使い,{t_k}の代わりに { \displaystyle
s_k (T) = \exp(\nu_k/T) / Z_\nu
} ({T}は温度パラメータ)をラベルに見立て,

{ \displaystyle
C_S (T) = - \sum_k s_k (T) \log p_k (T)
}

をsoft target modelでの交差エントロピーとします.

適当な温度 {T} (大きめ)と混ぜパラメータ {\alpha} (小さめ,1/(1+T2)程度)を使って交差エントロピー

{ \displaystyle
C_D = (1-\alpha) C_S (T) + \alpha C_H
}

と定義したモデルがdistilled modelです(多分).

コメント頂けるとありがたいです.

[12/10追記]:NIPS workshopのペーパーを見て、混ぜパラメータを変更しました。次元を持っている量と無次元量が混ざるのが気持ち悪い気がするが、hard targe modelの温度が1とすれば合う。