20170809

Twitterでは脳死発言しか出来なくなったので書く。

昨今オタク文化グローバル化によく出くわす。海外、特に東アジア出身のイラストレーターはもはや業界で当たり前の存在になっている。昔は違法サイトだった中国版ニコニコ動画ことbilibili動画はオフィシャルに配信するようになっている。日本のオタク文化の極地であろう淫夢やクッキー☆も、特に後者は当たり前のように海外でもコミュニティが存在する。美少女ゲームも、先日『素晴らしき日々〜不連続存在〜』のKickstarterが始まり、Steamではメジャータイトルの配信が順調に進んでいる。一昔前であれば、エロゲーをやる海外オタクは猛者と表現する他なかったが、美少女ゲームのシンポジウムも今年開催されるなど発展を遂げている。アニメーションこそ現時点では規模は異なるとはいえ『RWBY』など日本のオタク的なものを吸収して新たな展開をみせている。

もはやオタク的なるものが、日本固有のものであるという理解は困難な時代に突入している。もちろんこれはクレオール的な意味でのグローバル化の実践であり歓迎すべきものである。しかし、なぜここまでオタク文化、もといキャラクター文化は普遍的なのだろうかという問いはあっても良いと思う。ダメか?

 

 

 

単語の分散表現とソシュール的言語観

こういうことを書くと不要な怒られが生じるが書きたくなったので書く。

 

画像処理分野で起きたディープラーニングのブレイクスルーから早五年、その戦線は拡大し続けている。その戦場の一つが自然言語処理である。自然言語処理は、画像処理と全く同じ手法で解決できるほど簡単なタスク群ではなく、Sequence to Sequence LearningやAttention Mechanismといった様々な工夫が提案されてきた。今回取り上げるのはそのうちの一つ、単語の分散表現について書いていく。

 

分散表現の説明は様々なところでされているので省くが、要するに数〜数十万の単語を100~200程度の実空間に埋め込むことである。ある単語、例えば「表象」と表すのに分散表現を用いなければ、長さが数〜数十万で一つの要素が1で残りが全て0 {0,0.....0,1,0........0,0}のようなベクトルで表される。しかしこれでは「表象」が「表現」や「演出」といった他の単語との関係性が記述されない。そこで分散表現によって次元を落とし、「表象」と「表現」と「演出」が近いベクトルを持つようにする。

こうした考え方自体は突然出てきたものではなく、むしろニューラルネットワーク研究者がコネクショニストと呼ばれていた時代に彼らが主張してきたことである。とはいえ自然言語の分散処理が実用的になるのにはWord2Vecの出現を待たなければならなかった。

 

Word2Vecで驚くべきは意味の演算が可能になっているようにみえる点である。そしてこれはソシュール的言語観もとい構造主義の技術的実装だとして把握できる。

なぜそんなことが言えるのか。Word2Vecで実現した有名な例にking-man+womanに最も近いベクトルがqueenになるというものがある。kingのベクトルの中身が例えば{0.3,0.1,0.8}だとして、その数値列を読んでもそれが意味するところは分からない。しかし、king-man+womanがqueenに近いということに、その内実がただのベクトルの加減であったとしても意味が生じる契機が宿っている。ベクトルの意味は他ベクトルとの関係性に支えられている

少々雑に思想っぽく書けばつまり、Word2Vecにおいてシニフィアン(king)とシニフィエ({0.3,0.1,0.8})は対応付けられているがそのシニフィエは他のシニフィアン/シニフィアンとの関係によって成立している。*1

 

記号論の話を少しでも知っている人からすれば大したことは言っていないのだが、しかしWord2Vecのような近年出てきた深層学習関連の技術がこうした記号論だとか哲学だとかと絡めて話ができるのは僕のような人間にとってはスリリングなのだ。

*1:ここの整理はいくらでも検討の余地があるし暫定的にこれで許してほしい