VR時代でのMicrosoft、Google、Facebookのような独占企業になる

先日、一枚の顔写真から自分そっくりそのままの3Dモデルを自動で生成するVRコミュニケーションサービス「EmbodyMe」 をSteam、Oculus Storeで配信しました。

アプリの詳細、今後の展開などについてはプレスリリースをご覧いただきたいのですが、なぜEmbodyMeをやっているのか、最終的に何を目指しているのかについて書きたいと思います。

 


EmbodyMe

 

VRが普及した際に、かつてのMicrosoftGoogleFacebookのように独占的な勝者になる企業はどこで、どの領域を独占すべきなのでしょうか?
それは、アバター、つまりバーチャル上での人間であり、そこを独占した企業が最終的な勝者になると考えています。
過去に独占的な勝者になった企業、なぜ独占できたかについて振り返ってみましょう。

 

PCの時代に最終的な勝者になったのは、OSを抑えたMicrosoftでした。
インターネットが登場するまでは、PCは情報の加工、保存といったユーザの目的が主であり、OSがその意味で最も根本にあるプラットフォームであったからです。
PC初期、その根本にあるプラットフォームは、どこもPCのハードウェア自身だと考え、各メーカーが競争を繰り広げていました。
しかし、ユーザにとって根本的な価値を提供するのはハードウェアではなくOSです。
情報の加工、保存といった目的では、ハードウェアのパフォーマンス云々よりも、OSの上で動くソフトウェアが重要であり、そのOSが広く普及していることが重要です。

 

最初はCP/MというOSが普及していたのですが、Microsoftは、IBMCP/Mとの交渉がうまくいっていないことを聞きつけました。
そこでMicrosoftCP/Mクローンの86-DOSというOSを他の会社から買ってきて、IBM PCに導入させことに成功しました。
その後、IBM PCが大成功したのですが、そのIBM PCの互換PCを作るにはMicrosoftのOSが必要だったので、広く普及したというわけです。
(そこらへんの話は、色々な資料がありますが、特に西和彦さんのインタビューがわかりやすく面白かったです。)

 

netgeek.biz

 

インターネットの最初に独占的な勝者になったのは検索エンジンを抑えたGoogleです。
インターネット初期では、情報の受信がユーザの目的が主であり、検索エンジンがその意味で最も根本にあるプラットフォームであったからです。
最初はその根本にあるプラットフォームは、NetscapeIEのようなブラウザであると考えられ、90年代後半では、Yahoo!のようなポータルサイトだと考えられていました。
90年代後半にはすでにYahoo!が独占的な地位を確立していて、他の企業は勝ち目がないように見えていました。
検索エンジンポータルサイトの機能の一つとして当然のように考えられていたので、Yahoo!はその検索エンジンGoogleを導入しました。
しかし、そのことがGoogle知名度を上げ、爆発的に広まるきっかけになり、最終的な勝者になりました。

 

情報の受信という意味において、ユーザにとって根本的な価値を提供するのはポータルサイトだと直感的には思えるかもしれません。
しかし、ポータルサイトが提供するWebサービスがあらゆる分野で独占を築くのは非常に困難です。(日本のヤフーのような例外はありますが)
ユーザに価値を提供するのは、ポータルサイトが提供するWebサービスよりも、その他多くのWebサイト、Webサービスであり、ユーザの目的にあった情報に素早くたどりつく検索エンジンが最も根本にあるプラットフォームなわけです。

 

次に独占的な勝者となったのは、SNSを抑えたFacebookです。
インターネット初期では情報の受信するという観点で世界が構築され、情報を発信したいというユーザのニーズが考えられていませんでした。
SNSは、ユーザが情報を発信する目的で構築されたサービスで、その意味で最も根本的なプラットフォームです。
人を中心に情報をやりとりするのが、(マスな情報の受信ではなく)情報を発信したいというニーズをかなえる上では最も自然な形であるからです。
SNSは本来的にネットワーク効果という独占性を持っており、Facebookハーバード大学アイビーリーグ、全米の大学、全米の学校というように独占性を維持しながら拡大する戦略で、最終的な勝者になりました。

 

では、スマートフォンの時代ではどうなのでしょうか?
スマートフォンでは、根本にあるプラットフォームは再びOSになり、そこを抑えたGoogleAppleが勝者です。
PCでは、情報の加工、保存などはOS上のアプリで行い、情報の受信、発信はブラウザ上で検索エンジンSNSを起点に行っていました。
しかし、スマートフォンでは、情報の発信、受信、加工、保存などすべて、ブラウザではなくアプリを起点に行うようになりました。
Appleがビューの起点にアプリを据え、アプリストアで簡単に目的のアプリを入手する流れを生むようにOSを設計したためです。
スマートフォンではFacebookも数多くあるアプリの中の一つであり、Apple/Googleの意向次第でアプリの審査が通らず、ビジネスの幅が制限されている状況にあります。

 

では、VRが普及した世界では、どこが独占的な勝者になるのでしょうか?
それには、まずVRのユーザにとっての根本的な価値が何であるかを考える必要があります。
VRは、ユーザの視覚を完全に乗っ取り、現実にないものが現実にあるかのように感じられる圧倒的な体験に価値があります。
逆に言えば、単に情報を伝えるだけなら文字で十分であり、その文字情報を補足する手段としても画像や動画があれば十分に伝わる場合がほとんどです。

 

では、視覚を乗っ取り、現実であるかのように感じられる体験の中で最も根本的な部分はどこにあるのでしょうか?
それは、人間の視覚の仕組みを考えれば明らかです。
人間の視覚は、人を認識する感覚が最も優れていて、何よりもまず人を認識するように作られています。
赤ちゃんが生まれて初めて認識するものは、母親の顔と体です。
どこかの部屋に入ったら壁や柱よりも、そこにいる人をまず認識するし、眉を1mm上げるといった微妙な表情の変化を識別する能力があるのです。

 

つまり、リアルな人を感じる体験がユーザにとって最も重要であり、バーチャルでの人=アバターが最も根本的なプラットフォームであると言えます。
VRの体験をしたことがある方なら、ゾンビが襲ってきたら恐怖を感じ、異性が近くにきたらドキドキするといった感覚が理解できるのではないかと思います。

 

しかし、当然、人は人を認識する能力が非常に発達しているので、アバターに対して人間にない微かな違いでも敏感に察知します。
いわゆる「不気味の谷」と言われる現象です。
不気味の谷」を超えるのは技術的に大変困難ですが、そこを超えた企業がVR時代を制すると思っています。

 

Facebook Spacesなど現状のプレイヤーは、Miiのような漫画風のアバターを採用しています。
本当にリアルな人が感じられる体験をあきらめ、抽象的な人の要素の一部を抜き出した体験を提供しているわけです。
また、Miiのように眉や目を動かしたりして自分に似せるのですが、その作業は単純に手間がかかります。

 

EmbodyMeでは、顔写真一枚から自動的に人の3Dモデルを生成します。
アバターを作るのに手間がかからず、本当にリアルな人が感じられる体験を目指しています。
不気味の谷」を超えるためには、技術的な課題が数多くありますが、VRを制する企業になるべく、日々技術を進歩させています。

 

PC時代に最初に根本的なプラットフォームになると思われていたのはハードウェア自身でしたが、最終的にOSが制しました。
また、インターネット時代では、ポータルサイトが根本的なプラットフォームになると思われていましたが、検索エンジンが時代を制しました。
VR時代で、最初に根本的なプラットフォームと世間に認識されるのは、ソーシャルアプリだと思います。
リアルな人を感じる体験の内容、例えば会議をする、ゲームをする、イベントに行く、買い物をする、といった部分はソーシャルアプリが提供するからです。
しかし、体験の内容は無限にあり、一つのソーシャルアプリでだけで提供されるものではなく、多くのソーシャルアプリにおいて提供されるものです。

 

PCのSNSは、文字がメインであり、文字は情報量が少ないのでサービスのバラエティを出しにくく、Facebookは独占的な地位を築くことができました。
ユーザにとっては、文字で人に情報を伝えられれば十分なわけで、人が少なくてもわざわざ乗り換えたいと思うだけのサービスの差別化要素を作るのが文字主体のサービスだと難しいので、ネットワーク効果がダイレクトに働き、独占的な地位を築くことができたというわけです。
(文字、画像、映像、VRの情報量の話は前回の記事をご覧ください。)

 

virtualreality.hatenablog.com


しかし、スマホ時代では、SnapchatやInstagramといった画像や動画メインのSNSが出てきて、Facebookはうまく買収をしてなんとか独占を保っているように見せかけている状況と言えます。
VRでは日常のすべてのソーシャルな行動を対象としている上に、情報量が圧倒的に多く、例えば、出来ることは変わらなくてもグラフィックを変えるだけでも、ユーザに別の価値を与えられるサービスを提供できます。
つまり一つのソーシャルアプリが大ヒットすることはあっても、独占的な地位を築くのは難しいのではないかと思っています。
しかし、その多くのソーシャルアプリの中で共通する根本的なユーザの価値はリアルな人を感じられるということであり、そこを抑えた企業が独占的な勝者になると考えています。

 

VRでソーシャルアプリが大ヒットしても独占するのが難しいというのは、IBM PCが大ヒットしたが、独占を築くまでには至らなかった状況に似ています。
ハードウェアとしてのPCは、性能、価格で勝負するしかなく、本質的に独占を築くまでの差別化が難しいのです。
また、Yahoo!ポータルサイトとして提供するWebサービスがあらゆる分野で独占を築けなかった状況にも似ています。
しかし、 MicrosoftIBM PCの大ヒットをテコにOSで独占を築いたように、GoogleYahoo!に導入されて独占を築いたように、アバターで独占を築くためには、大ヒットするソーシャルアプリにアバターが使われることが必要でしょう。
OSがハードウェアなくして成り立たないように、アバターはソーシャルアプリがなくては価値を持たないのです。

 

EmbodyMeは、VRでの独占的な勝者になることが目的であり、その長い道のりのための第一歩を踏み出した状況です。
将来の大きなゴールに向けて、今後も一歩づつ歩みを進めていきたいと思います。

なぜVRが普及すると確信するに至ったのか

前回のブログ記事では、今後数十年でVRがどのような役割を果たすかについて書きましたが、今回は歴史の中でVRがどのように位置づけられるかについて書きたいと思います。
それは、なぜ自分がVRが普及すると確信するに至ったのかという理由でもあり、VRは情報の歴史の発展性の文脈の中に綺麗に位置づけられるのです。
 
情報の歴史を紐解くと、VRは「音声」「文字」「画像」「映像」に次ぐ第五の情報の表現手段でであることが見えてくると思います。
19世紀後半に映像が登場してから、新しい情報表現が普及することは100年以上ありませんでした。
情報の歴史を、情報の表現手段と性質に分けてまとめたのが以下の図です。
 
○ 口伝
● 文字
◎絵
●◎ 手紙
◎写真
○ 電話
● タイプライター
○ レコード
○□ 映画館
○ ラジオ
○□ テレビ
○□ ビデオ
●◎ FAX
○●◎□ パソコン
●◎ パーソナルプリンタ
○□ テレビ電話
■ 施設型VR(初期のVRブーム)
○●◎□ インターネット(PC)
○ 携帯電話
○●◎□ スマートフォン
■ 現状のVRデバイ
○●◎□■ 将来のVR/ARデバイ
<情報表現>
○:音声
●:文字
◎:画像
□:映像
■:VR
 
 
<情報の性質>
斜体:パーソナルに情報を保存する手段
細字:一対一での情報のやりとり
太字:大多数の人に向けて同じ情報を発信
赤字:携帯できる
下線:誰もが情報を生み出せる
フォント大:距離が離れていても瞬時に発信
(電子的に発信)
 
 

 

人間はまず、話し言葉として言語を獲得し、文字で書くことで、時間、空間を超えて情報を伝達できるようになりました。
書き言葉も初めは、手書きなので少数の人にしか伝達できず、声が主体で音読する性質が強いものでした。
しかし、活版印刷が発明されると、多数の人間に情報を伝達することができるようになり、声より文字が主体となって論理的、抽象的な思考を獲得するようになります。
 
一方、視覚情報を伝える手段として、古くから絵が使われましたが、19世紀初めに写真が発明され、視覚情報をそのまま記録、伝達できるようになりました。
19世紀後半には、映像を記録、再生できるようになり、映画により大衆に広く普及していくことになります。
 
19世紀以前に、「音声」「文字」「画像」「映像」 が出そろいましたが、20世紀以降は新しい情報表現手段の大きな普及はありません。
その代わりに、20世紀以降はこれらの情報を電子的に伝達する手段が、手を変え品を変え様々な形で発展していくことになります。
面白い事にそれらの発展の順番としては、まず音声から始まり、文字、画像、映像と、19世紀以前の情報表現の発展の順番をなぞる傾向が見えてきます。
 
まず誰もが電子的に情報を発信する手段としては、19世紀後半に電話が発明されました。
20世紀前半には、FAXで文字、画像情報を誰もが伝えられるようになりました。
映像を伝える手段としてはテレビ電話が登場しましたが、普及するまでには至っていません。
そして、1990年代のインターネットの登場で誰もが自在に音声、文字、画像、映像を伝えられるようになりました。
 
一方、大多数の人に対して電子的に情報を伝える手段としては、まずラジオが普及しました。
その後、テレビが普及し、大きな力を持つメディアに発展しました。
そして、インターネットの登場、SNSの普及により、誰もが多くの人に情報を伝えるメディアとなりうる時代になってきています。
 
携帯してどこでも情報を伝えられるようになる手段としては、まず携帯電話が普及しました。
しかし、携帯電話はあくまで音声を伝える電話として設計されていて、文字、画像、映像を伝えられるように進化はしたものの、付加的な機能として位置づけられていました。
それがiPhoneの登場により、音声、文字、画像、映像を自在に伝える携帯インターネットマシンとして普及し、スマートフォンの時代に突入していくことになります。
 
インターネット、スマートフォンは、今まで音声中心だったものが、それ以外の情報表現を自在に伝えられるようになる進化と捉えることができます。
また、インターネット、スマートフォン上でのサービスを詳しく見ると、最初は文字主体で、写真が取り入れられていって、最後に映像に関するサービスが普及し、次のデバイスの時代へと移行していっています。
インターネットが始まって10年以上たった2006年にYoutubeが登場し、Ustreamニコニコ動画など動画サービスが普及してから、スマートフォンの時代へと移行していきました。
現在、スマートフォンにおいては、Snapchatなどの動画サービス、動画広告が花盛りで、次のVR/ARの時代へと突入しようとしています。
 
では、なぜ音声を伝えるものが最初に普及するのでしょうか?
一つには人間の体を直接使って情報を発信する手段として、音声が最も速くて簡単だからというのがあります。
キーボードだとトップレベルのタイピングスキルを持つ人でないと音声の入力スピードは超えられず、リアルタイムでのやりとりが必要なシーンでは今でも電話が使われていると思います。
 
また、胎児や、生まれたての段階では、視覚より聴覚優位なのが、だんだんと視覚優位になっていくという人間の発達過程にも関係しているのかもしれません。
前述した人類の言語獲得の順番もそうですし、 視覚に比べて聴覚はより原始的であると言えます。
 
聴覚はあらゆることをリアリティを持って感じることができるので、聴覚のVRはそもそも実現できていると言えるのかもしれません。
ヘッドホンをつけたり、また、ただ大きな音を出すだけで、それ以外の聴覚情報はほとんど遮断され、それだけがリアリティとなります。
また聴覚は視覚に比べて空間認識能力が低いので、内側に入りこむ感覚を味わうことになり、それゆえ、演説、お経などが説得力を持ち、人の心を動かしてきたのだと思います。
 
逆に文字は直接的なリアリティをそぎ落した表現です。
特に活字は、音声に比べて、情報量が極端に少なく、その分を人間の想像力に頼っています。
画像→映像→VRという情報表現の進化は、文字によって失われた情報を補い、ついに視覚のすべてを乗っ取るまでになったと言えるでしょう。
VRは、人間の想像する余地を極限まで減らし直接体験することに価値があるので、その意味でVRは文字と真逆の表現であるといえます。
 
なお、VRは20世紀後半に登場したもので、1990年前後にも大きなブームがあったことに言及しないといけません。
しかし、当時はかなり高額で、テーマパークなどに行かないと体験ができず、家庭用に登場したのは、バーチャルボーイなどかなり不完全なものでした。
今は誰もが買って家で体験することができ、ネットで情報を瞬時に伝えられます。
同じ映像を扱っていても映画館と家庭用テレビがまったく違うように、当時とは大きな差があるのだと思います。
 
また、情報表現として、VRに深い関係を持つ「3D」についても言及しないといけないと思います。
2010年前後に3D映画や3Dテレビのブームがあったことは、昨今のVRブームと関係があり、歴史上、3Dのブームが来た後にVRのブームが来ることが繰り返されています。
舘先生はこの傾向から現在のVRブームが来ることを予言していました。
その理由としては3Dの不完全さが関係していると舘先生が分析していますが、それについては是非講演のPDFを御覧ください。
 
VRが登場したからと言って、もちろん音声、文字、画像、映像による表現が衰退するわけではありません。
ゲームやアダルトなどのエンターテイメントにおいては、一度VRで体験すると戻れなくなる魔力があるので、従来の映像による表現はある程度衰退するかもしれません。
しかし、例えばニュースでは、文字・画像によるインターネット・新聞と、映像によるテレビニュースが共存していて、VRはそれに対する付加的な情報として最初は普及していくでしょう。
映像の発明によって、映画、アニメ、テレビ番組、ゲームなど新しいジャンルが次々と登場したように、VRでも今までにないジャンルが生み出されていくはずです。
そして、VRという情報表現が力を持つにつれ、VRと従来の音声、文字、画像、映像によるメディアを同じデバイスでシームレスに扱うことが急務となり、常に身に着けられるVR/ARデバイスの普及につながっていくでしょう。
 
大衆に普及するデバイスの歴史は、常に情報の進化の歴史とともにあります。
また、普及するデバイスには、情報を伝えたい、手に入れたいという根本の欲求に忠実であることと、既存の手段に飽きることによる新しさの欲求が、常に背景にあります。
20世紀以降、電子的に情報を伝えるデバイスが、手を変え品を変え次々と登場し、普及していきました。
最初は音声だけだったものが、文字、画像、映像を自在に扱うようになり、「誰もが使える」「携帯できる」などの新しい性質を備えて進化していきました。
 
しかし、スマートフォンの登場から10年がたち新しい何かへの欲求が強まる中、情報の性質の進化は限界をむかえ、その進化の方向性はVRという新しい情報表現の普及へと向かうはずです。
そしてVRという新しい情報表現が一般的になる数年後には、誰もが常に身に着けていて、VR、音声、文字、画像、映像を自在に扱えるシースルー型のデバイスが広く普及していくことになるのだと思います。

今後数十年で人間がたどっていく未来の予測

私がバーチャルリアリティ(VR)の会社を立ち上げた理由として、今後数十年で人間はどういう未来をたどっていくのかの予測があります。
 
VRは人間のインプットを乗っ取り、アウトプットを直接読み取る技術です。
 
人間のインプットとは五感や、平衡感覚などの感覚です。
VRというと、Oculus、Viveのようにヘッドマウントディスプレイを使って視覚、聴覚を乗っ取るものを思い浮かべるかと思います。
しかし、触覚などの体性感覚を刺激するデバイスも出ていますし、嗅覚、味覚のVRも重要です。
平衡感覚を直接刺激し、重力、加速度などを錯覚させるデバイスも発表されています。
人間のアウトプットは身体です。
喉を震わせて口で会話し、手で文字を書いたり、頭を動かして別の方向を見たり、また視線や、顔の表情など、人間は身体を使って外界と接するので、それを直接読み取ることが、VRの鍵になります。
 
VRは現実かのように知覚させる技術のことですが、そのために人間のインプットを乗っ取り、アウトプットをそのまま読み取る、つまり人間を直接コンピュータにつなげることの方に本質があると思います。
「VRは人間のインプットとアウトプットを直接コンピュータにつなげるインターフェイスである」と定義をしたいと思います。
そして、今後数十年で人間とコンピュータとの間のインターフェイスの進化はVRに収束すると予測をしています。
 
Pokémon Goのような現実に様々な情報を重ね合わせる拡張現実(AR)は、VRの一種ですが、分けて語られることもあります。
しかし、「人間を直接コンピュータにつなげるインターフェイス 」という観点では、 ARは現実世界を透過して見せるか、完全に没入させるかの違いで、VRデバイスの進化の過程で当然あるべき機能ということになります。
 
VRデバイスは10年もすれば、人間の網膜が読み取れる解像度を超え、普通のメガネと変わらない大きさになり、ARかどうかをシームレスに切り替えられるようになるでしょう。
Leap Motionは5~7年で、以下のような非常に軽量でARかどうかを切り替えることができ、視線を読み取るデバイスが登場すると予測しています。
 

f:id:issaymk2:20160723170038p:plain

視覚のすべてを使ったユーザ体験は何物にも代えがたく、また常に身につけていてポケットから取り出す手間もなくなるわけなので、スマホやPC、テレビ、タブレットなどは、だんだんとVRデバイスに置き換わっていくことになります。
 
しかし、まだこの段階でのVRは不完全です。
視覚はほぼ完全に乗っ取ることができますが、それ以外の感覚、特に触覚などの体性感覚を乗っ取るのは難しく、キーボードのような物理デバイスなしにボタンを押す圧力感覚を完全に得るのは難しいです。
視線や手の動きを読み取ったコンピュータへの入力は不自由さが残りますし、声を出して入力するのは面倒くさく、どんな状況でもできるわけではありません。
そうなると、必然的に、脳を直接読み取ってコンピュータに入力し、脳に直接作用して感覚を自在に操るような進化を遂げるでしょう。
 

f:id:issaymk2:20160723174938j:plain

 
シンギュラリティという言葉を提唱したレイ・カーツワイルは、2030年代には、数十億個のナノマシンを脳内に挿入し直接脳を読み取り、VR空間を生成できるようになると予測しています。
ナノマシンはすでに癌の治療にも応用されていて、決してSFの話ではなく、現在の基礎技術の延長にある、時間が解決する問題です。
そして、技術の加速度的な進化を考えると、もしかしたらあと十数年後には実現しているかもしれないのです。
人間の脳は、VRという究極のインターフェイスを通じて直接コンピュータにつながり、人間の能力は飛躍的に向上することになります。
 
では、シンギュラリティでよく引き合いに出される人工知能(AI)はどういう役割を果たすのでしょうか?
コンピュータは計算する機械という意味ですが、それを使う目的はもともと人間の知的作業を担うことです。
最初は記憶や計算など人間の知能の一部しか担えなかったものの、金融取引、インターネット広告の表示・入札、商品のリコメンデーション、医療診断、クレジットカードの不正検知、など高度な知的判断が必要なシーンの多くにコンピュータが使われるようになってきました。
狭義のAI、つまり人間の知能のすべてを模倣し、完全に自律的に動くAIがどこまで必要かという議論は一旦置いておきます。
しかし、今後あらゆる知性が必要とされるシーンにコンピュータが使われるようになってきますので、コンピュータは単に計算する機械という名前より、AIと呼んだ方がしっくり来るようになるでしょう。
人間の脳がVRを通して直接コンピュータにつながる未来は、人間の脳がVRを通して直接AIにつながる未来と言い換えることができると思います。
 
では、人間の脳がVRでAIに直接つながるとどうなるのでしょうか?
実際に旅行に行かずとも、その土地の風や匂いなどをそのまま体感できますし、
歴史上のある時点にタイムスリップして、出来事を追体験することもできますし、
栄養食を口に入れただけで、一流のシェフが作った料理を食べたかのように感動することができます。
またAIは人間の知能をはるかにしのぐようになるわけなので、AIが作ったゲーム、映画などのコンテンツは人間の想像の範囲をはるかに超え、ただただ感動をするしかありません。
また、ある人が感動した体験をそのまま別の人に追体験させることができますし、その体験をデータとして保存することができます。
ある人の脳もそのままデータで保存でき、あらゆる時間、空間で再現できるわけなので、不死を手に入れたとも言えるでしょう。
当然、多くの倫理的な課題が生まれますが、それらは悪意を持ったAIが人間を滅ぼす可能性よりも、喫緊で根源的な問題として人類に課せられることになります。
 
VRを突き詰めると、人間とは何で、どういった形に進化していくかということなのです。