ソニーが打ち出す「mocopi」の衝撃 VTuberやVRChatの用途だけでなく、モーキャプのさらなる民主化も

LINEで送る
Pocket

ソニーが29日に発表し、Twitterなどでも大いに話題になった6点モーションキャプチャー(モーキャプ)機器「mocopi」(モコピ)。ここ3、4年で一気に注目を集めてきたVTuberやメタバースなどのジャンルで役立つアイテムで、後頭部/両手首/腰/両足首にに装着し、iPhoneやAndroidにBluetoothで接続すると、自分の体の動きをアバターに反映できるようになる。

結論から言えば、2016年にキズナアイとVTuberというジャンルを生むことに貢献した「Perception Neuron」にも匹敵するモーキャプの民主化インパクトを生むのではと感じた。長文になってしまったが、11月30日、記者向けの発表会で撮影した動画も交えて、その魅力をまとめていこう。


VRから花開いたモーキャプの用途

まず、直近の事情を追ってなかったという人のために、前提を解説しておこう。モーキャプは、ここ10年ほどで劇的に手軽になった存在だ。

モーキャプといえば、従来は専用のスタジオを借り、エンジニアとアクターをつけてお金と時間をかけてやるのが当たり前の作業だった。なので、現実的には、映画やゲームのムービーパート、広告など、企業がからむ予算が大きいプロジェクトでしか使えなかった。

その状況を大きく変えたのが、2013年から開発キットが出回った「Oculus Rift」に端を発するVRゴーグルや、同時期に注目を集めた「Perception Neuron」などのモーキャプ機器だ。これでPCを含めても、今までと桁違いな30〜50万円程度でモーキャプ環境を用意できるようになった。

時を同じくして2013年、そうしたハードを使って独自のソフトを作れる開発環境のUnityが、個人・小規模向けの利用を無料化。ハード・ソフトの両面でハードルが鬼のように下がり、プロの一部だけが触れていたモーキャプが世に放たれて「民主化」されたわけだ。

その状況とマッチしたのが、キャラクター大国ともいえる日本のコンテンツ業界だった。生でキャラクターを動かすアニメなどの実験番組を経て、YouTuberの変化球として2016年12月1日にキズナアイがYouTubeにチャンネルを開設。「バーチャルYouTuber」として活動を始める。彼女の生で動く姿の面白さに感化されたフォロワーが生まれ、今のVTuberという一大ジャンルにつながり、2万人を超えるキャラクターのネットタレントが生まれてきた。

そして2017年頃から、ソーシャルVRのユーザー人口も増えていき、2020年当時、3万7800円からという衝撃価格の一体型VRゴーグル「Oculus Quest 2」(現Meta Quest 2)で伸びが加速する。自分の体でキャラクターを直感的に動かせるという面白さは、タレントを目指さない、単純にアバターの姿で楽しく交流したいというニーズにもハマる。そしてアバターをより魅力的に見せるさらなる高みとして求められたのが「フルボディトラッキング」(フルトラ)だ。

VRゴーグルだけを使う場合、頭のHMDと両手のコントローラーによる3点からユーザーの姿勢を推測しているため、下半身の動きや寝るなどの特殊な姿勢が反映できない。これを解決しようと、1個1万円台のVIVEトラッカーを複数個買って、6点や10点のフルトラを実現させるという猛者も登場。

2020年には下肢の動きを再現してくれる「Haritora」が同人ハードとしてリリースされ、さらにShiftallが2万7900円で量産して2021年に発売。ニッチなジャンルと思いきや売り切れが続き、10ヵ月で5000台を出荷するというヒットを飛ばした。

そこに登場したのが、4万9500円かつ6点でフルトラを実現するというソニーのmocopiというわけだ。VTuberもメタバースも、日本だけでないワールドワイドで注目されている「あったまった」市場なわけで、Twitterでmocopiが大いに話題になったというのも関心が高い人の多さを表していることがわかる。


「はじめてのモーキャプ」に必要十分な性能

mocopiの仕組みは、以下のような感じだ。

  1. 後頭部、両手首、腰、両足首にセンサーを装着
  2. Bluetoothでペアリング
  3. キャリブレーションで初期位置と前方向を決定
  4. 内蔵の加速度/角速度センサーで動いた距離を計測
  5. データをスマホに転送して、AIの学習データから姿勢を推測
  6. アバターに動きを反映

ハードから順に見ていくと、6個のセンサーには「HEAD」「WRIST」「HIP」「ANKLE」と装着位置が書かれていて、色分けもされているので迷いにくい。このセンサーを長さや形状が異なるベルトやクリップにはめて、体に装備する。センサーは1個あたり8gと軽量だ。はめ込み式のため動いている最中に外れないか心配になりそうだが、過去にダンスなどを収録したときでも外れたことはないとのこと。

ちなみに充電はケースに収納した状態で、側面のUSB Type-Cに刺した状態で行う。スペック上の連続稼働時間は最大約10時間、満充電までは約1.5時間だ。

現状では、動作にスマートフォンが必須となる。対応機種は以下のように発表されているが、その他の端末で動かないわけではなく、動作確認していないという状況だ。アプリのAIでユーザーの姿勢を推測するため、それなりの処理能力がスマホ側に求められるものの、例えば、より大きな画面で確認したいからiPad Proを使うといった選択もできそうだ。

Android端末:Xperia 5IV、Xperia 1IV、Xperia 5III、Xperia 1III、Xperia 5II、Xperia 1II
iPhone:iPhone 14 Pro Max、iPhone 14 Pro、iPhone 14 Plus、iPhone14、iPhone 13 Pro Max、iPhone 13 Pro、iPhone 13、iPhone 12 Pro Max、iPhone 12 Pro、iPhone 12

セットアップは、手元のスマホで実施する。6個のセンサーを検出し、身長を140〜190cmから設定。音が鳴ったら一歩前に出ればキャリブレーションが完了し、アバターを動かせるようになる。慣れば装着からおそらく5分程度でモーキャプできるのはかなり手軽だろう。

一方でBluetoothで6個分を通信するため、周囲の2.4GHz帯の電波状況などでは認識が遅れたりする可能性もありそうだ。

収録時の機能としては、アバターの切り替え、背景色の変更、スマホの画面の左右反転、カメラ位置の固定などを用意。アバターは標準で用意している2種類のほか、VRM形式のものを追加可能だ。

 
実際のモーキャプにおいて、取材で見ている限りでは、たいていの動きは綺麗に収録してくれていた。

モーキャプにもいろいろ方式があり、どれも一長一短で完璧なものはない。そして完璧を追い求めようとするとどんどん高価になっていき、VTuber業界でも知られている「VICON」のような超ハイエンドに行き着く。

mocopiは「慣性式」という各センサーが空間のどの位置にあって、どれだけ動いたかを計測する方法を採用している。VICONの「光学式」のように外部のカメラなどの装置が不要で、モーキャプスーツを着なくてもいいという利点がある一方で、仕組み上、空間における絶対位置は取得できない。

例えば、計測しにくいスローな動きはアバターに反映されにくい(太極拳やジェンガを崩さないように腕を動かすなどだろうか)。また、絶対位置が決められないため、収録が長引くと位置がずれていくことになる。記者説明会でも、15分ごとにポーズリセット、30分ごとに再キャリブレーションをしたほうがいいという話が出ていた。

説明会では、無理を言ってモデルさんに様々なポーズをとってもらった。椅子に座ったり、四つん這いになったり、ジャンプしたりは難なくクリアー。

仰向けやうつ伏せは、VRchatの中で友達と一緒に寝る「VR睡眠」でニーズが高い姿勢だが、mocopiではキャリブレーション時、両足の位置を起点として計算しているため、例えば腰のセンサーなどが一番低い位置にくる仰向けえ寝る姿勢では地面に埋まってしまうなどの症状が起こっていた(VTuberならこれはこれで動画のネタになりそうだが)。イスに乗るといった行為も、両足が起点になっていることからか、アバター側に反映されていなかった。


VTuber、VRChatで使うとどうなる?

アバターの動いている様子は、MP4動画(1920×1080ドット/30fps)かBVHモーション(50fps)のデータとして書き出せる。このモーションの送信先として、現在挙げられているのが下の4つだ。

VRchat
Unity
MotionBuilder
バーチャルモーションキャプチャー

例えば、PCでVTuberの配信を収録をしたい場合は、モーションデータを無線でUnityやバーチャルモーションキャプチャーなどに渡せばOK。実際は、そうしてUnityやバーチャルモーションキャプチャーの画面を「OBS Studio」などのライブ配信ツールに取り込んで、テロップや背景などと合成して使うことになる。

バーチャルモーションキャプチャーは複数のモデルを扱えるので、例えば、スマホとmocopiを3台ずつ用意し、1台のPCにインストールしたバーチャルモーションキャプチャーにつないで、OBSで合成して3人のコラボ配信……といったことも理論的にはできそうだ。この辺、複数台のmocopi+スマホを用意して、同じ部屋でVTuberのコラボ配信を収録をしたい場合にどうなるか気になるところだが……。


VTuberでは、表情や指の動きも重要な要素になるものの、mocopiだけでは取得できない。現状は口はマイクで取得した音を元に動かし、目のまばたきが自動で入る仕様になっている。この辺の表現をより豊かにしようとすると、Unityやバーチャルモーションキャプチャーに別のソリューションを加えていくことになる。

表情でいえば、もう1台スマホを用意して、首掛け式のアームスタンドに固定して装着。「waidayo」をバーチャルモーションキャプチャーに連携させて顔の動きを取得できる。手なら、「NOITOM Hi5 VR GLOVE」を用意し、「Sknuckle」で動かすと言った具合だ。決め打ちの表情をコントローラーから指示することも可能だ。しかし結局、機材のためのお金やそれを動かす知識が必要になることは覚えておこう。

VRchatで使いたい場合は、VRChatのベータ版が対応している「OSC」という仕組みを利用し、無線LANでPCやQuest 2と通信する。

大きいのは、このOSCがMeta Quest 2単体でも通信できるということだ。今までVIVEトラッカーやHaritoraXなどでフルトラを実現しようとすると、Quest 2をPCに繋ぐ必要があった。PCにつないでPC VRとしてVRChatを遊ぶ方法は高画質化のメリットもあるものの、一方でHMDとコントローラーだけですぐにログインできる一体型VRゴーグルの手軽さも失われてしまう。このOSCがちょうどmocopiが発表された11月末に開放されて、Quest 2の「ぶいちゃ民」(VRchatユーザー)が大きな期待を寄せている現状だ。

実際のQuest 2+mocopiの動作だが、立った状態で動くのはもちろん、イスに座って足を組んでいる状態もきちんとアバターに反映されていた。前述のように再現が難しい姿勢はあるものの、初心者がフルトラのよさを知るには必要十分なはず。そうして使い続けて、それでも満足できないなら別製品にアップグレードするという基準になりそうだと感じた。

もうひとつ、現状でメタバース向けに対応を発表しているのがHIKKYの「unlink」になる。unlinkは、スマホやPV、VRゴーグルで動作するHIKKYのVRエンジン「Vket Cloud」に外部デバイスをつなぐための仕組みだ。

HIKKYといえばVRイベント「バーチャルマーケット」での利用が想像される。そして、バーチャルマーケットは2023年夏にバーチャルとリアルで同時開催することを予告している。

mocopiは小型で目立ちにくく、Bluetooth接続なので服の下に隠しても動作する。例えば、リアルの店舗にいる店員が装着し、現実で接客しながら、空いた時間にバーチャルの店舗でも対応するといったリアル/バーチャルの同時接客などにも活用されそうだ。


面白ハードと開発者の想像が新しいジャンルを作る

色々と書いてきたが、最後にmocopiの可能性についてまとめておきたい。

今回、個人的に一番ワクワクしたのが、12月15日にほかのソフトとmocopiのアプリを連携させるためのソフトウェア開発キット(SDK)を解放するという発表だった。フルトラで4万9500円という安さと、この開発者を巻き込む施策がうまく噛み合えば、活用できる場が大きく広がりそうだ。

思い起こせば、Oculus Riftの初代開発キット(DK1)はクラウドファンディングサービス「Kickstarter」において、HMDとしては一桁も安い300ドル(当時の1ドル90〜100円換算で2万7000〜3万円)で大きく注目を集めた。Perception NeuronもKickstarterではフルトラに必要な30ユニットで375ドル(100〜110円換算で3万7500〜4万1250円)という価格を打ち出して、大きなインパクトを与えた。そこに開発者が飛びついて、ソーシャルVRやVTuberのように世界的に注目を集めるジャンルが生まれてきた。

十分に安い面白ハード(というと失礼かもだが)が、開発者にその世界の可能性を気付かせ、ソリューションやコンテンツにつながってさらにユーザーを巻き込んでいく──。たいていの物事はそんなにトントン拍子でうまくいかないものの、Twitter上でのmocopiの熱狂を肌で感じていると、そのポテンシャルは十分にあると直感する。

今回の発表会に「おでかけAR」などのアプリ開発で知られるオレンジ氏に同行いただいたのだが、同氏からも「こんなことを試してみたい」という話が多く飛び出していた。

例えば屋外でのモーションキャプチャーで、オレンジ氏は、趣味のスノーボードの動きを取ってアバターに反映させたいと語っていた。ネット上で投稿する動画や写真に生身の姿を載せたくないという人もいるはず。「おでかけAR」のようなアプリで自分のアバターを持ち出し、iPhoneで風景を撮影しながら、服の下につけたmocopiで画面の中のアバターをさりげなく動かす……といった使い方も実現するかもしれない。

もちろん周囲の電波状況の影響を受けそうだが、VTuberが外収録できる可能性があるというだけでも、コンテンツの作り方が変わってきそうだ(mocopiは地磁気センサーがないから、磁気の影響を受けないだけでも楽そうだ)。


もう一つ、オレンジ氏が言及していたのが、VRChatやNeosVRで、PCのデスクトップモードでログインしながら、アバターはmocopiで操作するという可能性だ。例えばパーティクルライブやVR睡眠のような没入感を求める体験はHMDをかぶるけど、友達と飲み会をするならデスクトップモードの方が楽。でも、デスクトップモードだとアバターの動きが不自然だから嫌……といった課題を解決してくれる。

30分ほど話しただけで、オレンジ氏からアイデアがどんどん飛び出してくることから、新し物好きな開発者にとっても「あれちょっとやってみたかったんだよね」を実現してくれる興味深い新製品と言えるだろう。

個人的には、記念配信で3Dの姿をつくったけど、スタジオ代が出せずにあまり活用できていない……というVTuberさんに良さそうだと感じた。VRに関係なく、スマホやゲーム機につないで、キャラクターを自分で操作して生き生きとしたポーズで自撮りする、なんて用途も実現できそうだ。

何よりモーキャプはまだまだニッチなジャンルでありながら、本体が黒ではないポップなカラーで、装着していても「新型のスマートウォッチかな?」ぐらいの感覚で普通のファッションに溶け込んでくれるデザインを打ち出してきたところに、ソニーの本気を感じる。

現時点の「あれができない」が、「こんな使い方もあるんだ」にどんどん塗り替えられていきそうな可能性を秘めたmocopi。直販のソニーストアで発売する初回ロットは争奪戦になりそうなので、興味のある方はぜひニュースメールに登録しておくといいだろう。

 
(TEXT by Minoru Hirota

 
 
●関連リンク
mocopi
ソニー