AITuber「ゆめみなな」、初のオンライン3Dライブを7/7開催 3Dデザイナーが一人で生成AIで開発した独自ツールがスゴい!

LINEで送る
Pocket

KLabは7月7日、同社が展開するVTuber事務所「ゆめかいろプロダクション」に所属するAITuber(AI VTuber)「ゆめみなな」の誕生日を記念して、オンライン3Dライブを20時より開催する。当日は、同じ事務所のAIではないVTuberである「月窓ろみ」「小熊こまめ」「華咲みもざ」の3人も出演して、1期生の4人が一堂に会する予定だ。

その本番を前にして2日、KLabにてプレス向けの3Dライブ体験会が行われた。興味深かったのは、生成AIを活用して3Dライブの制作ツールを独自につくって効率化を図っていた点。

といってもAIに直接動画を生成させるわけではなく、ライブをつくっているUnity用のツールをAIで開発して、リップシンクやカメラワーク、照明などの演出を半自動化しつつ、3ヵ月という短期間で狙った表現を実現したという。しかも、この独自ツールは、AIエンジニアではなく、3Dデザイナーの田中典(たなかつかさ)氏が自分のニーズを元に1人で開発したというから驚きだ。

田中典氏

体験会では実際に3Dライブの一部が流されたが、失礼を承知でいうと今年2月に最初のタレントがデビューしたVTuber事務所のレベルではない、演出やカメラワークのクオリティーが高く、とても手慣れた印象を受けた。

聞けば音楽部分を除いて、外部のライブ制作チームなどを使っていないとのことだが、なぜ社内だけでこのクオリティーを実現できたのか。それもそのはず。聞けば、田中氏は大手のVTuber事務所で5年デザイナーを経験して、KLabに転職してきたベテラン人材だという。「わかっている」クリエイターがAIでエンパワーされて、いいアウトプットを手早く出せるようになったという生成AI活用の好例だったわけだ。

ライブ自体がどんなものかは7日の本番を見ていただくとして、VTuber業界に関わる方なら、AIで開発したツールの仕様が気になるはず。スライドと共に田中氏が語った内容をまとめていこう。

ゆめかいろプロダクションについて
ゆめみななデビューから、ここ半年の歩み


3ヵ月で完パケ、しかも数百万〜数千万円の制作費を半分以下に!

まずは3Dライブを行う上での課題と、その解決について。「3Dモデル」「モーション」「ライティングやカメラワーク、表情付けなど」という3つの観点でまとめていた。

VTuberのライブってつくるの大変そう……というのは、見ているだけのファン側でもなんとなく想像がつくだろう。さらに今回は、通常よりも期間が短い3ヵ月で3Dライブを立ち上げるという、だいぶハードルが上がった状態だった。それも過去に何度か3DライブをやっているVTuber事務所なら、なんとなくワークフローが見えていて、使いまわせるCGリソースなどがあるはずだが、完全に新規かつ短期間で立ち上げだ。

だいぶ難易度が高いわけで、普通に考えれば、外注の制作会社やフリーランスに振って乗り切るところを、AIでつくったツールをフル活用したり、やり方を工夫することで制作費を抑えつつ乗り切ったというのが興味深い。


まず「3Dモデル」では、キャラクターやステージを普通に発注してつくると、1つあたり3〜4ヵ月の工数がかかってしまうので、どう考えても3ヵ月後の本番までに間に合わない。ということで、例えば、キャラクターモデルは、VRoid StudioでつくったベースをMayaで加工して、Unityでレンダリングするようにして工数を削減し、4人ぶんのフルスクラッチモデルをワンオペでをつくり切った。


VTuberのライブ中の動きである「モーション」は、事前収録とした。今回、演出として1期生の4人が同時に出るパートがあるのだが、タレントが遠方に住んでいるケースもある。しかもモーションデータを元に後工程の演出をつくるわけで、3ヵ月の早い段階で撮らなければいけないが、いきなり全員分のスケジュールを合わせるのも難しい。それに一度にすべてを収録するとなると、後述のようにスタッフの人数も多くなり制作費がかかる。ということで、モーションだけを個別に収録するやり方でスタッフの稼働費を抑えたという。


そして「ライティングやカメラワーク、表情付けなど」が、AI活用の本丸になる。3Dライブ制作というと、よく個人のVTuberさんがクラウドファンディングで出資を募っているように、事前収録にしろ、リアルタイムで歌うにしろ、とてもお金がかかる作業だ。というのも、まずモーションキャプチャースタジオを借りた上、モーキャプエンジニア、カメラのスイッチャー、照明さん、表情担当といった専門スタッフを同時に拘束することになる。田中氏によれば、1ライブで平均数百万〜数千万円というコスト感だという。

この制作費を圧縮するために、前述のようにモーションのみを先撮りして、AIによる制作ツールで演出を後付けにしたところ、制作期間や費用を従来の半分以下に抑えつつ、自由度の高い表現も可能になったそうだ。


カメラワークやモーションを「ガチャ」で決められる

概要のあとは、個別の最適化を解説してくれた。まずは、声や歌に口の形を合わせるリップシンクについて。AIで制作した半自動化ツールで、収録したボイスを放り込むと解析して口の動きのアニメーションファイルをつくってくれるものになる。

具体的には、「あいうえお」と何もしゃべっていない表情を仕込んでおき、ボイスのフォルマント(声の成分)を解析してどの母音を言っているのか判断してモーションデータ化する仕組みだ。しかも、怒りや笑いといった差分の口の形も用意。ボイスを流しつつ、「このシーンはこの感情かなー」とリアルタイムでテンキーを打っていくことで、手軽に感情がこもった表情を再生成できるようになっている。

 
続けて今回の自動化のメインになるというカメラワーク。こちらはまず楽曲の音源を解析し、BPMや楽曲のピークなのかを判断して、タイムライン上にカットの切り替えタイミングとなるマーカーを設置。このマーカーには、正面や左右、下から見上げるなどのアングル、カメラをどう動かすか、ピントをぼかす被写界深度などの情報が組み込まれており、自動でカメラワークを生成してくれる。カメラワークが気に入らなければリセットして再生成できるし、その際にパラメーターからマーカー位置を指定することも可能だ。

とても興味深いのが、カメラワークや3Dキャラクターのモーションで、ソーシャルゲームでお馴染みの「ガチャ」を用意しているということ。「なんか思ったんと違うな……」となったときに、ガチャボタンを押して自動で試行錯誤できる。しかも、いくつかのカメラワークしか排出されない「ピックアップガチャ」のような設定もつくって保存しておけるとのこと。

設計思想としては、ライブを重ねるごとに、そうしたカメラワークやモーションのプリセットを資産としてしてどんどん貯めていき、半自動でもよりピンと来る演出ができるようになるというものになる。

より詳細な話をすると……

・XYZの動きを数フレーム遅れて自動追尾
・XYZのそれぞれの軸を追尾するか否か
・カメラがめり込まないように被写体までのパーソナルスペースを自動保持
・キャラにのめり込まないためのカメラとキャラの当たり判定
・カメラのアニメーションプリセットをつくるための専用ツール
・例えば今流行りのカメラが寄って引くようなカメラのカット同士をつなぐ
・キャラの目線制御

といった制御が可能だ。

 
お次はライティング(照明)について。こちらも音源を解析して、自動で光の動きを付与している。その際、BPMベースで一定間隔でリズムをキープするような光り方もできるし、抽出したドラムやシンバル、スネアなどの音だけに連動させて発光させることも可能だ。しかもストロボやムービングなどで照明をグループ化して、各グループで違う動きを割り当てられるというのも便利。さらに3D空間の座標を指定することで、例えば、客席のペンライトが内側から外側に広がったり、右から左に流れるなどの演出も適用できる。

 
画面効果では、アニメでいうパラ表現のような効果を追加できる。素材を用意することで、例えば、振ってくる雨や右から左に差し込んでいる光、常に画面の一番上に表示されるフレアなどをワンクリックで追加可能だ。


狙った表現を処理を軽減しつつ実現

ここからは軽量化しつつ、リッチな表現を実現したというテクニックの話だ。ここで出てくるシェーダー(陰影処理のプログラム)も生成AIを活用してつくられている。

軽量ボリューメトリックライトは、光源から放たれた光が空気中の微粒子や煙などに反射して柔らかく見える表現で、リアルのライブでいえば、ステージ上に焚かれたスモークに照明が当たって神秘的になるのをCGで再現するような感じだ。

CG空間で照明を表現する際、板ポリ(板ポリゴン、三角や四角の面)を置いて、その表面にライトのテクスチャー(画像)を配置するというのが最も軽量だが、キャラクターが被ってしまったときに貫通しているように見えたり、ポリゴンっぽいものがわかってしまうので、リッチな表現を目指すVTuberのライブには向かない。

そこでゲーム制作などでもよく使われるボリューメトリックライトの出番で、Unityの標準機能でも用意されているものの処理が重い。ということで、そこまでマシンパワーを使わずに、ライブでボリューメトリックライトを何本も投入できるように改良した。

Bloomは、光っている部分にブラー(ぼかし)がかかっているように見える表現。こちらもUnityの標準機能では重いので、シェーダーをカスタマイズして軽量化し、さらに発光色を変更機能を入れて、ステージ全体のイメージカラーを手軽に調整できるようにした。

Bloom Star Burstは、光の強い部分が十字に発光するという独自の実装で、ライブ演出をよりアニメっぽく見せることが可能になる。

キャラシェーダーも、同様に独自の実装だ。VTuberの3DCGはアニメキャラのような見た目の「トゥーンシェーダー」を利用して、どの角度から見ても一定の影ができるような表現を実現している。一方で、3Dライブのステージは強い光が当たることも多く、コントラスト(明るいところと暗いところの差)が大きくなりがちで、このキャラにできる一定の影が荒れがちになる。

この問題をシェーダーを独自開発して解決した。ほかにもトゥーン調の落ち影を最適化、リムライト(輪郭の光)のアニメーション、アウトライン(輪郭線)の補強なども対応できる。

鼻ぽちライトは、アニメでよく見る正面では鼻が見えないけど、斜めを向くと輪郭が出現するという表現。独自のシェーダーによって、必ず奥側にハイライトが乗るようになっている。

リムライトも独自で実装。左の画像のような複雑な光のあたり方と、右の画像のような輪郭だけの簡易なものをスイッチで切り替えられる。ライブステージで使うのは左だが、ショート動画などでアニメ調の背景と合成するときのために右のような表現も選べるようにしている。

ポイントは、「後のせ」でリムライトを付けられるということ。通常、リムライトはキャラモデルに付随するシェーダーで調整するのだが、例えば外部のVTuber事務所とコラボがあった場合、シェーダーの仕様がだいたい異なっていて、乗せ替える手間が出てきてしまう。そこを「後のせ」にすることで、シェーダーを変えることなく同じリムライト表現を実現できる。

その他、細かい表現の最適化にも言及していた。デカールは、3Dオブジェクトの表面にスタンプのように別のテクスチャーを貼り付ける処理。今回は、床に張り付くようなゴボライトの表現(画像左の星形ライト)に使った上で、シェーダーでアニメーションできるように制御した。

客席に配置された観客は、大量に配置すると負荷が高いため、VAT(Vertex Animation Texture、頂点アニメーションテクスチャー、)で表現。背景に置かれたビル群は、三層構造になっており、奥の層だけ大きくずれるように動かすことで、奥行きを感じるようなシェーダーを実現した。


デザイナーが自分自身でツールをつくって効率化できる時代

さらに、AIで作成した作業の効率化ツール紹介が続く。

VTuberのライブでよくある動く歌詞の演出「リリックモーション」も、他のツールをまたぐことなくUnity上で指示可能だ。現状は、フォントスタイルやインアウトのアニメーションを設定できるぐらいの簡易的なものだとのこと。

 
作業環境のスイッチツールもつくっている。今回のライブは、ノートPCで制作していた期間が長かったという。デスクトップよりもマシンパワーが低いため、エフェクトをバリバリかけた状態だと負荷に耐えきれないということで、ワンクリックで軽減した状態に切り替えられるツールを活用した。

 
最後は撮影ツールだ。前述したカメラワークやライティングのツールで演出を決めたのち、画面の比率を変更して、スクリーンショットや動画として適切なフォーマットで書き出すことが可能。さらに会場の広さに応じたリバーブ(反響)設定、音声自体の収録、音源と連番ファイルを合成しての書き出しなどにも対応と、かなり高機能なことがわかる。


まとめると、今までは効率化のためのツール開発には高度なエンジニアリングスキルを必要としていたので、デザイナーでは発想があってもツール化のコストが高かったが、AIの活用で今回のようなツールが生み出すことが可能になった。今後、VTuberのように短期間で多くの作品を作る必要がある現場では、AIと連携したツールの重要性は増していくのでは……と語っていた。

 
さて、ここまで読んで気になるのは、どんな生成AIを使ってツールを作ったのかだろうが、田中氏によれば、現状、生成AI業界は各社がしのぎを削っている過渡期で、AnthropicのClaude Code(クロードコード)やMicrosoftのCoPilot、GoogleのAntigravityなど、その時一番優秀なものを使ってツールをつくっていったとのこと。

また、これだけ5年以上現場にいた人間のニーズを吸い上げて、3Dアバターのライブをつくるのに特化した「かゆいところに手が届く」ツールなので、VTuberに限らず、アニメやゲーム業界でも興味を持つ人がいそうだが、KLabによれば内部で使うだけでなく外販も視野に入れいてるそうだ(ついでにいえば、ゆめみななのようなAITuberのシステムも、アニメやゲームで3Dキャラクターを活用したコンテンツをフットワーク軽くつくるのに向いている)。

もちろんお金も時間も人も投入して、フルスクラッチで作品をつくりあげるほうがクオリティーが高いかもしれないが、コンテンツ業界におけるヒットはごくごく一部で、とにかく打席に立つのも重要だ。だから、限られたリソースで、ほとんどの人にとって差がわからないレベルものが量産できる価値も大いにある。

生成AIというと、学習データの不透明性などから、それだけで避けてしまうクリエイターも少なくないが、今回の事例のように「こんなツールがあったら便利だよね」と知識と経験を持った人が自分の創作を加速させるために使う道もあるのだ(というか、表に出さないだけで、著名なコンテンツ企業やクリエイターでトライ&エラーしているケースも多いはず)。

VTuber業界に関わるクリエイターや技術者なら、ぜひ7日のライブを視聴した上で、生成AIとの向き合い方を考えてみてほしい。

 
(TEXT by Minoru Hirota

 
 
●関連リンク
ゆめみなな(公式サイト)
ゆめみなな(YouTube)
ゆめみなな(X)
ゆめかいろプロダクション
KLab