AITuberは「バーチャルYouTuber」の夢を見るか？キャラと物語の未来に想いをはせた「AITuber開発者オフ会」レポート

Pictoriaは6月1日、都内にて「AITuber（あいちゅーばー）開発者オフ会」の第1回を開催した。

AIを活用した対話できるキャラクター「AITuber」に関心がある40人ほどが企業・個人を問わず一堂に介し、技術や未来について熱く言葉を交わした。海外からのリモートや、岐阜から終業後に新幹線で駆けつけるという方もいて、この場に来たいという参加者の強い思いを感じた。参加者の感想は、#あいちゅーばー開発者オフ会のハッシュタグでたどれる。

AITuberのムーブメントは今年3月、OpenAIがChatGPTのAPIを公開したことをきっかけに注目を集めている。そしてオフ会を立ち上げたPictoriaは、そのAPI公開以前から紡ネンや魔法少女アイマインなどのAITuberを手掛け、さらに遡ると斗和キセキをはじめとするVTuberもプロデュースしてきたという珍しい企業だ。

社長の明渡隼人氏によれば、今回のオフ会は「AITuberの世代を作りたい」という思いで始めたという。「最初のところでつまずかないように情報交換する場を設けて、みんながクリエイティビティを発揮できるようにしていきたい」と野望を語っていた。

実はこのオフ会について、PANORAも運営のお手伝いをして現地にいたのだが、とにかく熱量がすごくて「そういや2010年前後のiPhoneアプリ界隈や2015年前後のVR業界、2018年前後のVTuber業界なども謎の活気に満ちていたなぁ」とデジャヴを感じた。第二回も7月7日に予定しているので、ぜひ興味のある方は参加してほしい。

＊参加申し込みはこちら → AITuberオフ会 #02（peatix）

AITuberはまだ始まったばかりで、正直、何が体験の核となるのかまだ見えていない状況だ。今や一大ジャンルとなったVTuberの歴史を振り返りつつ、その可能性を考察していきたい。

最終的にタレント性がコアだったVTuber

VTuberの何が多くの人を惹きつけてきたのか。それは間違いなく、話術をはじめとする「魂」のタレント性だろう。

VTuberの草分けとなったのはもちろんキズナアイ。活動をスタートしたのは2016年12月だった。最初に火がついたのは海外でチャンネル登録者数を大きく伸ばし、ある意味、逆輸入のような形で日本でも認知度を高めていった。その姿を見て、「リアルタイムでキャラを動かすの面白い！自分たちもやってみたい！」と同様にキャラクターで動画投稿するフォロワーが現れて、キズナアイが自称した「バーチャルYouTuber」（VTuber）がジャンルとして成立した。

筆者的には当初、生身のYouTuberが築いた大きな市場があり、その変化球として、キャラクターがYouTuberみたいなことをやりはじめたなぁという印象があった。しかし蓋を開けてみれば、従来のYouTuberの市場と客層がまったく違っていて、生身では見向きもしなかった層が「手のひらクルー」（というと棘がありますが、それぐらいのインパクト）で反応し、「かわいい！」「面白い！」とハマっていったのを肌で感じた。

技術的に見れば、ちょうど「Perception Neuron」やVRシステムのように全身をモーションキャプチャーできる機器、iPhone Xのように表情と上半身を取得できる端末が数十万円という価格帯で提供されてきた時期だった。従来、1度の収録で三桁万円もかかっていたモーションキャプチャーが爆安になり、YouTubeのような低予算の企画でも使えるようになったわけだ。

そんな技術の低価格化が2017、18年頃から「3Dの体で動画収録」のVTuberの爆増を後押したわけなのだが、実際、市場に適合したのは、より低予算でできる「2D（Live2D）の体で生配信」という形態だった。そしてアイドルグループのように「箱」をつくって、新人をデビューさせてユーザーの認知度を高めやすくするという手法が採られ、「にじさんじ」や「ホロライブ」の大手事務所化につながった（余談だが、人気が出てから高価なモーキャプシステムに回帰していくという現象も興味深かった）。

一方で、VTuberは技術ではなく、芸能の世界だという事実も判明してきた。それは「魂」のタレント性がコアになるゆえ、モーキャプの技術云々よりも、まずVTuber自身の才能ありきで、体や心を壊さないで活動を続けられるかどうかなどのマネージメントのほうが大事だったということだ。われわれメディアも、「バーチャルなのでスキャンダルがない」「キャラクターだから『魂』を入れ替えて受け継がれる」といった話を書いてきたが、それは誤りだったわけだ。

同時に、いの一番に求められるのはタレントで、キャラクターをとりまく物語や世界観はコア体験ではないことも判明した。アニメやゲームでいえば、キャラクターはまずその作品の世界観があって、与えられた役割や人間関係の中で行動していく。そのキャラクターにアニメーターやゲームデザイナー、声優などが命を吹き込み、他のキャラクターとの出会いや成長を通じて「いいキャラクターだなぁ」と見る側の共感を引き出していく。

一方でVTuberは、「可愛いけれど、ときどき暴言が飛び出す」のように、キャラとしての設定や世界観があっても、むしろそれを裏切る「魂」の人間性がチラ見えしたときに面白さにつながることが多い。Vシンガーやバーチャルの体を持つイラストレーターなら、歌や絵の才能に魅了された上で、配信での話し方のギャップにハマる、という流れもあるだろう。

もちろん「鳩羽つぐ」やにじさんじ「出雲霞」のように物語の枠組みを持つVTuberも存在している。お嬢様のVTuberなら語尾に「ですわ」を付けるように最低限のロールプレイは求められるだろう。しかし、声優のように役を演じているだけではVTuberとしては伸びにくい。設定が凝っているかどうかではなく、本人がキャラ立ちしているかどうかが圧倒的に重要だ。

逆にタレント性で一度脚光を浴びれば、そこに物語を足して新しい展開に持っていける。「にじさんじ」や「ホロライブ」のグループ内ユニットや、KAMITSUBAKI STUDIOの「神椿市建設中。」などが具体例になるだろう（Project:;COLDの」ような物語がVTuber的にリアルタイムで進行するという例外もあるが）。

端的に言えば、VTuberは「同じ時を生きて、生で話せるアニメやゲームのキャラクター」ではなく、「キャラクターの姿をしたネットタレント」に落ち着いた。

言葉で世界を定義し、生テキストアドベンチャーを「体験」できる

では、AITuberもVTuberと同じ立ち位置になるのだろうか。

Neuro-Samaや紡ネンなどを見ていると、AITuberがきちんと意思疎通できたり、ときおりトンチキな発言が飛び出したりといったセレンディピティに視聴者が報酬を感じている向きもあるが、筆者的にはVTuberがなしえなかった「物語の中を生き、生で話せるキャラクター」の可能性も感じている。

VTuberから時代をもう少し遡ると、ネットで強く支持された（そして今も支持され続けている）新世代のキャラクターとして、初音ミクをはじめとする合成音声ソフトが注目を集めた。

合成音声ソフトのキャラクターはVTuberとは異なり「中」に誰もいないが、「ボカロP」（プロデューサー）と呼ばれるネット音楽家が一部の楽曲で歌詞で物語を与えてきた。初音ミクなら例えば、ボーカロイドとして生まれ、マスター（ボカロP）に出会ったから歌えるという喜びを綴るなど、それぞれの曲ごとに異なる初音ミクが存在する感じだ。

そうした楽曲が「キャラソン」として機能してクリエイターの想像力を掻き立てて、イラストやMMDなどの動画、歌ってみた、踊ってみた、はては技術部などの二次創作を生み出してきたわけだ（もちろん物語性が薄いボカロ曲もあるし、逆に「カゲロウプロジェクト」のように合成音声由来ではないキャラを立てる物語もある）。

今回、AITuberのオフ会で「俺の理想のキャラ」を作りたいという開発者の情熱を目の当たりにしたら、そんな昔話を思い出してしまったわけだ。

話はちょっとズレるかもしれないが、過去ボカロPにインタビューしたときに、「ミクさんはいくらでも指示を聞いてくれる」という話を聞くこともあった。普通に考えて、自作の曲を誰かに歌ってもらおうとしたら、まず合いそうなシンガーを探して、スケジュールやギャラを交渉しなければいけない。自分が思う通りに歌ってもらうためには、現場で相手に伝わる様に指示が必要だろうし、理想に近づけるためにリテイクを重ねるにしても限度がある。そうしたコミュニケーションが苦手なら、合成音声ソフトで徹底的に頑張ったほうが楽……という気持ちもわかる。

そうしたボカロP／合成音声ソフトの関係のように、AITuberも、理想のキャラクターを生で演じさせるひとつの手段になるのかもしれない。

AITuberでは、大規模言語モデル（Large Language Models、LLM）という巨大な言葉の塊から、どんなシチュエーションならどう返事を返すのかというファインチューニングを施し、キャラクターを造形して行くことになる。

キャラクターがなぜそんなこだわりを持っていて、なぜそんな振る舞いをするのか。キャラクター自体とそれを取り巻く世界観を徹底的に詰めて、ひとつの物語として進行させて、視聴者にリアルタイムで体験してもらう──。もちろん既存のVTuberのように「キャラ立ち」で攻める方向もあるだろうが、VTuberでは難しかった「中」に人がいないからできる作品の世界観からの共感、いわば「生テキストアドベンチャー」のようなアウトプットもできそうだ。

そのためには、LLM自体もローカルで学習させるのが望ましく、例えば作家が目指す世界観の文章とそれに近い既存の作品をひたすら覚えさせることで、現実世界にはないバーチャルな文化と習慣を言葉として定義して、その中で生きるキャラクターがどう振る舞うかのベースを作ることができるだろう。日本のアニメやゲームなどに強くて、ヘビーツイッタラーのようにネットに張り付いて常にネットミームがアップデートされるようなLLMも求められるかもしれない。もちろん、小説家やシナリオライター、劇作家など、時代の共感を引き出せる才能も巻き込んでいく必要があるだろう。

もしかしたら「インテリジェントなスーパーAI」を自称するキズナアイ（とそのチーム）も想像していたかもしれない未来。「アイ」から「AI」に受け継がれ、これからクリエイターやファンからの「愛」が注がれる「AIAIAI」な潮目において、ネットコンテンツの最先端がどう変化して行くのか。ぜひAITuberに注目してほしい。

（TEXT by Minoru Hirota）

●関連リンク
・AITuberオフ会 #02（peatix）
・Pictoria