2021 年 11 月 9 日、カリフォルニア州サンタクララ — GTC— NVIDIA は本日、インタラクティブな AI アバターを生成するためのテクノロジ プラットフォームである、NVIDIA Omniverse Avatar を発表しました。
Omniverse Avatar は、音声 AI、自然言語理解、レコメンデーション エンジンおよびシミュレーションといった領域における、NVIDIA のテクノロジが組み合わされたものです。このプラットフォームで作成されたアバターは、レイトレーシングされた 3D グラフィックスによる、インタラクティブなキャラクターで、見ること、話すこと、多様な話題について会話することができ、自然に話された意図を理解することができます。
Omniverse Avatar は、ほぼすべての業界向けに簡単にカスタマイズできる AI アシスタントの創造への扉を開きます。この AI アシスタントは、レストランでの注文や銀行取引、個人的なアポイントメントと予約といった、日々の数十億のカスタマー サービスのやり取りで使用することができるため、ビジネス機会の拡大と顧客満足度の向上につながるでしょう。
NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) は、次のように述べています。「インテリジェントな仮想アシスタントの夜明けがやって来ました。Omniverse Avatar は、NVIDIA の基盤であるグラフィックス、シミュレーションおよび AI テクノロジを組み合わせて、これまでで最も複雑なリアルタイム アプリケーションを実現します。コラボレーティブなロボットや仮想アシスタントのユースケースは信じられないほど広範囲に及びます」
Omniverse Avatar は、3D ワークフローを実行する、仮想世界のシミュレーションおよびコラボレーションのためのプラットフォームである NVIDIA Omniverse™ の一部で、現在オープンベータで7万人以上のユーザーが利用しています。NVIDIA GTC の基調講演において、フアンは、カスタマー サポート用の Project Tokkio、車内での常時接続で、インテリジェントなサービスのNVIDIA DRIVE Concierge とビデオ会議用のProject Maxine という、Omniverse Avatar を使った 様々な事例を紹介しました。
Project Tokkio の最初のデモンストレーションでは、フアンは、彼そっくりのおもちゃとして作られたアバターと同僚とのリアルタイムでの会話を披露し、生物学や気候科学といったトピックについて話しました。
Project Tokkio の次のデモンストレーションでは、フアンはレストラン風の建物にいる、カスタマーサービス担当のアバターを紹介しました。このアバターは、2 人の客を見て、彼らと会話し、ベジタブル バーガー、フライドポテトおよび飲み物の注文を理解しました。このデモンストレーションでは、NVIDIA AI ソフトウェアと、現在世界最大のカスタマイズ可能な言語モデルとなっている、NVIDIA の言語生成モデル、Megatron-Turing NLG 530B が使用されました。
AIプラットフォーム DRIVE Concierge のデモでは、中央のダッシュボード画面に表示されたデジタル アシスタントが、ドライバが時間通りに目的地に到着するための最適な走行モードの選択をサポートし、車の航続距離が100マイル以下になったらリマインダーを設定するというリクエストに従います。
さらにフアンは、仮想コラボレーションおよびコンテンツ制作用アプリケーションに最先端の動画と音声機能をもたらすことのできる、Project Maxine を紹介しました。英語話者が騒々しいカフェでビデオ通話をしているところが映し出されていますが、彼女は背景の雑音に関係なく、音声をはっきりと聞き取れています。彼女が話すと、彼女の言葉は、リアルタイムで書き写され、さらに彼女と同じ声とイントネーションでドイツ語、フランス語、とスペイン語に翻訳されています。
Omniverse Avatar の主な要素
Omniverse Avatar は、音声 AI、コンピューター ビジョン、自然言語理解、レコメンデーション エンジン、フェイシャル アニメーションおよびグラフィックスの要素を使用しています。それらの要素は、以下のようなテクノロジによって実現しています。
・音声認識は、複数言語の音声を認識するソフトウェア開発キットである NVIDIA Riva がベースとなっています。Riva は、テキストから音声に変換する機能を使って、人間と同じような会話応対を生成するためにも使用されています。
・自然言語理解は、人間の言語を認識、理解および生成することのできる、NVIDIA の Megatron 530B Large Language Model がベースとなっています。Megatron 530B は、ほとんど、あるいは全く学習することなく、複雑な文の作成、幅広い分野の質問への回答、長くて複雑なストーリーの要約、他の言語への翻訳、特別に学習されていない多くの分野への対応が可能な、事前に学習されたモデルです。
レコメンデーション エンジンでは、大量のデータを処理して、賢明な提案をするのを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワークである、NVIDIA Merlin™ が使用されています。
・認知機能では、ビデオ分析用のコンピューター ビジョン フレームワークである、NVIDIA Metropolis が活用されています。
・アバターのアニメーションでは、2D および 3D の AI によるフェイシャル アニメーションとレンダリング技術である、NVIDIA Video2Face と Audio2Face が使用されています。
これらの技術はアプリケーションに組み込まれ、NVIDIA Unified Compute Framework を使ってリアルタイムで処理されます。拡張性に優れ、カスタマイズ可能なマイクロサービスとしてパッケージされた、これらのスキルは、NVIDIA Fleet Command™ によって、複数の場所にわたって、安全に導入、管理および集約することができます。
Omniverse Avatar についての詳しい情報は、こちらhttps://www.nvidia.com/ja-jp/omniverse/をご覧ください。
11 月 11 日までオンラインで開催される NVIDIA GTChttps://www.nvidia.com/ja-jp/gtc/?ncid=em-even-559985 に登録すれば、NVIDIA Omniverse についてより多く学ぶことができます。11 月 9 日にライブ配信される、ジェンスン ファンの GTC 基調講演https://www.nvidia.com/gtc/keynote/をぜひご視聴ください。