rinnaは12日、テキストの入力で音声合成とフェイスモーション生成が同時に実施できるサービス「Koemotion」の提供を開始した。
2023年3月に先行発表した合成音声サービス「Koeiromap」が含まれており、Koeiromapでつくった声に同期したフェイスモーションを作成。2D/3Dモデルや画像生成AIと組み合わせることで、表情付きでキャラクターを喋らせられる。
ウェブサービスとAPIを提供。料金プランは、1ヵ月500リクエスト/商用利用不可などの条件付きで無料の「Koeiromap Free」を用意。商用利用が可能な有料プランは、月額基本料金7000円+1リクエストあたり2円という「Koemotion」などを用意する。
利用シーンとしては、アナウンスや電話の音声応対だけでなく、複数の話者が登場するオーディオブック、AIキャラクターのAITuberなどを想定している。
本APIは、2023年5月よりAIキャラクターSNS「キャラる」に導入し、140万リクエストを受けているとのこと。また、ローンチタイトルとして、ピクシブの「ChatVRM」や学校法人国際総合学園 新潟コンピュータ専門学校「笑主しぃ」の採用を発表している。
Koeiromapは、従来の音声合成のように事前に用意したデータから音声を合成するのではなく、2次元マップから任意の座標を選ぶことで、リアルタイムでイメージに合う声色を探せるのが特徴だ。さらに、喜びや悲しみといった7種類の感情を乗せて合成できるうえ、入力されたテキストから気持ちを推定する機能も用意している。