え、これが合成音声!? しかもベタ打ち!? テクノスピーチと名古屋工業大、AI技術で超高精度な歌声合成を実現

2018年12月14日 15:232018年12月14日 19:50 takahashiyuji ニュース

テクノスピーチと国立大学法人名古屋工業大学国際音声言語技術研究所は、人間の声質・癖・歌い方を極めて高精度に再現できる歌声合成技術を開発したことを発表した。

テクノスピーチと名古屋工業大学は共同で音声合成・歌声合成技術の研究・開発に取り組んでおり、これまでに業務用カラオケ機「JOYSOUND」や音声創作ソフトウェア「CeVIO Creative Studio」等に音声合成・歌声合成技術の導入を進めてきた。

本研究では、特定の歌唱者の約2時間の歌声データベースに対して、深層学習等のAI技術を適用することにより、歌唱者の声質・癖・歌い方を学習しており、合成の際は、任意の歌詞付き楽譜を入力するだけで、AIによる高品質な歌声を合成することが可能とのこと。

ベタ打ち歌詞付き楽譜なのに人が歌っているクオリティ

【サンプル音声は下記ニュースリリース原文より試聴可能】

ニュースリリース原文：https://www.techno-speech.com/news-20181214a

音声ファイルはアカペラとミックスが用意されている。テクノスピーチに話を聞いたところ、なんとこのアカペラ版音声、「音程のデータと歌詞しか入力していない」という。

既存の音声合成ソフトなどでは、声の抑揚などを細かく調整し、人間の声に近づける作業を行う。しかし、本技術はリリース原文の案内にもあるとおり、「人手による調整がされていないベタ打ちの歌詞付き楽譜」しか入力していないのである。

ミックス版についても、通常のミックス作業で用いるリバーブ効果などを薄くかけているだけ。それでこのクオリティが実現できているのが衝撃的だ。

今後の展開については、パッケージ販売、クラウドサービス、あるいは既存サービスへの組み込みなど、あらゆる方向を検討中とのこと。また、歌声だけではなく、今後は話し声についても、技術的には応用可能なので研究を続けていきたいとのこと。

用途としては下記のようなエンタメ・教育・医療等の様々な分野において上記研究の成果を投入することにより、総じて人々の暮らしをより豊かにする一助となることを目指している。

・アーティスト（故人を含む）の歌声の再現
・楽曲作品制作やゲーム開発への応用
・バーチャルユーチューバーによる配信・イベント
・バーチャルアクターによるアフレコシステム
・人工知能や音声対話システムの発声モジュールへの導入
・外国語教育・歌唱教育における柔軟な参照音声の生成
・ＡＬＳ・喉頭がん等の患者様が用いる発声デバイス
・介護施設用デジタルサイネージ

研究成果は、2019年3月に開催される、日本音響学会2019年春季研究発表会にて発表を行う予定だ。

（文高橋佑司／編集　花茂未来）

●関連記事
・テクノスピーチ

Pocket