低遅延・直感操作のソフトウェアボイスチェンジャー「Voidol 2」を速攻レビュー

LINEで送る
Pocket

美少女の声でしゃべりたい──。クリムゾンテクノロジーから10月20日に一般販売が開始された「Voidol 2」(定価:税込1万3200円)は、そんな願望をかなえるソフトだ。

「Voidol 2」は、同社が開発する音声エンジン「リアチェン voice」を用いてリアルタイム声質変換を実現した、いわゆるソフトウェアボイスチェンジャー。シンセサイジングによる新エンジンを搭載し、40ミリ秒程度の低遅延で動作が可能な点が特徴だ。直感的でわかりやすい操作も魅力の1つで、特にこれからボイスチェンジャーに触れてみたい人にお勧めできるエントリー版となる。

そもそも「ボイスチェンジャー」とは

レビューに入る前に、そもそも「ボイスチェンジャー」とはどのようなものなのか簡単に解説したい。ボイスチェンジャー(ボイチェン)は大きく分けて、「ハードウェアボイチェン」と「ソフトウェアボイチェン」の2種類が存在する。

前者は、専用の機材(ハードウェア)によって音声を変換するもの。ゼロ秒に近い低遅延や高品質な出力、高度な操作が可能な半面、環境を整えるのが複雑かつ高コストになりがちだ。代表的なものだと、Rolandが発売している「VT-4」(2万7500円程度)「M100FX」(販売終了)などが挙げられる。

これに対して後者は、文字通りPC用のソフトウェアで音声変換をするタイプ。「Voidol」シリーズもソフトウェアボイチェン製品だ。PCにインストールするだけですぐに使用でき、「恋声」「バ美声」など無料ソフトもあるため低コストなのがメリットだ。その半面、変換処理に遅延が生じたり、音声の品質が劣るといったデメリットもある。

なお、ソフトウェアボイチェンでも、オーディオインターフェースなどを別途接続することで、より高品質・低遅延な出力もできる。個人勢YouTuberなどで日常的にボイスチェンジャーを使用している人は、コスト面と品質面のバランスから、ハードウェアボイチェン+コンデンサーマイク(レコーディングなどに使用される高音質マイク)+オーディオインターフェースといった組み合わせの人が多いと思われる。

ソフトウェアなのに遅延が少ない!

ちなみに、筆者はソーシャルVRの「VRChat」に入る際に、時々ボイスチェンジャーを使用する程度のライトユーザーなのだが、普段はフリーソフトを利用している。フリーソフトの最大の問題が「遅延」だ。ボイチェンでは、変換された自分の声を聞きながら(=ループバックしながら)話す。ループバックしないと自分の声が実際にどう聞こえているかわからないからだ。しかし、音声変換+ループバックの処理のために遅延が生じてしまうため、スムーズに話しにくいし、没入感も下がってしまう。下の動画の音声を聞き比べると、この遅延がソフトウェアボイチェンの最大の難点であることがおわかりいただけると思う。

「Voidol2」使用時の音声(筆者)
比較用フリーソフト使用時の音声(筆者)

筆者が普段使用しているソフトでは、ワンテンポほど遅れてループバックが返ってくる。会話ならば多少もたつきながらも可能だが、歌唱となると厳しい。どうしても歌いたい場合は、一度ループバックを切って歌い、あとで録音を聞くという方式ならできなくもないが、率直に言って手間だ。

「Voidol 2」の第一印象は、低遅延であること。ゼロ遅延ではなく、発話とまったく同じタイミングで声が返ってくるわけではないが、若干遅れる程度で、会話であれば特に問題を感じないほど。では歌唱はどうかと試したところ、遅延はあるもののワンテンポというほどではないため、何曲か歌って慣れると、ループバックをつけたまま自分の声を聞きながら歌えるようになった。この点はかなり評価できる。

「EXPERT MODE」で直感操作

続いて操作性について。「Voidol 2」の操作パネルは多機能ではあるものの、専門的な知識がなくてもそれなりに使えるようデザインされている。まず、いわゆる一般的なボイスチェンジャー同様にピッチ(声の高低)、フォルマント(声の性質)などを調整する「シンセモード」と、「リアチェン voice」を用いた既存のボイスモデルに自動で声質を近づけてくれる「AIモード」の2種類に分かれている。

「シンセモード」「AIモード」と共通して、画面上部の中ほどにある「EXPERT MODE」を選択することで、かなり多機能な操作ができる。入力部には周囲雑音やフカレ(ポップノイズ)を防止するハイパス/ローパスフィルターを、出力には音質を補正するEQを装備。スペース機能(エコー)、ノイズゲート機能と組み合わせて最適な音声を見つけられる。

「シンセモード」の操作画面
「AIモード」の操作画面

さらに「シンセモード」には、ヒソヒソ声でしゃべっているように聞こえる「WHISPER」や、ロボットボイスになる「ROBOT」、半音階ごとにピッチが変化する「Pitch Quantization」、イントネーションを強調したり逆の変化にしたりする「Pitch Stretcher」、自動的にビブラートがかかる「Vibrato」などの追加機能も装備。ボイチェンで遊んでみたいユーザーが色々と楽しめる設計となっている。

「BANK」4を選ぶことでプリセットを試せるほか、「DETAIL」より詳細項目の設定も可能

また、本ソフトの特徴として挙げられる「AIモード」も見逃せない。「リアチェン voice」のエンジンは、音声・音楽・音環境情報処理を研究分野とする名古屋大学大学院情報学研究科の戸田智基教授の協力のもとにクリムゾンテクノロジーが開発したAIリアルタイム声質変換ソリューションを利用しており、入力した人間の声を特定のキャラクターの音声へリアルタイムで変換することができる。

変換できるボイスモデルには、デフォルトで搭載されている「音宮いろは(CV 遠野まゆ)」「くりむ蔵」などのほか、「東北ずん子(CV佐藤聡美)」「音街ウナ」「カフェ野ゾンビ子」と声優付きのIPキャラクター、VTuber、ボーカロイドなど多彩なモデルが23種類展開されている。これらのボイスモデルは、クリムゾンテクノロジーのサイトページより確認できるほか、有料にて購入できる。

追加用ボイスモデルの一覧。「Voidol」「Voidol2」両対応となっている。

今回は、デフォルトの「音宮いろは(CV 遠野まゆ)」を使用してみた。なお、「シンセモード」使用時には特に気にならなかったが、公式ではオーディオインターフェースを接続したうえでオーディオデバイス「ASIO」デバイスを使用することを推奨している。

実際に利用してみた感想としては、「シンセモード」に比べ「AIモード」は音の歪みがかなり目立つ。標準の「Windows Device」だと音質が厳しい。イコライザーを利用して歪みを押さえてはみるものの、やはり推奨どおりオーディオインターフェースを通さないと実用的ではないようだ。オーディオデバイスを「Windows Device(Exlusive)」に変更した場合は多少改善はするものの、音声ドライバーが占有されてしまうため、ほかの音声が聞けなくなってしまう点は注意が必要だ。

エントリー向けとしておすすめ

総評として、ソフトウェアボイチェンにしてはかなり低遅延を実現していること、操作も簡単で「AIモード」などさまざまな機能が楽しめることから、「ボイチェンで遊んでみたい」「ハードウェアをいきなり揃えるほどではないけど、多少の出費はかまわない」という人にはお勧めできるソフトだ。

より本格的にボイスチェンジャーを使ってみたい、低遅延・高音質にこだわりたいとなると、「VT-4」などをはじめとするハードウェアボイチェンが欲しくなるが、その一段階前に導入する製品として適していると言えそうだ。現在、発売記念価格として定価の税込1万3200円より30%以上の割引となる税込8800円にて販売している。気になる方はぜひ検討してみてはいかがだろうか。

(TEXT by アシュトン

●関連リンク
クリムゾンテクノロジー公式サイト
「Voidol2」商品詳細ページ