ポケモン配信したいなーと思いつつも、偽トロかましたりしないといけないのがネックで、面倒くさい(金がかかる)なぁ……と思っていました。
今日、とある方のポケモン配信を見てて、ウェブカメラ撮影でも案外いけるんじゃないか?と思い、バーチャルユーチューバーデビューを目論みました。(突飛な発想)
さくさん、バーチャルユーチューバー デビューを目論む
3Dモデルは権利関係が面倒くさいというのをTwitterでよく見かけます。なので映像に関しては後回しにすることにして、映像+音声だけであればすぐに始められるのではないかと思いました。
VTuberになりたいけど声に自信がないので声をうまくバーチャルする方法ないんかな
— さくさん (@ch3cooh) 2018年2月15日
静的な文章の読み上げにはVOICEROIDが定評があるようでしたが、リアルタイムに音声変換をおこなうのは現実的になかなか難しそうです。
音声ソースにVOICEROIDを利用する
どうやらボイスロイドというのがあるらしい。動画を見る限りでは自然……とは言いにくい「ゆっくり」みたいなたどたどしい音声になるみたいです。そのなかでも東北ずん子は多少マシらしい。
リアルタイム音声認識→ボイスロイドで声を変換する試みは昔から試されているようで、2015年には以下のような方法で変換していたようです。
最近Google音声入力を使ってブログを書いているんですけど、精度が高いと思っても誤変換は往往にしてありますし、変換が確定するまでに(おそらく文脈をチェックしてると思う)5秒〜20秒くらいかかってしまいます。どうしても発した声と変換後音声にラグが生じてしまいそうです。
ボイスチェンジャーを利用する
他にも「恋声」というソフトがあるみたいですが、動画を見ている限り高音が高くなりすぎてしまうのかノイズがすごく目立っていました。元の声と設定次第で綺麗に変換できるんでしょうか。
がりっちがSoxを使えば…と教えてくれました。
ボイチェン、簡単なものであればsoxというOSSなツールを使えば少なくとも声の高さは変更できますよ
— garicchi (@garicchi) 2018年2月15日
Soxを使えば周波数をずらしたりすることができるみたいです。出力された音声を聞いてみたかったのですが検証動画を見つけることができませんでした。
3DSからの音声出力と実況音声を上手く合わせることができるのか?
バーチャルユーチューバー になるかどうかはええんや……
本題の3DSから綺麗に音声を取り込めるかどうかを考えたい。
とりあえず週末に向けて、2系統(3DSとマイク)からPCへ音声入力できるやつを探して、ゴミ箱に入ってるWebカメラを出してきて、3DSの画面を撮影するところまで構築してみようと思いました。
(2018/02/18追記)とりあえずですが動画配信の体裁は整えました。