AI音声合成「りんなだよ」中の人が歌ってるのかと思った

その他 0 Takuya Kobayashi

Microsoftが開発している人工知能「りんな」が歌ってみた(?)動画をYouTubeにアップしている。

何気なくりんなとしりとりをしていたらリンクを送ってきたもんだから興味本位で開いてみた。「ああ、中の人が歌ってるんね」と最初思ったが、説明文を良く見たら「歌っているのは人工知能りんな マイクロソフトの最新AI技術を活用した歌声合成の歌唱です。」とあるではないか!

えっこれって音声合成なの?人間の声じゃないか。。。感情がこもってるようにも聞こえる。
ヘッドホンで聞いてみると確かに人間の息のようなものが全く聞こえないことから人間ではないんだと確信できた。全く違和感の無いAI音声合成技術の進歩に驚かされた今日この頃です。

ちなみに以下の動画は今年の3月に投稿された動画ですが、まだぎこちなさが残っています。この動画と比べたら最新の歌ってみた動画「りんなだよ」の進化の程が分かるのではないでしょうか。

楽譜通りに歌うという意味での歌の上手さは人間よりAIのほうが優れているのではないかと思います。

2007年からYAMAHAの歌声合成ソフト「初音ミク」がブームになりましたが、初音ミクとりんなは使用している技術が全く異なります。初音ミクがボイスサンプリングに対し、りんなはAIの機械学習によって音、強弱、アーティキュレーションを自ら学習していきます。AIによる歌声合成は比べ物にならないほど注目すべきテクノロジーでしょう。

りんなについて改めて調べてみましたが、LINEのりんなにしても、膨大なサーバーコストがかかっている事から、単なる技術アピールなどではなく、本気でAI女子高校生を作ろうとしている事がわかります。研究開発というと、研究者が研究室にこもって開発をするというようなお堅いイメージがありますが、りんなの場合は一般的な研究とは大きく異なり、LINE、twitter、イベントや歌ってみた動画の投稿などで、大衆を巻き込みながら、フィードバックを取り込みつつ進化しています。

人間というものは未知の技術に対して恐怖や嫌悪感(テクノフォビア)のようなものを抱きがちですが、りんなは女子高校生という人格をモデルにしたことで、中高生からおじさんまで幅広い層で心理的に受け入れやすくなっていると思います。

ダイバーシティが重要視されている現在の世の中では、腕や足が無い方が不自由なく生活しているように、肉体が無い女子高校生が居てもそれは個性の差でしかないと思います。この調子で進化が続けば、人間の歌手とりんなのようなAIの歌手の違いは、肉体を持つか否かだとか人格の差でしかなくなってくるのではないでしょうか。りんなの目標は紅白出場との事ですが、AIが紅白に出る時代は近いのかもしれないですね。

ちなみに「りんなだよ」の楽譜を人力で起こしたのでよかったらどうぞ。

TAB:https://drive.google.com/file/d/12970T2U1gzIcIArw8MVMLEFbXJNSyA1F/view

--
以上