DiffSingerとは
拡散モデル(Diffusion Model)を利用した歌声合成のAI技術、またそれを使用してボーカルを作成できるシステムです。
中国発祥のオープンソースの技術であり、無料で使用できます。
中国発祥のオープンソースの技術であり、無料で使用できます。
DiffSingerの特徴
- ユーザーが自分の声でAIモデル(自音源)を作成できる
- OpenUtauをエディタとして簡単に使用できる
- 世界中にモデル制作者・ユーザー・開発協力者がおり、開発が盛ん
DiffSingerモデル制作の特徴
- この手の無料・オープンソースでモデルが自作できるAIの中では、比較的少ない収録量で高品質なモデルが作成できる
- 呪文の読み上げではなく、歌を素材とする
- 英語や中国語など、UTAUなどの素片結合方式では対応しにくいような複雑な言語のモデルも作成できる
- 1つのモデルで多言語歌唱に対応できる・自分が発声できない言語のモデルも作成できる
- 表情音源(Voice Color)に対応できる
- 自宅の機材を使用したローカルでの学習と、Colabを使用したブラウザ上での学習が選べる
DiffSingerを使用するメリット(ユーザー視点)
- 比較的なめらかで自然な音声が生成できる
- ユーザーが多く開発が盛んなため、新機能などの追加が定期的にある
- 主なエディタであるOpenUtauが高機能で、調声が柔軟にできる
DiffSingerモデル制作で気をつけること
日本語の情報が少ない
海外由来の技術・文化なため、日本語での情報が少なく、またアップデートも頻繁に行われるため最新の情報を入手するのが困難です。
なお、公式Discordサーバーには日本語チャンネルがあり、日本語で質問しても答えてもらえるケースが多いため積極的に活用しましょう。
(得られた情報はぜひこのWikiで共有してください!)
なお、公式Discordサーバーには日本語チャンネルがあり、日本語で質問しても答えてもらえるケースが多いため積極的に活用しましょう。
(得られた情報はぜひこのWikiで共有してください!)
派生リポジトリが多い
DiffSingerの技術的な中心となっているのは、MoonInTheRiverによるオリジナルの論文をベースとした実装です。
しかし、実態としてはOpenVPIによってメンテナンスされているバージョンが主流です。
また、Colabノートブック(モデル作成ツール)にも派生バージョンがあります。
アップデートが頻繁にあるため、最新情報は公式Discordサーバーで尋ねるのが確実です。
しかし、実態としてはOpenVPIによってメンテナンスされているバージョンが主流です。
また、Colabノートブック(モデル作成ツール)にも派生バージョンがあります。
アップデートが頻繁にあるため、最新情報は公式Discordサーバーで尋ねるのが確実です。
使用するデータセットの権利について
有志によって一般に公開されている歌声データベースを使用することで、自分での収録量を削減できたり、自分では発声できない外国語のモデルを作成することも可能です。
(そうして作成されるモデルは「マルチスピーカーモデル」と呼ばれます)
これらの歌声データベースにはそれぞれ利用規約(Readme、ライセンスファイルなど)が付属しています。必ずよく読み、権利を侵害しないように使用してください。
(そうして作成されるモデルは「マルチスピーカーモデル」と呼ばれます)
これらの歌声データベースにはそれぞれ利用規約(Readme、ライセンスファイルなど)が付属しています。必ずよく読み、権利を侵害しないように使用してください。