DiffSingerモデル制作wiki

マルチスピーカーモデル

最終更新:

匿名ユーザー

- view
メンバー限定 登録/ログイン

マルチスピーカーモデルとは

歌声DBに複数の表情の歌唱を混ぜたり、他人の声を混ぜて学習する方法です。混合学習などとも呼ばれます。

マルチスピーカーモデルを使用するメリット

Voice Colorの作成

Voice Colorを作成すると、OpenUtauで調声するときに表情を選択できるようになります。
UTAU音源(Classicシンガー)のVoice Colorは通常音源と表情音源が別々の素材ですが、DiffSingerでのVoice Colorは1つのモデルの別側面のようなものであり、一度全表情の素材を混ぜて学習します。

歌声DBのかさ増し

他人の声で歌声DBをかさ増しすることで、少ない収録量で学習できます。
マルチスピーカーモデルでは他人の声を混ぜ、それが出力される声質に影響しないよう声質を削除することができます。
例えば、Aさんが自作モデルを作るためにBさんの声を使用して歌声DBをかさ増しする場合、モデル制作の終盤でBさんの声質を削除し、最終的なアウトプットはAさんの声のみになります。

言語の追加

外国語の歌声DBを混ぜることで、自分が収録できない言語も歌わせることができるようになります。

マルチスピーカーモデルに使用できる歌声DB

一般に配布されている歌声DBでも、利用規約によってマルチスピーカーモデルに使用できるものとそうでないものがあります。歌声DBごとに利用規約が異なるため十分注意して扱ってください。


出典

ウィキ募集バナー