DiffSingerモデル制作wiki

マルチスピーカーモデル

最終更新：2025年09月07日 17:33

dsmodelmaker

- view

メンバー限定登録/ログイン

マルチスピーカーモデルとは

歌声DBに複数の表情の歌唱を混ぜたり、他人の声を混ぜて学習する方法です。混合学習などとも呼ばれます。

マルチスピーカーモデルを使用するメリット

Voice Colorの作成

Voice Colorを作成すると、OpenUtauで調声するときに表情を選択できるようになります。
UTAU音源（Classicシンガー）のVoice Colorは通常音源と表情音源が別々の素材ですが、DiffSingerでのVoice Colorは1つのモデルの別側面のようなものであり、一度全表情の素材を混ぜて学習します。

歌声DBのかさ増し

他人の声で歌声DBをかさ増しすることで、少ない収録量で学習できます。
マルチスピーカーモデルでは他人の声を混ぜ、それが出力される声質に影響しないよう声質を削除することができます。
例えば、Aさんが自作モデルを作るためにBさんの声を使用して歌声DBをかさ増しする場合、モデル制作の終盤でBさんの声質を削除し、最終的なアウトプットはAさんの声のみになります。

多言語化の対応

外国語の歌声DBを混ぜることで、自分が収録できない言語も歌わせることができるようになります。
古い作成方法では、言語毎にDBを分けます。
最新の作成方法では、多言語化対応にはラベルデータの音素に言語コード(ISO 639-1 Code)を追加する必要があります。
また、音素マージなどの設定も必要になります。
詳細：https://github.com/usamireko/DiffSinger4Colab/blob/main/data_example.md

マルチスピーカーモデルに使用できる歌声DB

一般に配布されている歌声DBでも、利用規約によってマルチスピーカーモデルに使用できるものとそうでないものがあります。歌声DBごとに利用規約が異なるため十分注意して扱ってください。

配布歌声DBの一覧：openvpi/MakeDiffSinger/wiki/Public-datasets

出典

https://github.com/openvpi/MakeDiffSinger/wiki/Multispeaker-Models

「マルチスピーカーモデル」をウィキ内検索