DiffSingerモデル作成のおおまかな流れ
- 歌声データベースの作成
- 録音
- 整音
- ラベリング
- 機械学習(AIモデルの作成)
- エクスポート・パッケージング(OpenUtauへの読み込み)
歌声データベースの作成
DiffSingerモデルの材料となるのは、「歌声データベース」と呼ばれる歌のデータセットです。
- 録音:歌を録ります。
- 整音:録音した音声からノイズを除去し、音量を均一にするなどの処理を行います。
- ラベリング:歌中のそれぞれの発音(子音・母音)にひとつずつラベルを付けます。ある程度の自動化が可能ですが最終的には手動修正が必要になります。
機械学習
Google Colabを利用したブラウザでの学習と、自宅の機材を使用したローカルでの学習があります。
Varianceモデル・Acousticモデルという2種類を作成し、両方合わせて1つのDiffSingerモデルになります。
Varianceモデル・Acousticモデルという2種類を作成し、両方合わせて1つのDiffSingerモデルになります。
パッケージング
作成したモデルをOpenUtauで使用できる形にパッケージングして配布、もしくはOpenUtauのSingersフォルダに配置してソフトウェアに読み込み使用します。