歌声データベースとは
DiffSingerの学習に必要な、音声(wav)とラベル(lab)のセットです。
1つのデータベース内に複数の表情や言語を入れることができます。それらはフォルダを分けて管理します。
1つのデータベース内に複数の表情や言語を入れることができます。それらはフォルダを分けて管理します。
歌声データベースの形式(フォーマット)
- wavは44100kHz・16bitにしておきます。
- ファイル名は日本語、半角スペース、#などの記号は避けます。
- ラベルファイルに関してはラベリングページで説明します。
- colabで多言語対応する場合はlang_config.yamlを作成します。
以下はマルチスピーカーモデルの例です。図のようなフォルダ構造で用意し、Colabで学習する場合はzipに圧縮します。
マルチスピーカーモデルでない場合は表情や多言語のフォルダは必要ありません。
マルチスピーカーモデルでない場合は表情や多言語のフォルダは必要ありません。
シンガー名.zip
├─lang_config.yaml
├─Normal.ja(フォルダ)
│└─曲名1.wav
│└─曲名1.lab
│└─曲名2.wav
│└─曲名2.lab
├─Power.ja(フォルダ)
│└─曲名3.wav
│└─曲名3.lab
│└─曲名4.wav
│└─曲名4.lab
├─English.en(フォルダ)
│└─曲名5.wav
│└─曲名5.lab
│└─曲名6.wav
│└─曲名6.lab
├─lang_config.yaml
├─Normal.ja(フォルダ)
│└─曲名1.wav
│└─曲名1.lab
│└─曲名2.wav
│└─曲名2.lab
├─Power.ja(フォルダ)
│└─曲名3.wav
│└─曲名3.lab
│└─曲名4.wav
│└─曲名4.lab
├─English.en(フォルダ)
│└─曲名5.wav
│└─曲名5.lab
│└─曲名6.wav
│└─曲名6.lab