DiffSingerモデル制作wiki

歌声データベースの作成

最終更新：2025年10月08日 09:50

kikyohiloto

- view

メンバー限定登録/ログイン

歌声データベースとは

DiffSingerの学習に必要な、音声(wav)とラベル(lab)のセットです。
1つのデータベース内に複数の表情や言語を入れることができます。それらはフォルダを分けて管理します。

歌声データベースの形式（フォーマット）

wavは44100kHz・16bitにしておきます。
ファイル名は日本語、半角スペース、#などの記号は避けます。
ラベルファイルに関してはラベリングページで説明します。
colabで多言語対応する場合はlang_config.yamlを作成します。

以下はマルチスピーカーモデルの例です。図のようなフォルダ構造で用意し、Colabで学習する場合はzipに圧縮します。
マルチスピーカーモデルでない場合は表情や多言語のフォルダは必要ありません。

シンガー名.zip
├─lang_config.yaml
├─Normal.ja（フォルダ）
│└─曲名1.wav
│└─曲名1.lab
│└─曲名2.wav
│└─曲名2.lab
├─Power.ja（フォルダ）
│└─曲名3.wav
│└─曲名3.lab
│└─曲名4.wav
│└─曲名4.lab
├─English.en（フォルダ）
│└─曲名5.wav
│└─曲名5.lab
│└─曲名6.wav
│└─曲名6.lab

「歌声データベースの作成」をウィキ内検索

DiffSingerモデル制作wiki

記事メニュー

歌声データベースの作成

歌声データベースとは

歌声データベースの形式（フォーマット）

もくじ