アットウィキロゴ
DiffSingerモデル制作wiki
掲示板 掲示板 ページ検索 ページ検索 メニュー メニュー

DiffSingerモデル制作wiki

ラベリング

最終更新:

roku10shi

- view
メンバー限定 登録/ログイン

ラベリングとは

学習には、用意したwavファイルの「どこがどんな発音か」を記録するテキストファイルが必要です。
いくつかのソフトを併用して、ラベルファイルの叩き台を作り手動で調整したものを .labファイルとして保存します。

ラベルデータの形式

基本のデータ形式

0 140000000 SP
140000000 143428576 AP
143428576 144096592 m
144096592 147954656 a

左の数字はラベルが始まる時間、右の数字はラベルが終わる時間を、1/10000000秒(100ナノ秒)で記載します。

音素

  • 基本
子音 k,ky,s,sh,sy,t,ts,ch,n,ny,h,f,m,my,y,r,ry,w,v,kw,g,z,j等
母音 a,i,u,e,o
無声化母音 A,I,U,E,O
無音 SP
吸う息 AP
促音 cl(小さい「っ」など、発音の短い区切り)
ボーカルフライ(エッジ) vf
Glottal stop(声門閉鎖音) q(小さい「っ」で終わる文)
参考:
ttslearn - OpemJTalkの音素リスト
仮名_(文字) - 日本語の仮名に関する説明


  • 拡張
吐く息 EP
ノイズ trash(ノイズ除去で取りきれなかったノイズをラベリングで削除するためのもの)
参考:
連続音録音リスト自動作成 - 「くゎ」等の合拗音の音素
IME-2000-IMEのルール
捨て仮名 - 小字を含む仮名について
外来語#外来語の表記・表現 - 外来語で用いられる小字を含む仮名について

上記は日本語のみ、多言語対応には言語ごとに辞書を用意してラベルをつけます。

ラベルの叩き台の作成


ラベルの手動修正

最近更新されたスレッド
ウィキ募集バナー