TALQuモデル(音源)の作成手順は以下の手順があります。
難易度:低~高 品質:低~高
難易度:低〜中 品質:低~中
- Haruqaポイント取引 (※現在取引停止中)
難易度:高 品質:低~最高(TALQuで生成できる範囲内で)
(品質はあくまで目安です。収録音声の品質やボコーダーとの相性などによるため必ずしも高品質になるとは限らないことを留意してください。)
Haruqaコーパス2.0ベリーイージーエディション
2021年12月に新しく追加された制作方法です。
●簡単なセリフ短文や単語からなるコーパス(台本)。
●通常文に加えて疑問符、感嘆符、表情変更のための3つのスイッチフラグ(X/Y/Z)に対応。
●最小65文から学習が可能。
●2万文から構成されており、3×4×2万の最大24万文収録・学習が可能。
●Google Colabのノートから個人で学習可能。
●通常文に加えて疑問符、感嘆符、表情変更のための3つのスイッチフラグ(X/Y/Z)に対応。
●最小65文から学習が可能。
●2万文から構成されており、3×4×2万の最大24万文収録・学習が可能。
●Google Colabのノートから個人で学習可能。
ユーザーの収録数の縛りが緩く自由な収録ができます。
収録数の縛りが緩いため品質、疑問符、感嘆符、表情対応は作成するユーザーごとになります。
収録数の縛りが緩いため品質、疑問符、感嘆符、表情対応は作成するユーザーごとになります。
手順はモデル作成用ノートを参照してください。
https://colab.research.google.com/drive/1gZe8-ls6ouV9aMwdFxh0DufsJon6iWNH?usp=sharing
https://colab.research.google.com/drive/1gZe8-ls6ouV9aMwdFxh0DufsJon6iWNH?usp=sharing
ITAコーパス収録
2021年7月に新しく追加された制作方法です。
2021年8月にはITAコーパス100文のみでの合成にも対応されました。
2021年8月にはITAコーパス100文のみでの合成にも対応されました。
●口語調 (Emotion)100文と朗読調 (Recitation)324文の合計424文からなるITAコーパス(台本)を使用。
●Emotion100文のみでの学習も可能。
●Google Colabのノートから個人で学習可能。
●Emotion100文のみでの学習も可能。
●Google Colabのノートから個人で学習可能。
詳細は下記動画よりご確認ください。
また、下記のnoteに有志の方が参考になる情報をまとめて下さっています。
- ITAコーパスを用いたTALQuモデル生成手順がきたのでやってみる
Haruqaポイント取引
※2023年3月現在、取引停止中
TALQu製作者であるHaruqa氏に「Haruqaポイント」を使用しTALQuモデル生成を依頼する方法です。
Haruqaポイントについてはこちら
取引の詳細は随時変更されるので上記リンク先でご確認ください。
TALQu製作者であるHaruqa氏に「Haruqaポイント」を使用しTALQuモデル生成を依頼する方法です。
Haruqaポイントについてはこちら
取引の詳細は随時変更されるので上記リンク先でご確認ください。
この文章の執筆時点では、
「TALQu参戦チケット」
「TALQuモデル生成依頼(ITAコーパス)」
「TALQuモデル生成依頼(UTAU音源使用)」
の3つのいずれかの取引でTALQuモデルの生成の依頼が可能です。
(変更されている可能性もありますので、こちらの取引一覧をご確認ください)
また、TALQuモデルの品質をより高くするためには「新規ボコーダー生成依頼」も合わせて行いたいところです(TALQu参戦チケットにはデフォルトでボコーダー生成依頼も付いています)。
「TALQu参戦チケット」
「TALQuモデル生成依頼(ITAコーパス)」
「TALQuモデル生成依頼(UTAU音源使用)」
の3つのいずれかの取引でTALQuモデルの生成の依頼が可能です。
(変更されている可能性もありますので、こちらの取引一覧をご確認ください)
また、TALQuモデルの品質をより高くするためには「新規ボコーダー生成依頼」も合わせて行いたいところです(TALQu参戦チケットにはデフォルトでボコーダー生成依頼も付いています)。
現状で一番高品質のTALQuモデルを作成するには「TALQu参戦チケット」を依頼してください。
- TALQu参戦チケット
最も品質の高いTALQuモデルを生成可能なコースです。
Haruqaコーパス(最大20文字程度の短文からなる台本)を収録し、Haruqa氏に提出することでTALQuモデルを生成を依頼します。
Haruqaコーパス(最大20文字程度の短文からなる台本)を収録し、Haruqa氏に提出することでTALQuモデルを生成を依頼します。
収録数に規定はなく、収録期限内に任意の文量を収録し提出します。
●収録期限:3か月
●収録数:任意の文数~〇万文 (基本的な配布モデルは2250文程度~)
学習元となる音素数が多くなればなるほど品質は向上する傾向にあります。
●通常文に加え、疑問符、感嘆符、表情変更のための3つのスイッチフラグ(X/Y/Z)に対応。
●収録期限:3か月
●収録数:任意の文数~〇万文 (基本的な配布モデルは2250文程度~)
学習元となる音素数が多くなればなるほど品質は向上する傾向にあります。
●通常文に加え、疑問符、感嘆符、表情変更のための3つのスイッチフラグ(X/Y/Z)に対応。
- TALQuモデル生成依頼(ITAコーパス)
ITAコーパスを収録した音声の学習工程をHaruqa氏に依頼するコースです。
品質もITAコーパスでの生成手順に準じます。
品質もITAコーパスでの生成手順に準じます。
- TALQuモデル生成依頼(UTAU音源使用)
UTAU音源を使用したTALQuモデル生成をHaruqa氏に依頼するコースです。
- 新規ボコーダー生成依頼
これはTALQuモデルを生成する依頼ではなく、生成したTALQuモデル専用の新規ボコーダー(HiFiGANModel)の制作をHaruqa氏に依頼するコースです。
専用の新規ボコーダーを生成することでTALQuモデルの品質や合成速度をより高めることができます。
専用の新規ボコーダーを生成することでTALQuモデルの品質や合成速度をより高めることができます。
かつて存在していた方法(現在非推奨)
tacotoron2を理解して同じものを生み出す
多分無理(リバースエンジニアリングは禁止です
声優統計コーパス収録
UTAU音源でHANASUを作り、学習させる
Haruqa氏の支援を受けずに作成する方法です。
コーパス文を読み上げることが難しい方や、声質の維持が困難な方などでも、ustを書き出し、UTAU音源から生成することである程度の品質のモデルを作成することができます。
詳細は下記動画をご覧ください。
コーパス文を読み上げることが難しい方や、声質の維持が困難な方などでも、ustを書き出し、UTAU音源から生成することである程度の品質のモデルを作成することができます。
詳細は下記動画をご覧ください。
本来UTAU音源に読ませる文章を人間が読む
上記のUTAU音源から生成する方法の亜種となります。
ustで書き出しされる形と同一の形式を人間が読み上げたもので再現し、学習させる方法です。
下記Noteにまとめられています。
ustで書き出しされる形と同一の形式を人間が読み上げたもので再現し、学習させる方法です。
下記Noteにまとめられています。
- TALQuモデル生成手順が来たので、敢えて生声でやってみる
- TALQuモデル生成手順が来たので、敢えて生声でやってみる その2
声質に相性があるようですが、生成に成功されている方が多数おられます。
「UTAUで読ませるのが大変」
「難文を読むのくらいへっちゃら」
という方は挑戦しても良いかもしれません。
「UTAUで読ませるのが大変」
「難文を読むのくらいへっちゃら」
という方は挑戦しても良いかもしれません。