TALQuモデルを使用・作成する上で知っていると役に立つかもしれない情報のページです。
内容には間違いが含まれる可能性があります。
内容には間違いが含まれる可能性があります。
ボコーダーとは
voice+encoderの造語。もともとは通信用の音声圧縮技術。
人の声を符号化し、それを元に音声を再合成します。
人の声を符号化し、それを元に音声を再合成します。
TALQuにおいて、ほとんどのTALQuモデル(音源)は従来ボコーダー(NTacotron2Model)にて音声合成が行われています。
しかし、一部のTALQuモデルはそのモデル専用の新規ボコーダー(HiFiGANModel)に対応しています。
従来ボコーダーに比べて、新規ボコーダーを使用した場合は品質や速度が優れる傾向があります。
しかし、一部のTALQuモデルはそのモデル専用の新規ボコーダー(HiFiGANModel)に対応しています。
従来ボコーダーに比べて、新規ボコーダーを使用した場合は品質や速度が優れる傾向があります。
また、TALQu PROにて他の汎用ボコーダーが提供されておりそれを使用することで出力音声を高品質化することができるかもしれません。
自分で生成したTALQuモデルを新規ボコーダーに対応させるためにはHaruqaポイント(こちら)による「TALQu新規ボコーダー生成依頼」の取引が必要です。
コーパスとは
様々な音素がバランスよく含まれる台本(音素バランス文)のことです。
コーパスを機械学習にかけることでTALQuモデルを生成することができます。
一般的に読み上げ文が多いほど高品質なTALQuモデルを生成できます。
コーパスを機械学習にかけることでTALQuモデルを生成することができます。
一般的に読み上げ文が多いほど高品質なTALQuモデルを生成できます。
TALQuモデルの生成に使われるコーパスは
- 声優統計コーパス:100文
- ITAコーパス:424文
- Haruqaコーパス:非公開(少なくとも2000文以上存在、ただしすべて読む必要はないらしい)
の3つとなり、単純に比較すれば品質が高いのは
Haruqaコーパス>ITAコーパス>声優統計コーパス
の順になります。(ただし他の要素も絡むので必ずしもこの通りになるとは限りません)
Haruqaコーパス>ITAコーパス>声優統計コーパス
の順になります。(ただし他の要素も絡むので必ずしもこの通りになるとは限りません)
ベースモデルとは
機械学習のベースモデルです。
学習済みのデータをベースにすることにより少ない収録数でも学習させることができます。
学習済みのデータをベースにすることにより少ない収録数でも学習させることができます。
TALQuにおいては
- FlatBaseModel
- Haruqaベース
- その他
のベースモデルが使用されます。
FlatBaseModel
TALQu作者のHaruqa氏により配布されているベースモデルです。
多くのTALQuモデルに利用されています。
FlatBaseModelを使用した場合は、その旨を表示する義務があります
多くのTALQuモデルに利用されています。
FlatBaseModelを使用した場合は、その旨を表示する義務があります
Haruqaベース
TALQuのデフォルトモデルであるHaruqaモデルをベースモデルとして使用したモデルです。
HaruqaモデルはTALQuで最も品質の高いモデルであり、それをベースモデルにすることで高い品質を期待できます。
作者のHaruqa氏にHaruqaポイント(こちら)を使用してTALQuモデルの生成を依頼した場合のみ使用されます。
それ以外でHaruqaモデルをベースモデルとして使用することは規約で禁止されています。
HaruqaモデルはTALQuで最も品質の高いモデルであり、それをベースモデルにすることで高い品質を期待できます。
作者のHaruqa氏にHaruqaポイント(こちら)を使用してTALQuモデルの生成を依頼した場合のみ使用されます。
それ以外でHaruqaモデルをベースモデルとして使用することは規約で禁止されています。
その他
その他、規約で問題のないモデルをベースモデルにすることは可能ですが、相応の知識が必要になると思われます。