UTAU音源制作wiki

原音設定の基礎理論

最終更新:

cetanol

- view
だれでも歓迎! 編集
録音した音声をUTAUで使えるようにするためには、原音に対応する歌詞発音タイミングなどのパラメータをラベリング、紐付ける設定が必要になります。
そのためのセットアップ作業が原音設定と呼ばれています。

原音設定用アプリ

UTAU本体にも原音設定用のエディタはありますが、操作や動作の制約が多い事から有志によるサードパーティー製の原音設定アプリを使う事が推奨されています。
各種音源方式に合わせたテンプレートの作成や自動推定など、音源制作の需要と発展に合わせてより効率よく原音設定作業をするためにアップデートを重ねられていますので、是非とも活用していきましょう。

  • setParam - Windows専用。黎明期から音源制作を支える古株のアプリ。一括処理の自由度が強力
  • vLabeler - サブバンク化した複数のoto.iniを管理できる編集の並列化が強力。UTAUに留まらず汎用的なラベルデータを作成可能で、AI歌声データベースも見据えるならこちら。
  • LABERU - WEBアプリ。スマホからでも原音設定が可能な手軽さが強力

音源方式

基本的な音源方式としては、原音設定の仕方から以下の4つに大別されます。
  • 単独音れんたんじゅつ:1音ずつ(1モーラずつ)の音を用意し、接続する
  • 連続音:[あ]と[か]をつなぐとき、先頭用の[- あ]と 母音aから繋がる用の[a か]を使用する。1つの発音につき用意する音は先頭等・前が[aiueon]の時用の全7種類
  • CVVC:基本は単独音・れんたんじゅつと同じだが、[あ]と[か]をつなぐとき間に[a k]の音を挟むことによって音をなめらかに接続する
  • その他:お好みで語尾音源や子音単体音源、母音を区切って発声する喉切り母音、語尾子音などの特殊音素を追加する
ここから更に発展した収録方式も数多くありますが、こと原音設定に関してはこれらの方式で区別が可能です。

■【UTAU】音源方式ごとの特性を考える

単独音れんたんじゅつ連続音CVVCについてそれぞれの違いを解説した動画。


原音設定の前に…

音量の調整について

収録時の音量があまりにも小さすぎる場合は音量を上げる処理を行います。
このとき、上げすぎると音が割れてしまうので気をつけましょう。
また、wav1つ1つを"ノーマライズ"すると音量の上がる量がそれぞれ違ってしまうため、すべてのwavの音量を同じだけ上げるようにします。

ノイズ除去について

ノイズ除去を行う場合は原音設定をする前か、並行して行うことが多いです。
一括でできる加工は先にしておいたほうが原音設定の際に画面が見やすく、一音一音確認しながら取る必要があるノイズは原音設定しながら同時に確認することもできます。

wavのトリミングについて

発声の前後の無音の部分をカットすることもできますが、誤って必要な音までカットしてしまいあとで困ることが多いため、慣れていない人は手を出さないようにしましょう。
データ容量さえ気にしなければ原音設定でもトリミングを行うので問題ありません。

その他の整音

EQ・コンプ等の加工は、原音の段階で味付けしすぎてしまうとミックスの際に困ることになるため、音質の偏りをフラットにすることのみに留めます。
これも慣れていない人は手を出さないようにしましょう。

原音を加工する際は必ずバックアップを取る

いらない無音部分をトリミングしたり原音の音量など加工を施したい場合は、必ずバックアップを取ってからやるようにしましょう。
特にsetParamの「wavファイルの一括編集」機能は上書き保存するため、予めバックアップを取っておきましょう。


原音設定の知識

ここで原音設定の各パラメータの仕様や意義について解説していきます。

各パラメータの呼称について

まずこちらが各ソフトウェア毎の原音設定エディタ画面です。

エイリアス エントリ
オフセット 左ブランク
子音部 固定範囲
ブランク 右ブランク
先行発声 先行発声
オーバーラップ overlap

名称は以下のように対応しており、パラメータの呼び方は2種類、見た目はツール毎に異なるのが注意点です。
UTAU内蔵の原音設定エディタでは左側の名称で、vLabelerがエントリ以外は同じ名称を採用しています。

+ 表記ゆれに関する小話
Q.何故表記ゆれがあるのか
A.表記ゆれしてるから。
身も蓋もないですがUTAUの開発者本人ですらも両方の単語を用いているくらいには揺れています。
本家UTAUの名称こそ正式なもの…と断定するのも怪しく、本家UTAUですら子音部の指定は内部的に"fixed length(固定長)"と呼称されているなどの表記ゆれが起きているため、どれも正解と捉えても間違いではないのです。
ただ、vLabeler「エントリ」に関しては設定項目の「行」そのものを指していたのがエイリアスとくっついて表記されているようなので、歌詞の設定である「エイリアス」「エイリアス」と呼ぶのが良いでしょう。

各パラメータの基本について

オフセット/左ブランク

右ブランクとセットで、原音の鳴らさない部分を指定します。
左ブランクでは原音の左側を、右ブランクでは右側を合成時にカットし、ノート上で鳴らしてもその部分は再生されないようにします。

収録の段階では、なるべく声を出す前後の無音まで含めて原音に収めてあると良いでしょう(0.5~1秒程度)

切り捨てるのならwavデータにそもそも含める必要もなく、データ容量節約のためにカットできるのではと思われがちですが、ユーザー間ではむしろ前後の余白は有難がられる事の方が多いです。
上記画像でも切り捨てている息を吸う音や、息を吐いた音なども原音設定をする事で歌の表現に活用が出来ますし、声の乗っていない無音に思われる部分もノイズ除去の為に必要な環境音のデータとなりえます。

その他れんたんじゅつCVVC連続音といった収録形式では複数の音節を纏めて1つのwavデータに収録するので、不必要な音のオフセット指定に正確さが求められます。
ちなみに他のパラメータの数値はオフセット/左ブランクからの相対値で、オフセット位置から数えた長さで指定しています。そのためオフセットの数値が変わると、他のパラメータの位置も同じだけ原音からズレていきます。


子音部/固定範囲

この項目で囲った原音は、ノートを伸ばしても引き延ばされることなく元の状態を保ちます。
逆に、囲っていない範囲はノートの長さに応じて引き延ばされます。こちらは便宜上"伸縮範囲"と呼ばれています。

まずこちらが子音部に何も設定していない場合の画像↓

ノートが長くなり原音が引き延ばされると、発音全体が伸ばされ再生速度を落としたような声になります。
子音や出だしの発音まで引き延ばされると発声タイミングもズレて大変な事になるので、伸ばしても発音が変わらなくなる所までは引き延ばされないようにする為に子音部/固定範囲の設定が必要になる訳です。

子音部を固定し、白い範囲だけを伸ばした画像↓

CVVC」と呼ばれる音源では子音の音を伸縮範囲に設定し、ノート長を調節する事で子音の長さを変えられるように設定する音節も存在します。

- 伸縮範囲について

伸縮範囲について

子音部/固定範囲右ブランクに囲まれたこの白いエリアには設定項目が無く公式で確認できる名称がありませんが、便宜上伸縮範囲と呼ばれています。
ノートの長さに合わせて原音の長さは調節されますが、その中で引き延ばしても良い場所を決めるのが白いエリアになる訳です。
伸縮…とは言うものの、原音より短いノートの際はたとえ伸縮範囲であっても左右のブランクと同じように切り捨てて縮めます。再生速度を下げる事はあっても上げる事は無い、という訳です。


この伸縮範囲を引き延ばす方法は合成エンジン(リサンプラー)により2種類の違いがあります。
  • タイムストレッチ型
  • ループ型

一般に馴染みが深いのはタイムストレッチ型でしょう。動画視聴などで再生速度を変更すると音声が速くなったりゆっくりになったりと伸び縮みしますが、この編集こそがタイムストレッチです。
UTAUとOpenUtauのデフォルトの合成エンジンでもタイムストレッチ型を採用しています。

一方でループ型は同じ部分を繰り返し再生する事で音声を長くします。そのままループ再生なのでループ型と呼びます。
主に音楽制作で使われるサンプラー等でこのループ型が登場します。UTAUエンジンで音声をループさせる際は通常再生逆再生再生逆再生...の手順を踏んで長さを確保していきます。
大抵のループ型エンジンにはノートごとにタイムストレッチ型に切り替えられる機能が備わっていますので、原音設定でそこまで意識する必要はありません。

  • タイムストレッチ型の長所
伸縮範囲を決める子音部/固定範囲右ブランクの設定に許容できる範囲がループ型より広いです。
伸縮範囲全体を伸ばすので、伸縮範囲内で異なる発音や発声が含まれる場合も滑らかに伸ばすことが出来ます。
上記の画像のように、母音の開始と終わりまでの音色の変化まで伸縮範囲に含めていると、長いノートでは緩やかに音色の変化が付いていき、ロングトーンの発声としてリアルな肉付きが得られる事があります。

  • タイムストレッチ型の短所
ゴムのように伸ばすので、当然伸ばせば伸ばすだけ発音や発声そのものに違和感が出やすいです。声の中には声帯から鳴らした音の他に息成分(非周期成分)という、決まったピッチを持たない息の音も混ざっているのですが、これが引き延ばされた際には特に劣化しやすいです。
また、CVVC音源で使用されるVC音節では非常に短い子音を伸縮範囲として扱うことになるため、引き伸ばしのノイズが目立ちやすい傾向があります。
+ 息成分について更に小話
劣化が目に見えて分かるようなエンジンはあまり多くは無いです。例えばmoresamplerやtn_fndsといったエンジンは自身で生成したホワイトノイズに原音のフォルマントを充てて息成分としているため、原音にいくら漏れた息の音が無くても囁き声を作り出せます。
デフォルトのエンジン(UTAUのresamplerとOpenUtauのworldline)にそういった言及はありませんが、こちらも殆ど息の音そのものの劣化は少なく、言うほど短所として注意するものでもなくなってきています。

  • ループ型の長所
伸縮範囲内をそのままコピーして並べるだけなので、タイムストレッチ型より原音の音色を保ったロングトーンを生成できます。
これはピッチの存在しない息の音なども同様で、囁き声の音源との相性も良いです。

  • ループ型の短所
上記の画像のように音色や発音、音量などが異なっている音が伸縮範囲に含まれていると、その部分がループで何度も現れ違和感に繋がりやすくなります。
そのため音源の収録では十分な長さの安定した発声、原音設定では固定範囲、右ブランクの精確な設定が要求され非常に難易度が高いです。


右ブランク
オフセット/左ブランクとセットで、原音の使わない箇所をカットするパラメータです。
左~右ブランクの範囲内が合成時に実際に使われる音の範囲になります。

機能としてはオフセット/左ブランクと同じですが、右ブランクでは主に伸縮範囲の終わりを指定することになるため、どちらかと言えば固定範囲とセットのパラメータです。

  • 右ブランク値の求め方

数値がプラスの場合は、①原音の終わり(右端)からの時間を、値がマイナスの時は②左ブランクからの時間を測った相対値になります。
画像①では右ブランクの値は1098、画像②の場合では右ブランクの値は-452と書きます。

基本的にどちらでも良いのですが、単独音のようにwav1つにつき1つのエイリアスを用意する場合は正の数値で指定することが多く、連続音CVVCれんたんじゅつ、切り出し単独音のように一回の発声で複数の音節を録音するような場合では、負の数にしておくと原音設定中に扱いやすくなります。


先行発声
これは音符(ノート)に対して音を再生するタイミングを操作するパラメータです。
具体的には先行発声の位置が音符(ノート)の開始地点となります。

まず前提として、言葉を歌に乗せる際には普通の楽器と違いノートよりも先に発音する音が存在します。
日本語の発音のほとんどは
あかさたな→[a] [ka] [sa] [ta] [na]
いきしちに→[i] [ki] [shi] [chi] [ni]
と書けるように子音母音(あいうえお)でできています。

基本的に子音はノートのリズムに影響を与えず、母音を基準にリズムがとられています。
そのため子音は音符(ノート)の先頭よりも前から発音され、母音がノートの開始位置から始まります。

先行発声はこのノートの開始位置を示しており、具体的には子音母音の間に設定します。
あかさたな→[a] [ka] [sa] [ta] [na]
いきしちに→[i] [ki] [shi] [chi] [ni]

上記の例とは別で子音がメインの音、息の音などを設定する際は、母音のみの設定と同じようにその音の開始地点に設定しましょう。

オーバーラップ
前の音符とどれだけ重なる(オーバーラップする)かを指定するパラメータです。
連続音CVVCでは、母音のオーバーラップした部分をクロスフェードし、なめらかに繋ぎます。

挙動としては原音設定で指定したオーバーラップの位置まで前のノートの音を再生させます。
プラスの値にしていくほど前のノートの音が重なりますが、逆にマイナスの値にするほどノート間に無音を作り出します。

子音k,t,pの音など、発音の都合上で無音部分が存在する音の設定でマイナスにする事が多いです。

実際にどのように設定するかは、原音設定実践編のページを参照してください。

外部リンク

当wiki以外にも多くの原音設定の理論を説いた記事や動画などがありますので、こちらでも纏めて紹介させていただきます。
様々な教え方がありますので、別の視点から学びたいという方は是非とも他の記事も参考にしてみてください。多様な説明に触れることで、より一層原音設定への理解が深まる事でしょう。

講座動画・資料









UTAU音源のリビルド


タグ:

+ タグ編集
  • タグ:
ウィキ募集バナー