UTAU音源制作wiki

原音設定の基礎理論

最終更新：2025年07月10日 05:22

cetanol

- view

だれでも歓迎！編集

録音した音声をUTAUで使えるようにするためには、原音に対応する歌詞や発音タイミングなどのパラメータをラベリング、紐付ける設定が必要になります。
そのためのセットアップ作業が原音設定と呼ばれています。

原音設定用アプリ

UTAU本体にも原音設定用のエディタはありますが、操作や動作の制約が多い事から有志によるサードパーティー製の原音設定アプリを使う事が推奨されています。
各種音源方式に合わせたテンプレートの作成や自動推定など、音源制作の需要と発展に合わせてより効率よく原音設定作業をするためにアップデートを重ねられていますので、是非とも活用していきましょう。

setParam - Windows専用。黎明期から音源制作を支える古株のアプリ。一括処理の自由度が強力
- setParam用プラグイン
vLabeler - サブバンク化した複数のoto.iniを管理できる編集の並列化が強力。UTAUに留まらず汎用的なラベルデータを作成可能で、AI歌声データベースも見据えるならこちら。
LABERU - WEBアプリ。スマホからでも原音設定が可能な手軽さが強力

音源方式

基本的な音源方式としては、原音設定の仕方から以下の4つに大別されます。

単独音・れんたんじゅつ：1音ずつ（1モーラずつ）の音を用意し、接続する
連続音：[あ]と[か]をつなぐとき、先頭用の[- あ]と母音aから繋がる用の[a か]を使用する。1つの発音につき用意する音は先頭等・前が[aiueon]の時用の全7種類
CVVC：基本は単独音・れんたんじゅつと同じだが、[あ]と[か]をつなぐとき間に[a k]の音を挟むことによって音をなめらかに接続する
その他：お好みで語尾音源や子音単体音源、母音を区切って発声する喉切り母音、語尾子音などの特殊音素を追加する

ここから更に発展した収録方式も数多くありますが、こと原音設定に関してはこれらの方式で区別が可能です。

■【UTAU】音源方式ごとの特性を考える

単独音、れんたんじゅつ、連続音、CVVCについてそれぞれの違いを解説した動画。

原音設定の前に…

音量の調整について

収録時の音量があまりにも小さすぎる場合は音量を上げる処理を行います。
このとき、上げすぎると音が割れてしまうので気をつけましょう。
また、wav1つ1つを"ノーマライズ"すると音量の上がる量がそれぞれ違ってしまうため、すべてのwavの音量を同じだけ上げるようにします。

ノイズ除去について

ノイズ除去を行う場合は原音設定をする前か、並行して行うことが多いです。
一括でできる加工は先にしておいたほうが原音設定の際に画面が見やすく、一音一音確認しながら取る必要があるノイズは原音設定しながら同時に確認することもできます。

wavのトリミングについて

発声の前後の無音の部分をカットすることもできますが、誤って必要な音までカットしてしまいあとで困ることが多いため、慣れていない人は手を出さないようにしましょう。
データ容量さえ気にしなければ原音設定でもトリミングを行うので問題ありません。

その他の整音

EQ・コンプ等の加工は、原音の段階で味付けしすぎてしまうとミックスの際に困ることになるため、音質の偏りをフラットにすることのみに留めます。
これも慣れていない人は手を出さないようにしましょう。

原音を加工する際は必ずバックアップを取る

いらない無音部分をトリミングしたり原音の音量など加工を施したい場合は、必ずバックアップを取ってからやるようにしましょう。
特にsetParamの「wavファイルの一括編集」機能は上書き保存するため、予めバックアップを取っておきましょう。

原音設定の知識

ここで原音設定の各パラメータの仕様や意義について解説していきます。

各パラメータの呼称について

まずこちらが各ソフトウェア毎の原音設定エディタ画面です。

	エイリアス	⇔	エントリ
①	オフセット	⇔	左ブランク
②	子音部	⇔	固定範囲
③	ブランク	⇔	右ブランク
④	先行発声	⇔	先行発声
⑤	オーバーラップ	⇔	overlap

名称は以下のように対応しており、パラメータの呼び方は2種類、見た目はツール毎に異なるのが注意点です。
UTAU内蔵の原音設定エディタでは左側の名称で、vLabelerがエントリ以外は同じ名称を採用しています。

表記ゆれに関する小話

各パラメータの基本について

オフセット/左ブランク

右ブランクとセットで、原音の鳴らさない部分を指定します。
左ブランクでは原音の左側を、右ブランクでは右側を合成時にカットし、ノート上で鳴らしてもその部分は再生されないようにします。

収録の段階では、なるべく声を出す前後の無音まで含めて原音に収めてあると良いでしょう(0.5～1秒程度)

なぜ余白を残しているのか？

切り捨てるのならwavデータにそもそも含める必要もなく、データ容量節約のためにカットできるのではと思われがちですが、ユーザー間ではむしろ前後の余白は有難がられる事の方が多いです。
上記画像でも切り捨てている息を吸う音や、息を吐いた音なども原音設定をする事で歌の表現に活用が出来ますし、声の乗っていない無音に思われる部分もノイズ除去の為に必要な環境音のデータとなりえます。

その他れんたんじゅつやCVVC、連続音といった収録形式では複数の音節を纏めて1つのwavデータに収録するので、不必要な音のオフセット指定に正確さが求められます。
ちなみに他のパラメータの数値はオフセット/左ブランクからの相対値で、オフセット位置から数えた長さで指定しています。そのためオフセットの数値が変わると、他のパラメータの位置も同じだけ原音からズレていきます。

子音部/固定範囲

この項目で囲った原音は、ノートを伸ばしても引き延ばされることなく元の状態を保ちます。
逆に、囲っていない範囲はノートの長さに応じて引き延ばされます。こちらは便宜上"伸縮範囲"と呼ばれています。

まずこちらが子音部に何も設定していない場合の画像↓

ノートが長くなり原音が引き延ばされると、発音全体が伸ばされ再生速度を落としたような声になります。
子音や出だしの発音まで引き延ばされると発声タイミングもズレて大変な事になるので、伸ばしても発音が変わらなくなる所までは引き延ばされないようにする為に子音部/固定範囲の設定が必要になる訳です。

子音部を固定し、白い範囲だけを伸ばした画像↓

｢CVVC｣と呼ばれる音源では子音の音を伸縮範囲に設定し、ノート長を調節する事で子音の長さを変えられるように設定する音節も存在します。

伸縮範囲について

子音部/固定範囲と右ブランクに囲まれたこの白いエリアには設定項目が無く公式で確認できる名称がありませんが、便宜上伸縮範囲と呼ばれています。
ノートの長さに合わせて原音の長さは調節されますが、その中で引き延ばしても良い場所を決めるのが白いエリアになる訳です。
伸縮…とは言うものの、原音より短いノートの際はたとえ伸縮範囲であっても左右のブランクと同じように切り捨てて縮めます。再生速度を下げる事はあっても上げる事は無い、という訳です。

この伸縮範囲を引き延ばす方法は合成エンジン（リサンプラー）により2種類の違いがあります。

タイムストレッチ型
ループ型

一般に馴染みが深いのはタイムストレッチ型でしょう。動画視聴などで再生速度を変更すると音声が速くなったりゆっくりになったりと伸び縮みしますが、この編集こそがタイムストレッチです。
UTAUとOpenUtauのデフォルトの合成エンジンでもタイムストレッチ型を採用しています。

一方でループ型は同じ部分を繰り返し再生する事で音声を長くします。そのままループ再生なのでループ型と呼びます。
主に音楽制作で使われるサンプラー等でこのループ型が登場します。UTAUエンジンで音声をループさせる際は通常再生→逆再生→再生→逆再生...の手順を踏んで長さを確保していきます。
大抵のループ型エンジンにはノートごとにタイムストレッチ型に切り替えられる機能が備わっていますので、原音設定でそこまで意識する必要はありません。

タイムストレッチ型の長所

伸縮範囲を決める子音部/固定範囲や右ブランクの設定に許容できる範囲がループ型より広いです。
伸縮範囲全体を伸ばすので、伸縮範囲内で異なる発音や発声が含まれる場合も滑らかに伸ばすことが出来ます。
上記の画像のように、母音の開始と終わりまでの音色の変化まで伸縮範囲に含めていると、長いノートでは緩やかに音色の変化が付いていき、ロングトーンの発声としてリアルな肉付きが得られる事があります。

タイムストレッチ型の短所

ゴムのように伸ばすので、当然伸ばせば伸ばすだけ発音や発声そのものに違和感が出やすいです。声の中には声帯から鳴らした音の他に息成分(非周期成分)という、決まったピッチを持たない息の音も混ざっているのですが、これが引き延ばされた際には特に劣化しやすいです。
また、CVVC音源で使用されるVC音節では非常に短い子音を伸縮範囲として扱うことになるため、引き伸ばしのノイズが目立ちやすい傾向があります。

息成分について更に小話