言葉を発している人の音声のスペクトルを観察すると、複数のピークが時間的に移動しており、このピークをフォルマントと呼ぶ。
周波数の低い順に第一フォルマント、第二フォルマント…という様に数字を当てて呼び、それぞれF1, F2とも表記する。
(第0フォルマント、F0を数える場合もある)
フォルマントの周波数は声道の形状と関係し,個体差や性差もフォルマントの違いを生む原因となる。
発音する音韻が同じであれば、各フォルマント周波数は近い値になる。
母音の識別には、各フォルマントの周波数が重要である。
録音した音声から主要フォルマント(主に500~3000Hz近辺に点在する)を除去して再生すると、発音された母音とは認識できなくなる。
逆に楽器などの音波にシンセサイザーやイコライザーなどでフォルマントを模したピークを加えてやると母音が混じったような音声が出来上がる。
子音では明確なフォルマントは観察できない。
母音の弁別は第一フォルマント(約500~1000Hz)と第二フォルマント(約1500~3000Hz)によってほぼ行うことできる。
(第一、第二といった数字の当て方は研究者や時代によって異なる場合がある)
音声は、声帯(vocal fold)の振動によって生成された音波(喉頭原音)が声道(vocal tract)で共鳴することで形成される。
音声の源となる声帯振動は会話の時は200Hz付近で、ゴム風船のブーという振動とあまり変わらず、この音は喉に直接マイクを当てれば聴くことができる。
(声帯を失った人に使用される人工声帯は、ブーという音しか出ない)
この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、さらに鼻腔、副鼻腔で共鳴することにより特定帯域ごとに倍音が増幅される。
増幅された成分の塊もしくはピークをフォルマントと呼び、さらに口から外部への放射・伝播を経て、我々が普段耳にしている音声へと変わる。
人が言葉を発するということは、音響音声学的には、音声におけるそれぞれの音韻に必要な共鳴や生成方法を制御することであり、調音または構音と呼ぶ。
親子や兄弟で声が似ているのは、骨格などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。
音色に影響するのはむしろ声帯の微妙な鳴らし方の違い(声種)であり、これは習慣的なものである。
似た声になるのは、聴き慣れた家族の声を無意識に再現しようとすることのほかに、使う発声が親から遺伝していることも理由である。
(使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、逆にいえば、練習次第で遺伝した発声を変えていくこともできる)
周波数分析器により観察したスペクトルの時間遷移は、サウンドスペクトログラムと呼ばれるグラフに記録して観察される。
一般に、縦軸に周波数、横軸に時間を配置する。
サウンドスペクトログラムは、観察する信号をデジタル録音(サンプリング)したものに短時間フーリエ変換(STFT)を掛けて作成する。
- ソナグラフ(sonagraph)/サウンドスペクトログラフ(spectrograph)
過去の周波数分析には、ソナグラフやサウンドスペクトログラフという装置が使われてきた。
これらは分析するための音をいったん録音し、再生時に帯域通過フィルタの周波数を変えながら紙に順次記録していくもので、周波数成分の強い箇所が濃く記録される。
最終更新:2009年08月13日 08:15