音声合成に必要な技術
どんな技術が必要なのか調べてみた。
音声合成記述言語
アプリケーションに依存しない統一的な言語で、読み上げる文章を記述する。
- Speech Synthesis Markup Language (SSML) Version 1.0
形態素解析
読み上げる文章解析に必要となる。
- NAIST Japanese Dictionary
音韻変換
言葉のつながりを考慮して発音するために必要となる。
前後関係で読みが変化する場合の対応を行う。
gtalkとかUniDicのところからダウンロードできる。
XSLなのがマニアック杉
音律・波形生成
音声を作り出す。
合成音声を作り出す方法と、MIDIを出力して音色を好みの声にするという方法が考えられる。
初音ミクソフトは音階を人が設定するので、それぞれの音符に初音ミクの音色(声=発音する語)を設定すると言い換えられるだろう。
音素解析
音声認識に必要となる。
音声合成エンジン(Text-To-Speech Engine)
文章を読み上げるためのエンジンである。
- Microsoft Agent (最新版では日本語は発音できない)
- FreeTTS (日本語は発音できない)
こんな感じ
読み上げるテキストを用意する。
できれば読み上げ制御用コメント埋め込みを行う。
茶筌を使って形態素解析(文章を単語に区切る)を行う。
このとき、UniDicを使ってアクセント情報を出力する。
ChaOneを使って音素変換(前後関係による発音の変形対応)を行う。
解析結果、アクセント情報、読み上げ制御用コメントから発音情報を作成する。
発音情報に音色をのせて波形出力を行う。
リンク
最終更新:2007年12月12日 21:02