Vocaloid

音声合成に必要な技術

どんな技術が必要なのか調べてみた。

音声合成記述言語

アプリケーションに依存しない統一的な言語で、読み上げる文章を記述する。

Speech Synthesis Markup Language (SSML) Version 1.0

http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/

VoiceXML

http://www.voicexml.org/
http://radiofly.to/nishi/voicexml-sdoc/voicexml.html

形態素解析

読み上げる文章解析に必要となる。

茶筌

http://chasen.naist.jp/hiki/ChaSen/
http://chasen-legacy.sourceforge.jp/

NAIST Japanese Dictionary

http://sourceforge.jp/projects/naist-jdic
形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書

UniDic

アクセント属性を持っている
http://www.tokuteicorpus.jp/dist/
※ダウンロードは登録が必要、再配布不可

音韻変換

言葉のつながりを考慮して発音するために必要となる。

ChaOne

前後関係で読みが変化する場合の対応を行う。
gtalkとかUniDicのところからダウンロードできる。
XSLなのがマニアック杉

音律・波形生成

音声を作り出す。
合成音声を作り出す方法と、MIDIを出力して音色を好みの声にするという方法が考えられる。
初音ミクソフトは音階を人が設定するので、それぞれの音符に初音ミクの音色(声=発音する語)を設定すると言い換えられるだろう。

音素解析

音声認識に必要となる。

音声合成エンジン(Text-To-Speech Engine)

文章を読み上げるためのエンジンである。

Microsoft Agent (最新版では日本語は発音できない)
FreeTTS (日本語は発音できない)

http://freetts.sourceforge.net/docs/index.php

こんな感じ

読み上げるテキストを用意する。
できれば読み上げ制御用コメント埋め込みを行う。
茶筌を使って形態素解析(文章を単語に区切る)を行う。
このとき、UniDicを使ってアクセント情報を出力する。
ChaOneを使って音素変換(前後関係による発音の変形対応)を行う。
解析結果、アクセント情報、読み上げ制御用コメントから発音情報を作成する。
発音情報に音色をのせて波形出力を行う。