Vocaloid

音声合成に必要な技術


どんな技術が必要なのか調べてみた。

音声合成記述言語

アプリケーションに依存しない統一的な言語で、読み上げる文章を記述する。
  • Speech Synthesis Markup Language (SSML) Version 1.0
  • VoiceXML

形態素解析

読み上げる文章解析に必要となる。
  • 茶筌
  • NAIST Japanese Dictionary
http://sourceforge.jp/projects/naist-jdic
形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書
  • UniDic
アクセント属性を持っている
http://www.tokuteicorpus.jp/dist/
※ダウンロードは登録が必要、再配布不可

音韻変換

言葉のつながりを考慮して発音するために必要となる。
  • ChaOne
前後関係で読みが変化する場合の対応を行う。
gtalkとかUniDicのところからダウンロードできる。
XSLなのがマニアック杉

音律・波形生成

音声を作り出す。
合成音声を作り出す方法と、MIDIを出力して音色を好みの声にするという方法が考えられる。
初音ミクソフトは音階を人が設定するので、それぞれの音符に初音ミクの音色(声=発音する語)を設定すると言い換えられるだろう。

音素解析

音声認識に必要となる。

音声合成エンジン(Text-To-Speech Engine)

文章を読み上げるためのエンジンである。
  • Microsoft Agent (最新版では日本語は発音できない)
  • FreeTTS (日本語は発音できない)

こんな感じ

読み上げるテキストを用意する。
できれば読み上げ制御用コメント埋め込みを行う。
茶筌を使って形態素解析(文章を単語に区切る)を行う。
このとき、UniDicを使ってアクセント情報を出力する。
ChaOneを使って音素変換(前後関係による発音の変形対応)を行う。
解析結果、アクセント情報、読み上げ制御用コメントから発音情報を作成する。
発音情報に音色をのせて波形出力を行う。

リンク

  • Wikipedia - 音声合成
  • Galatea
  • AquesTalk Win版
http://www.a-quest.com/aquestalk/index_win.html
フリーで手っ取り早くそして安全に音声合成実装するならこれが良さそう。
  • ドキュメントトーカ Plus
  • SofTalk


最終更新:2007年12月12日 21:02