音 - (2009/12/15 (火) 17:06:39) の最新版との変更点
追加された行は緑色になります。
削除された行は赤色になります。
*思いついたことのコーナー
&bold(){RULE}:
+&bold(){誰でもいいのガンガン書いてくださいな。思い浮かんだら即書いてみる。}
+&bold(){できるとかできないとか関係なしに。}
-五月祭期間中twitterから情報を取り出してしゃべらせる。(音声合成)
handle name とかわかる情報から音声を決める。例えば性別とか
-物理的に音波の掛け算もしくは相関計算が可能ならば連想記憶の方法を用いて音の再生が可能ではないか?
ホワイトノイズと信号の相関を累積したものから信号を取り出す。
→どうやら音で相関計算をするのは厳しいので断念。
(光に変えてやってやればいいようですがPCで計算したほうがはるかに速いので…)
*近況
12月 二年生勧誘
資料作成及び配布
とりあえず一月までに2年も含めた顔合わせができるとよし。
*システム一研との話し合い
-立体迷路はどうか?
→「右、左」というとその通り動く(音声認識をつかう:julian? or DPmatching)
-Vocal Transformerはどうか?→ピッチ抽出はできるのでハーモナイザーはすぐできる。
-ピッチ抽出→MIDIなどの他楽器で演奏
-音で絵をかく→横、縦をどんな特徴量であらわすか?
-音声合成はきつい
人間にとって当たり前 BUT 機械ではむずい
-音声認識はnoiseの問題が
誤ることが前提で考える→誤ることを逆手にとる
- &bold(){見せ方}
人間にできないこと
グラフィックを使う
実時間のシステムが一番いい、interactiveに!!
*資料
とりあえず、音声認識関連の本を2冊ほど購入したので見たい人は
計数ロッカー室のMayfesのロッカーに入れておきますのでどうぞ。
割と軽めです。
ない時は誰かが読んでるということで。
物工の人は誰か計数の人に頼んでロッカー室開けてもらってください。
物工の人にはご迷惑おかけします。
&bold(){『音響学ABC』(技術堂出版)
『フリーソフトで作る音声認識システム』(森北出版株式会社)}
*<現在上がっている案>
-去年の展示物の改良(音を信号処理して様々な特徴量を出してシューティングゲームにしたもの)
とりあえず今はピッチ検出をしてみてます。
いろいろ信号処理のことのってます。
http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/index.php?%E3%83%A1%E3%83%AB%E5%91%A8%E6%B3%A2%E6%95%B0%E3%82%B1%E3%83%97%E3%82%B9%E3%83%88%E3%83%A9%E3%83%A0%EF%BC%88MFCC%EF%BC%89#d33d7f39
-声道を複数の円筒管をつなげたものによって伝達関数だけ同じにしてみる。
要はモノマネができる原理です。インコとかも同じ。
すっごいいい資料
http://www.sp4win.com/support/Tayori/kiji/83b.htm
-ワイングラスを共振で割ってみる。
安全性から許可下りないかも。
共振で発電をしてみるのも手かと。
液体窒素とかで凍らせたらいろいろ割れんじゃねとも思う。林檎とか。
資料:http://www.info-niigata.or.jp/~ymiyata/nami/c43glass.htm
-音声認識でいろいろ
それなりに限られた文、単語なら高認識率なのでARと合わせて何か出来るかも。
-ペイントなどに書いた曲線を音に畳みこむor掛け算してみる。(時間領域、周波数領域)
割と面白そうなんですが、すぐできちゃうので最終手段で
-録音された各楽器のパートを組み合わせて音楽を作ってみる
録音された各楽器のパートを特徴量からラべリングしてそれらの組み合わせを出してみる。おもにクラスタリング、相関度検出などになると思います。
-「あ行」から「か~わ行」まで作る。
母音から子音+母音を作るということです。
サンプルが母音だけで、トークロイドが作れることを目標に。
(追記: 2009/12/01)
とりあえずは以上があがってますが、ボーカルトランスフォーム、楽音関係なども考えてます。実現可能性は無視でいいのでアイディアがあったら書き込んでくださってOKです。
以上 中村友彦でした。
(追記: 2009/11/16)
声道モデルの資料の一つです。
とりあえず今あげられる資料でいいものがないのですが言葉だけでは分かりにくいという方のために。
ただし、今のところ下のpdfの様に声道モデル以外も作るということはしませんし、声道を時間的に動かしたりはする予定はありません。
http://www.interaction-ipsj.org/archives/paper2002/pdf2002/27sawada.pdf
(追記: 2009/11/17)
音声認識のソフト: &italic(){Julius,Julian} を使う予定です。下リンク先
http://julius.sourceforge.jp/
(追記: 2009/11/26)
誰かが掲示板に載せてくれたのが面白いので、これも自動化してmidiでやってみようかなとか思いだす今日この頃。
http://gigazine.net/index.php?/news/comments/20091010_speaking_piano
*<参考書>
基本的には線形理論(LPC,PARCOR,LSP?)、統計学的手法(HMM,AR過程)をつかって行こうと思うのでよさげなのを書いておきます。(?は使うかどうか不明なとこです。)
&bold(){『音声信号処理』(今村 聖、森川出版)
『音声の線形予測』( J.D.マーケル, A.H.グレイ,Jr.著 ; 鈴木久喜訳)}
*声道管のついての資料更新
http://www.geocities.jp/onsei2007/mokuzi.html
主に2音響管についての理論がメインです。scilabのサンプルプログラムもあります。
*思いついたことのコーナー
&bold(){RULE}:
+&bold(){誰でもいいのガンガン書いてくださいな。思い浮かんだら即書いてみる。}
+&bold(){できるとかできないとか関係なしに。}
-五月祭期間中twitterから情報を取り出してしゃべらせる。(音声合成)
handle name とかわかる情報から音声を決める。例えば性別とか
-物理的に音波の掛け算もしくは相関計算が可能ならば連想記憶の方法を用いて音の再生が可能ではないか?
ホワイトノイズと信号の相関を累積したものから信号を取り出す。
→どうやら音で相関計算をするのは厳しいので断念。
(光に変えてやってやればいいようですがPCで計算したほうがはるかに速いので…)
-去年のARの機材見てたら立体視用デバイスみたいのがあったのでなんかしたい。
なんか案あったら求む。
-STRAIGHT分析なら5母音のほかの音声の合成がなんとかなるようです。
結構面白そうなのでできればこれも使いたい。
ただし原理はわけわかめなのでだれか理解できる人求む。
http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_j.html
CRESTMUSE PROJECT やばい
http://www.crestmuse.jp/crestmuse_research2008_j.html
*予定
12月 二年生勧誘
資料作成及び配布
とりあえず一月までに2年も含めた顔合わせができるとよし。
1月 勉強会(毎週金曜予定)ーーーフーリエと相関関数を基礎としてLPC。統計モデルはHMMをメインに
→2年生にはLPCまで終了。ただし、離散フーリエについてはあまり説明していない。z変換もラプラス変換の離散版というだけ。概念はインプット済み。
計算法はまだ統計関係はほとんどしていない。(追記:2010/01/10)
|1/8|2年生に対してフーリエ、相関関数、LPC終了|
|1/15|正式な顔合わせ|
|1/22以降|毎週金曜に昼でも放課後でもいいのであつまりをするか?|
|1/15|班分け完了|
*システム一研との話し合い
-立体迷路はどうか?
→「右、左」というとその通り動く(音声認識をつかう:julian? or DPmatching)
-Vocal Transformerはどうか?→ピッチ抽出はできるのでハーモナイザーはすぐできる。
-ピッチ抽出→MIDIなどの他楽器で演奏
-音で絵をかく→横、縦をどんな特徴量であらわすか?
-音声合成はきつい
人間にとって当たり前 BUT 機械ではむずい
-音声認識はnoiseの問題が
誤ることが前提で考える→誤ることを逆手にとる
- &bold(){見せ方}
人間にできないこと
グラフィックを使う
実時間のシステムが一番いい、interactiveに!!
*資料
とりあえず、音声認識関連の本を2冊ほど購入したので見たい人は
計数ロッカー室のMayfesのロッカーに入れておきますのでどうぞ。
割と軽めです。
ない時は誰かが読んでるということで。
物工の人は誰か計数の人に頼んでロッカー室開けてもらってください。
物工の人にはご迷惑おかけします。
&bold(){『音響学ABC』(技術堂出版)
『フリーソフトで作る音声認識システム』(森北出版株式会社)}
*<現在上がっている案>
-去年の展示物の改良(音を信号処理して様々な特徴量を出してシューティングゲームにしたもの)
とりあえず今はピッチ検出をしてみてます。
いろいろ信号処理のことのってます。
http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/index.php?%E3%83%A1%E3%83%AB%E5%91%A8%E6%B3%A2%E6%95%B0%E3%82%B1%E3%83%97%E3%82%B9%E3%83%88%E3%83%A9%E3%83%A0%EF%BC%88MFCC%EF%BC%89#d33d7f39
-声道を複数の円筒管をつなげたものによって伝達関数だけ同じにしてみる。
要はモノマネができる原理です。インコとかも同じ。
すっごいいい資料
http://www.sp4win.com/support/Tayori/kiji/83b.htm
日本の母音での資料
http://www.sp4win.com/support/Document/teaching.pdf
-ワイングラスを共振で割ってみる。
安全性から許可下りないかも。
共振で発電をしてみるのも手かと。
液体窒素とかで凍らせたらいろいろ割れんじゃねとも思う。林檎とか。
資料:http://www.info-niigata.or.jp/~ymiyata/nami/c43glass.htm
-音声認識でいろいろ→迷路を音声認識で指示を出して解く
それなりに限られた文、単語なら高認識率なのでARと合わせて何か出来るかも。
→迷路を作りそれを主観視点で表示。曲がり角に来たら音声認識で方向を入力してもらう。
これで迷路を解いてもらう。
-ペイントなどの絵を描くツールと音を組み合わせる。
いろいろコントロールしやすい特徴量で絵を書かせるなど
-録音された各楽器のパートを組み合わせて音楽を作ってみる
録音された各楽器のパートを特徴量からラべリングしてそれらの組み合わせを出してみる。おもにクラスタリング、相関度検出などになると思います。
-「あ行」から「か~わ行」まで作る。
→難しいかもしれないのでtwitterと組み合わせてリアルつぶやきはどうだろうか?
母音から子音+母音を作るということです。
サンプルが母音だけで、トークロイドが作れることを目標に。
(追記: 2009/12/01)
-speaking piano
midiをつかってコンピュータ上でいろいろな楽器で求める。
信号をメルスケールにそうように処理して、位相と振幅に分離。それを合成。
→意外ときつい。
NMFDとかいじらないといけないので劣化雑音と織り交ぜて元音声を聞いた後に聞くと聞こえますね、にしようかと。
-hobnoxのaudio toolを使って何かできないか(追記:2010/01/10)
http://www.hobnox.com/index.en.html
とりあえずは以上があがってますが、ボーカルトランスフォーム、楽音関係なども考えてます。実現可能性は無視でいいのでアイディアがあったら書き込んでくださってOKです。
以上 中村友彦でした。
*portaudioの使い方(リアルタイム処理のライブラリです)
http://www.tzik.mydns.jp/ap2007/wiki/index.php?PortAudio%E3%81%AB%E9%96%A2%E3%81%97%E3%81%A6
(追記: 2009/11/16)
声道モデルの資料の一つです。
とりあえず今あげられる資料でいいものがないのですが言葉だけでは分かりにくいという方のために。
ただし、今のところ下のpdfの様に声道モデル以外も作るということはしませんし、声道を時間的に動かしたりはする予定はありません。
http://www.interaction-ipsj.org/archives/paper2002/pdf2002/27sawada.pdf
(追記: 2009/11/17)
音声認識のソフト: &italic(){Julius,Julian} を使う予定です。下リンク先
http://julius.sourceforge.jp/
(追記: 2009/11/26)
誰かが掲示板に載せてくれたのが面白いので、これも自動化してmidiでやってみようかなとか思いだす今日この頃。
http://gigazine.net/index.php?/news/comments/20091010_speaking_piano
*<参考書>
基本的には線形理論(LPC,PARCOR,LSP?)、統計学的手法(HMM,AR過程)をつかって行こうと思うのでよさげなのを書いておきます。(?は使うかどうか不明なとこです。)
&bold(){『音声信号処理』(今村 聖、森川出版)}
&bold(){『音声の線形予測』( J.D.マーケル, A.H.グレイ,Jr.著 ; 鈴木久喜訳)}
&bold(){『ディジタル信号処理工学』(眞溪 、 昭晃堂)}
信号処理論第一の教科書(2009年度)
表示オプション
横に並べて表示:
変化行の前後のみ表示: