オーディオ,ビジュアル・スピーチ認識


TECHNOLOGY
2003年4月30日 1:00pm JT

インテル、「読唇」ソフトを配布
三好 豊/Infostand
i-mode Print
 

 米インテル社は4月28日(米国時間)、アプリケーションに「読唇」機能を組み込むためのソフトウェア・ライブラリー『AVSR』(オーディオ/ビジュアル・スピーチ認識)をリリースした。音声認識機能を補完して、雑音の多い環境の下でも正確な入力ができるようにするためのソフトで、オープンソースで提供する。同社は、玩具から製造業まで、さまざまなアプリケーションが開発されることを期待している。

インテル社は、コンピューターに人間の目のような機能を持たせるためのソフト群を『オープンCV(コンピューター・ビジョン)』として開発者向けに提供しており、このソフトウエア・ライブラリーはその一環。北京にある同社の研究所が開発した。

音声認識技術は、キーボードやマウスに代わる入力方式として注目されているが、なお誤認識することも多い。とくに雑音が多い環境下では認識精度が著しく低 下するという問題がある。AVSRは、画像認識と音声認識を合わせることで、全体の精度を上げることを目指すもので、顔と口の動きを追うことで音声認識を 補完する。プロセッサーの高速化、カメラの低価格化などでこうした方式が実用的になったとしている。

http://hotwired.goo.ne.jp/news/technology/story/20030506306.html

------------------------------------------------------
http://slashdot.jp/developers/article.pl?sid=03/04/29/075246

Intel、読唇技術のソースコードを公開

Oliverによる 2003年04月29日 16時05分の掲載
対応しやすい言語、しにくい言語部門より.

dseg 曰く、 "本家経由、The Registerの記事より。Intelが映像を元にした読唇技術のソースコードを公開したそうだ。 AVSR(Audio-Visual Speech Recognition)と呼ばれる技術で、関連のソースコードやMPEGファイル、実行ファイルが Sourceforge のプロジェクトページから入手出来る。『2001年宇宙の旅』では HAL がクルーの密談内容を読唇により察知する場面もあったが、コンピューティングもますますSFの領域に近づくのだろうか。こちらは CNN の関連記事。そういえば /.-Jの過去の記事で「読唇携帯電話」の話題もありましたが、日本語の読唇って難しいのかな…"

------------------------------------------------------

Audio-Visual Speech Recognition

Visual Interactivity: Audio-Visual Speech Recognition

 

by Ara V. Nefian, Lu Hong Liang, Xiao Xing Liu, Xiaobo Pi

http://www.intel.com/technology/computing/applications/avcsr.htm




http://www.jaist.ac.jp/jsai2006/program/paper-26.html

1G2-1 横顔口唇動画像における注目点追跡による読唇手法の提案

横顔口唇動画像における注目点追跡による読唇手法の提案http://www.jaist.ac.jp/jsai2006/program/pdf/100026.pdf


NPOろう学校をいっしょに創ろう!ブログ 
http://blog.canpan.info/tamatama/archive/45
Q2.口話や読唇の訓練は・・・・ [2007年03月28日(水)]

聾学校の言語教育、手話よりも「読唇」優先で…森川佳秀(寄稿)


http://osaka.yomiuri.co.jp/possibility/news/ps61207b.htm

読唇携帯電話

 

唇の動きから、何を話しているかを関知し、会話ができる携帯電話の総称。唇の動きを画像処理で読み取り、読唇する画像音声認識技術や、口を動かす と、ほほからあごにかけての筋肉が動いて発生する電気信号(筋電信号)を読み取り、音の種類を識別するセンサーで、口をぱくぱく動かすだけで会話できる技 術などが開発されている。例えば半谷研究室では、画像処理による音声認識技術を開発している。詳細情報はURL(http://www.hanlab.ee.kagu.sut.ac.jp/study/image/lipread.html)で知ることができる。また、鳥取大学工学部電気電子工学科電子回路研究室では、人の五感の連携を模したシステムの開発として、読唇システムを開発している。詳細情報はURL(http://akebia.jim.tottori-u.ac.jp/seeds/pdf/ele/ELE5.PDF) で知ることができる。日経新聞は2002年3月21日に、NTTドコモがダイヤルボタンの位置に筋肉の電気信号を測るセンサーを組み込んだ読唇携帯電話の 試作機の開発に成功したと報道した。実験では「あいうえお(母音)」の5通りの音をほぼ100%の精度で識別できた。子音の読み取りも技術的に可能である ことから、将来は人込みや騒音の中でも、声を出さずに会話ができるようになる。また、この技術を活用することで、難聴者が筋肉の動きを訓練することで、マ イクを使ったり、テロップで会話が可能になる。詳細情報はURL(http://www.nikkei.co.jp/news/main/020322htop.html) で知ることができる。日本ビクターは2002年3月28日に、経済産業省の新規施策「ITバリアフリープロジェクト」の一環である「障害者・高齢者等向け 情報システム開発事業」に選定されて開発してきた、ラジオなどの話し手の声をデジタル信号処理技術により、クリアーで聞き取りやすい音声に変換し、コミュ ニケーションの円滑化を実現する「聴取補助システム」を開発したことを発表した。詳細情報はURL(http://www.jvc-victor.co.jp/products/others/cyousyuhojyo.html)で知ることができる。

http://www.jiten.com/dicmi/docs/k20/20082s.htm

火事のとき 耳の聞こえない人は 助かるだろうか?


http://homepage1.nifty.com/moritake/doutoku/roua.htm

最終更新:2007年04月03日 20:38
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。