frame_decoration
「入門者の Tesseract」の編集履歴(バックアップ)一覧に戻る

入門者の Tesseract - (2019/08/14 (水) 21:50:45) のソース

**Tesseract とは
----
Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様なOS上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。 

1985年、[[ヒューレット・パッカード>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]]のラボで開発。作者は [[Ray Smith(レイ・スミス)>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。

Linux、Windows および Mac OS X で利用可能(追記:Android 上で動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。

公式ウェブサイト([[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ) 
https://github.com/tesseract-ocr/tesseract

Tesseract wiki
https://github.com/tesseract-ocr/tesseract/wiki


- [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]]
- [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版)

Unicode(UTF-8)をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSVなど出力形式に対応。

(メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある)



***OCR とは
----
Optical character recognition の略。活字の文書の画像(通常、イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェア。

- [[OCR (光学文字認識) - Wikipedia>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]

OCR と対になるのが [[手書き文字認識>https://ja.wikipedia.org/wiki/%E6%89%8B%E6%9B%B8%E3%81%8D%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]。古くて身近なところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm などが初期の成果。

Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。

> ## 手書き文字認識にTesseractを使用できますか?
> Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。

***LSTM とは
Long short-term memory、略称: LSTM。深層学習(ディープラーニング)の分野において用いられる人工回帰型ニューラルネットワーク(RNN)アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。

一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。

- [[LSTM (長・短期記憶) - Wikipedia>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]]

***Google 翻訳とは
2016年、翻訳アルゴリズムが [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。

(感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用)

- [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]]


2019-06-08:公開
2019-08-14:更新
しだひろし/PoorBook G3'99 

カウンタ:&counter()

- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。  -- しだ  (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。  -- しだ  (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。  -- しだ  (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。  -- しだ  (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。  -- しだ  (2019-06-12 20:32:39)
-  [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。  -- しだ  (2019-06-12 20:51:33)
#comment