入門者の Tesseractの編集履歴ソース - ＊99 [ e のない e 本]

入門者の Tesseract - (2019/08/14 (水) 21:50:45) のソース

**Tesseract とは
----
Tesseract（テッセラクト）は [[光学文字認識（OCR）>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様なＯＳ上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。 

1985年、[[ヒューレット・パッカード>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]]のラボで開発。作者は [[Ray Smith（レイ・スミス）>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語（簡体字および繁体字）、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。

Linux、Windows および Mac OS X で利用可能（追記：Android 上で動くことを確認）。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。

公式ウェブサイト（[[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ） 
https://github.com/tesseract-ocr/tesseract

Tesseract wiki
https://github.com/tesseract-ocr/tesseract/wiki


- [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]]
- [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]]　（英語版）

Unicode（UTF-8）をサポート。プレーンテキスト、hOCR（HTML）、PDF、不可視テキストのみのPDF、TSVなど出力形式に対応。

（メモ：YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある）



***OCR とは
----
Optical character recognition の略。活字の文書の画像（通常、イメージスキャナーで取り込まれる）を文字コードの列に変換するソフトウェア。

- [[OCR (光学文字認識) - Wikipedia>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]

OCR と対になるのが [[手書き文字認識>https://ja.wikipedia.org/wiki/%E6%89%8B%E6%9B%B8%E3%81%8D%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]。古くて身近なところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm などが初期の成果。

Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。

> ## 手書き文字認識にTesseractを使用できますか?
> Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。

***LSTM とは
Long short-term memory、略称: LSTM。深層学習（ディープラーニング）の分野において用いられる人工回帰型ニューラルネットワーク（RNN）アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。

一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。

- [[LSTM (長・短期記憶) - Wikipedia>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]]

***Google 翻訳とは
2016年、翻訳アルゴリズムが [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け（Android と iOS を対象）の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。

（感想：期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用）

- [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]]


2019-06-08：公開
2019-08-14：更新
しだひろし／PoorBook G3'99 

カウンタ：&counter()

- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。  -- しだ  (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み（include、最大70個まで）。  -- しだ  (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。  -- しだ  (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。  -- しだ  (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。  -- しだ  (2019-06-12 20:32:39)
-  [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。  -- しだ  (2019-06-12 20:51:33)
#comment
＊99 [ e のない e 本]

入門者の Tesseract

入門者の Tesseract - (2019/08/14 (水) 21:50:45) のソース

おしながき

本棚

アーカイブ

リンク

更新履歴

リンク