frame_decoration
「入門者の Tesseract」の編集履歴(バックアップ)一覧に戻る

入門者の Tesseract - (2019/08/19 (月) 20:59:43) のソース

**Tesseract とは
----
Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様な OS 上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。 

1985年、[[ヒューレット・パッカード>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]]のラボで開発。主な作者は [[レイ・スミス(Ray Smith)>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。

Linux、Windows および Mac OS X で利用可能(追記:Android 上で動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。

公式ウェブサイト([[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ) 
https://github.com/tesseract-ocr/tesseract

Tesseract wiki
https://github.com/tesseract-ocr/tesseract/wiki


- [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]]
- [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版)

Unicode([[UTF-8>https://ja.wikipedia.org/wiki/UTF-8]])をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSV(タブ区切りテキスト)などの出力形式に対応。中国語、日本語、韓国語で縦組みテキストを読み取りできる。

(メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある)



***OCR とは
----
[[Optical character recognition(光学文字認識>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]) の略。活字の文書の画像(通常、イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェア。OCR と対になるのが [[手書き文字認識>https://ja.wikipedia.org/wiki/%E6%89%8B%E6%9B%B8%E3%81%8D%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]]。古いところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm など。

Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。

> ## 手書き文字認識にTesseractを使用できますか?
> Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。

***LSTM とは
[[Long short-term memory(長・短期記憶)>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]]の略。[[深層学習(ディープラーニング)>https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0]]の分野において用いられる[[人工回帰型ニューラルネットワーク(RNN)>https://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%9E%8B%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]]アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。

一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。

***Google 翻訳とは
2016年、翻訳アルゴリズムが [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。

(感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用)

- [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]]


*** 対訳 Tesseract wiki
----
|original (2019/05/14 付) | Google 翻訳 (2019/06/04 付)|
|---------- | ------------|
|[x] Home | [[ホーム>https://www33.atwiki.jp/asterisk99/pages/540.html]]|
|[x] 4.0 Accuracy and Performance | [[4.0精度と性能>https://www33.atwiki.jp/asterisk99/pages/552.html]]|
|[x] 4.0 Docker Containers | [[4.0 Dockerコンテナ>https://www33.atwiki.jp/asterisk99/pages/547.html]]|
|[x] 4.0 with LSTM | [[LSTMによる4.0>https://www33.atwiki.jp/asterisk99/pages/539.html]]|
|[x] 4.0x Changelog | 4.0x変更履歴|
|[x] 4.0x Common Errors and Resolutions | [[4.0xの一般的なエラーと解決策>https://www33.atwiki.jp/asterisk99/pages/548.html]]|
|[x] AddOns | [[アドオン>https://www33.atwiki.jp/asterisk99/pages/544.html]]|
|[x] APIExample | [[APIExample>https://www33.atwiki.jp/asterisk99/pages/570.html]]|
|[x] Command Line Usage | [[コマンドラインの使い方>https://www33.atwiki.jp/asterisk99/pages/565.html]]|
|[x] Compiling | コンパイル|
|[x] Compiling – GitInstallation | [[コンパイル -  GitInstallation>https://www33.atwiki.jp/asterisk99/pages/566.html]]|
|[x] ControlParams | [[コントロールパラメータ>https://www33.atwiki.jp/asterisk99/pages/560.html]]|
|[x] Data Files | データファイル|
|[x] Data Files Contributions | [[データファイル貢献>https://www33.atwiki.jp/asterisk99/pages/549.html]]|
|[x] Data Files in different versions | [[異なるバージョンのデータファイル>https://www33.atwiki.jp/asterisk99/pages/559.html]]|
|[x] Data Files in tessdata_fast | tessdata_fastのデータファイル|
|[x] Documentation | [[ドキュメンテーション>https://www33.atwiki.jp/asterisk99/pages/543.html]]|
|[x] Downloads | [[ダウンロード>https://www33.atwiki.jp/asterisk99/pages/553.html]]|
|[x] FAQ | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/573.html]]|
|[x] FAQ Old | [[よくある質問>https://www33.atwiki.jp/asterisk99/pages/572.html]]|
|[x] Fix footer | フッターを修正|
|[x] Fonts | [[フォント>https://www33.atwiki.jp/asterisk99/pages/561.html]]|
|[x] ImproveQuality | [[品質を向上させる>https://www33.atwiki.jp/asterisk99/pages/574.html]]|
|[x] Make Box Files | [[ボックスファイルを作る>https://www33.atwiki.jp/asterisk99/pages/562.html]]|
|[x] Making Box Files 4.0 | [[Box Files 4.0を作る>https://www33.atwiki.jp/asterisk99/pages/550.html]]|
|[x] NeuralNetsInTesseract4.00 | [[NeuralNetsInTesseract4.00>https://www33.atwiki.jp/asterisk99/pages/546.html]]|
|[x] Planning | [[計画中>https://www33.atwiki.jp/asterisk99/pages/563.html]]|
|[x] ReadMe | [[お読みください>https://www33.atwiki.jp/asterisk99/pages/545.html]]|
|[x] ReleaseNotes | [[リリースノート>https://www33.atwiki.jp/asterisk99/pages/567.html]]|
|[x] Technical Documentation | [[技術文書>https://www33.atwiki.jp/asterisk99/pages/551.html]]|
|[x] TesseractOpenCL | [[TesseractOpenCL>https://www33.atwiki.jp/asterisk99/pages/564.html]]|
|[x] TestingTesseract | [[TestingTesseract>https://www33.atwiki.jp/asterisk99/pages/554.html]]|
|[x] The Hallucination Effect | [[幻覚効果>https://www33.atwiki.jp/asterisk99/pages/555.html]]|
|[x] Training Tesseract | トレーニングテッセラ|
|[x] Training Tesseract 3.00–3.02 | トレーニングテッセラ3.00〜3.02|
|[x] Training Tesseract 3.03–3.05 | 訓練テッセラ3.03–3.05|
|[x] Training Tesseract – Make Box Files | Tesseractのトレーニング - ボックスファイルを作る|
|[x] Training Tesseract – tesstrain.sh | Tesseractのトレーニング -  tesstrain.sh|
|[x] TrainingTesseract | トレーニングテッセラ|
|[x] TrainingTesseract 4.00 | トレーニングテスト4.00|
|[x] TrainingTesseract 4.00 Finetune | [[トレーニングテスト4.00 Finetune>https://www33.atwiki.jp/asterisk99/pages/557.html]]|
|[x] TrainingTesseract2 | トレーニングテッセラ2|
|[x] UNLV Testing of Tesseract | TesseractのUNLVテスト|
|[x] User App Example | [[ユーザーアプリの例>https://www33.atwiki.jp/asterisk99/pages/558.html]]|
|[x] User Projects – 3rdParty | [[ユーザープロジェクト -  3rdParty>https://www33.atwiki.jp/asterisk99/pages/569.html]]|
|[x] VGSLSpecs | [[VGSLスペック>https://www33.atwiki.jp/asterisk99/pages/568.html]]|
|[x] ViewerDebugging | [[ViewerDebugging>https://www33.atwiki.jp/asterisk99/pages/571.html]]|



2019-06-08:公開
2019-08-18:更新
しだひろし/PoorBook G3'99 

カウンタ:&counter()

- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。  -- しだ  (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。  -- しだ  (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。  -- しだ  (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。  -- しだ  (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。  -- しだ  (2019-06-12 20:32:39)
-  [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。  -- しだ  (2019-06-12 20:51:33)
#comment