frame_decoration

Tesseract とは


Tesseract(テッセラクト)は 光学文字認識(OCR) のエンジン。名称の Tesseract とは 四次元超立方体 の意。多様な OS 上で動作する オープンソース ソフトウェアであり、Apache License 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え LSTM ベースの ニューラルネットワーク によるエンジンが搭載されている。

1985年、ヒューレット・パッカードのラボで開発。主な作者は レイ・スミス(Ray Smith)。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。

Linux、Windows および Mac OS X で利用可能(追記:Android 上でも動くことを確認)。実行は コマンドラインインターフェース からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。

公式ウェブサイト(GitHub リポジトリ)
https://github.com/tesseract-ocr/tesseract




Unicode(UTF-8)をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSV(タブ区切りテキスト)などの出力形式に対応。中国語、日本語、韓国語で縦組みテキストを読み取りできる。

(メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある)



OCR とは


Optical character recognition(光学文字認識) の略。活字の文書の画像(通常、イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェア。OCR と対になるのが 手書き文字認識。古いところでは郵便番号の自動読み取り装置の例がある。ほかに、アップルの Newton や PDA の Palm など。

Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。

## 手書き文字認識にTesseractを使用できますか?
Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。

LSTM とは

Long short-term memory(長・短期記憶)の略。深層学習(ディープラーニング)の分野において用いられる人工回帰型ニューラルネットワーク(RNN)アーキテクチャ。静止画像のようなデータだけでなく、音声あるいは動画といった連続的・時系列的なデータを処理できるのが大きな特徴。例えば、つながった手書き文字認識や音声認識といった課題に適用可能。

一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。

Google 翻訳とは

2016年、翻訳アルゴリズムが ニューラルネットワーク を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。

(感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用)



対訳 Tesseract wiki


original (2019/05/14 付) Google 翻訳 (2019/06/04 付)
---------- ------------
[x] Home ホーム
[x] 4.0 Accuracy and Performance 4.0精度と性能
[x] 4.0 Docker Containers 4.0 Dockerコンテナ
[x] 4.0 with LSTM LSTMによる4.0
[x] 4.0x Changelog 4.0x変更履歴
[x] 4.0x Common Errors and Resolutions 4.0xの一般的なエラーと解決策
[x] AddOns アドオン
[x] APIExample APIExample
[x] Command Line Usage コマンドラインの使い方
[x] Compiling コンパイル
[x] Compiling – GitInstallation コンパイル - GitInstallation
[x] ControlParams コントロールパラメータ
[x] Data Files データファイル
[x] Data Files Contributions データファイル貢献
[x] Data Files in different versions 異なるバージョンのデータファイル
[x] Data Files in tessdata_fast tessdata_fastのデータファイル
[x] Documentation ドキュメンテーション
[x] Downloads ダウンロード
[x] FAQ よくある質問
[x] FAQ Old よくある質問
[x] Fix footer フッターを修正
[x] Fonts フォント
[x] ImproveQuality 品質を向上させる
[x] Make Box Files ボックスファイルを作る
[x] Making Box Files 4.0 Box Files 4.0を作る
[x] NeuralNetsInTesseract4.00 NeuralNetsInTesseract4.00
[x] Planning 計画中
[x] ReadMe お読みください
[x] ReleaseNotes リリースノート
[x] Technical Documentation 技術文書
[x] TesseractOpenCL TesseractOpenCL
[x] TestingTesseract TestingTesseract
[x] The Hallucination Effect 幻覚効果
[x] Training Tesseract トレーニングテッセラ
[x] Training Tesseract 3.00–3.02 トレーニングテッセラ3.00〜3.02
[x] Training Tesseract 3.03–3.05 訓練テッセラ3.03–3.05
[x] Training Tesseract – Make Box Files Tesseractのトレーニング - ボックスファイルを作る
[x] Training Tesseract – tesstrain.sh Tesseractのトレーニング - tesstrain.sh
[x] TrainingTesseract トレーニングテッセラ
[x] TrainingTesseract 4.00 トレーニングテスト4.00
[x] TrainingTesseract 4.00 Finetune トレーニングテスト4.00 Finetune
[x] TrainingTesseract2 トレーニングテッセラ2
[x] UNLV Testing of Tesseract TesseractのUNLVテスト
[x] User App Example ユーザーアプリの例
[x] User Projects – 3rdParty ユーザープロジェクト - 3rdParty
[x] VGSLSpecs VGSLスペック
[x] ViewerDebugging ViewerDebugging



2019-06-08:公開
2019-08-27:更新
しだひろし/PoorBook G3'99

カウンタ: -

  • フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44)
  • markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20)
  • 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19)
  • ものは試しに、markdown モードでカウンタとコメントの wiki 用 タグ プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19)
  • ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39)
  • [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33)
  • 最新のリリースノートによれば、2019年7月7日 バージョン 4.1.0 が出ています。 -- しだ (2019-08-19 21:17:28)
  • 「ALTO標準でフォーマットされた新しい出力オプションが追加されました」「hOCR出力に文字ボックスを追加しました」同リリースノートより。ALTO も hOCR もよくわかりませんが、出力形式のことらしく。「トレーニングを簡素化する新しいレンダリングLSTMBox、WordStrBoxを追加しました」これ、気になるう。 -- しだ (2019-08-20 21:17:41)
  • 「4.0x変更ログ」を見ると、今年5月〜6月にかけて TensorFlow 関連の項目があります。TensorFlow は、Google が開発しオープンソースで公開している機械学習のためのライブラリのことだから、ディープラーニング環境の最適化がさらにはかられてるってかんじか。 -- しだ (2019-08-20 21:35:41)
  • 「4.0.0との後方互換性のあるリリース」とあるし、Tesseract wiki のリストを見てもページ名がまだ「4.0x」だから、大きな問題はなかろうということで、こちらの翻訳作業も継続の方向で。 -- しだ (2019-08-23 20:52:02)
  • ページ名を「入門者の Tesseract」に変更しました。 -- しだ (2019-09-07 21:38:27)
名前:
コメント: