Tesseract とは
1985年、
ヒューレット・パッカードのラボで開発。主な作者は
レイ・スミス(Ray Smith)。2005年にオープンソースとしてリリース。2006年以後 Google によって開発支援されている。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。
Linux、Windows および Mac OS X で利用可能(追記:Android 上でも動くことを確認)。実行は
コマンドラインインターフェース からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。
Unicode(
UTF-8)をサポート。プレーンテキスト、hOCR(HTML)、PDF、不可視テキストのみのPDF、TSV(タブ区切りテキスト)などの出力形式に対応。中国語、日本語、韓国語で縦組みテキストを読み取りできる。
(メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もある)
OCR とは
Tesseract は OCR だから手書き文字認識は関係ない、、、と思いきや、wiki の FAQ_old を読み進めると、「できないことはない」という一文を見つける。
## 手書き文字認識にTesseractを使用できますか?
Tesseractは印刷されたテキスト用に設計されているので、できますが、あまりうまくいきません。代わりに[Lipi Toolkit](http://lipitk.sourceforge.net/)プロジェクトを見てください。
LSTM とは
一般的な LSTM ユニットは、セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」はセルを出入りする情報の流れを制御する。
Google 翻訳とは
2016年、翻訳アルゴリズムが
ニューラルネットワーク を使用したものに変更され、翻訳の精度が向上した。従来のアルゴリズムとは異なり、文を部位ごとではなく全体として扱うため、より正確な訳語の候補を表す。モバイル向け(Android と iOS を対象)の機能にオフライン翻訳がある。翻訳に必要なアルゴリズムやデータなどをあらかじめ端末にダウンロードし、データ通信が使えない環境で Google 翻訳を使用できる。
(感想:期待してオフライン版アプリをダウンロード、試用してみたものの、あまりの誤訳の多さに使用停止を即決。以後、オンライン版のみを使用)
対訳 Tesseract wiki
2019-06-08:公開
2019-08-27:更新
しだひろし/PoorBook G3'99
カウンタ: -
- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用
タグ プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39)
- [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33)
- 最新のリリースノートによれば、2019年7月7日 バージョン 4.1.0 が出ています。 -- しだ (2019-08-19 21:17:28)
- 「ALTO標準でフォーマットされた新しい出力オプションが追加されました」「hOCR出力に文字ボックスを追加しました」同リリースノートより。ALTO も hOCR もよくわかりませんが、出力形式のことらしく。「トレーニングを簡素化する新しいレンダリングLSTMBox、WordStrBoxを追加しました」これ、気になるう。 -- しだ (2019-08-20 21:17:41)
- 「4.0x変更ログ」を見ると、今年5月〜6月にかけて TensorFlow 関連の項目があります。TensorFlow は、Google が開発しオープンソースで公開している機械学習のためのライブラリのことだから、ディープラーニング環境の最適化がさらにはかられてるってかんじか。 -- しだ (2019-08-20 21:35:41)
- 「4.0.0との後方互換性のあるリリース」とあるし、Tesseract wiki のリストを見てもページ名がまだ「4.0x」だから、大きな問題はなかろうということで、こちらの翻訳作業も継続の方向で。 -- しだ (2019-08-23 20:52:02)
- ページ名を「入門者の Tesseract」に変更しました。 -- しだ (2019-09-07 21:38:27)
最終更新:2019年09月07日 21:38