「入門者の Tesseract」の編集履歴(バックアップ)一覧はこちら
入門者の Tesseract - (2019/07/20 (土) 22:42:12) の1つ前との変更点
追加された行は緑色になります。
削除された行は赤色になります。
**Tesseract とは
Tesseract(テッセラクト)は光学文字認識(OCR)のエンジン。名称のTesseractとは四次元超立方体の意。多様なOS上で動作するオープンソースソフトウェアであり、Apache License 2.0 の下で配布。バージョン4.0からは、LSTMベースのニューラルネットワークによる認識エンジンが搭載追加されている。
1985年、Hewlett Packardのラボで開発。2005年にオープンソースとしてリリース。2006年以来グーグルによって後援。バージョン3では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0では、合計116の言語をサポート。
Linux、Windows および Mac OS X で利用可能。
追記:Android 上で動くことを確認。(しだ)
Tesseractはコマンドラインインターフェースから実行。オリジナルにはGUIは付属しないが、GUIを提供するプロジェクトが数多くある。
- [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]]
- [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版)
**Tesseract wiki とは
- [[https://github.com/tesseract-ocr/tesseract/wiki]]
***OCR とは
***LSTM とは
***Google 翻訳とは
2019-06-08:公開
2019-07-19:更新
しだひろし/PoorBook G3'99
カウンタ:&counter()
- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39)
- [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33)
#comment
**Tesseract とは
Tesseract(テッセラクト)は光学文字認識(OCR)のエンジン。名称の Tesseract とは四次元超立方体の意。多様なOS上で動作するオープンソースソフトウェアであり、Apache License 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え、LSTM ベースのニューラルネットワークによるエンジンが搭載されている。
1985年、Hewlett Packard のラボで開発。作者は Ray Smith。2005年にオープンソースとしてリリース。2006年以来グーグルによって後援。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0(最新安定版)では、合計116の言語をサポート。
Linux、Windows および Mac OS X で利用可能。
追記:Android 上で動くことを確認。(しだ)
Tesseract はコマンドラインインターフェースから実行。オリジナルには GUI は付属しないが、GUI を提供するプロジェクトが数多くある。
公式コードの github リポジトリ
https://github.com/tesseract-ocr/tesseract
- [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]]
- [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版)
**Tesseract wiki とは
- [[https://github.com/tesseract-ocr/tesseract/wiki]]
***OCR とは
***LSTM とは
***Google 翻訳とは
2019-06-08:公開
2019-07-20:更新
しだひろし/PoorBook G3'99
カウンタ:&counter()
- フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44)
- markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20)
- 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19)
- ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19)
- ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39)
- [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33)
#comment