frame_decoration

「入門者の Tesseract」の編集履歴(バックアップ)一覧はこちら

入門者の Tesseract - (2019/07/25 (木) 21:47:50) の1つ前との変更点

追加された行は緑色になります。

削除された行は赤色になります。

**Tesseract とは Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様なOS上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。 1985年、[[Hewlett Packard>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]](ヒューレット・パッカード)のラボで開発。作者は [[Ray Smith>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後グーグルによって支援。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。 Linux、Windows および Mac OS X で利用可能(追記:Android 上で動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。 公式コードの [[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ https://github.com/tesseract-ocr/tesseract - [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]] - [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版) (メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もあり) **Tesseract wiki とは - [[https://github.com/tesseract-ocr/tesseract/wiki]] ***OCR とは ***LSTM とは ***Google 翻訳とは - [[https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]] 2019-06-08:公開 2019-07-25:更新 しだひろし/PoorBook G3'99 カウンタ:&counter() - フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44) - markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20) - 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19) - ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19) - ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39) - [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33) #comment
**Tesseract とは Tesseract(テッセラクト)は [[光学文字認識(OCR)>https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98]] のエンジン。名称の Tesseract とは [[四次元超立方体>https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%85%AB%E8%83%9E%E4%BD%93]] の意。多様なOS上で動作する [[オープンソース>https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9]] ソフトウェアであり、[[Apache License>https://ja.wikipedia.org/wiki/Apache_License]] 2.0 の下で配布。バージョン4.0 からは、従来の認識エンジンに加え [[LSTM>https://ja.wikipedia.org/wiki/%E9%95%B7%E3%83%BB%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6]] ベースの [[ニューラルネットワーク>https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]] によるエンジンが搭載されている。 1985年、[[Hewlett Packard>https://ja.wikipedia.org/wiki/%E3%83%92%E3%83%A5%E3%83%BC%E3%83%AC%E3%83%83%E3%83%88%E3%83%BB%E3%83%91%E3%83%83%E3%82%AB%E3%83%BC%E3%83%89]](ヒューレット・パッカード)のラボで開発。作者は [[Ray Smith>https://ai.google/research/people/author4479]]。2005年にオープンソースとしてリリース。2006年以後グーグルによって支援。バージョン3 では言語サポートが大幅に拡張され、中国語(簡体字および繁体字)、日本語、韓国語などに対応。2018年10月リリースのバージョン4.0 では、合計116の言語をサポート。 Linux、Windows および Mac OS X で利用可能(追記:Android 上で動くことを確認)。実行は [[コマンドラインインターフェース>https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A3%E3%83%A9%E3%82%AF%E3%82%BF%E3%83%A6%E3%83%BC%E3%82%B6%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%95%E3%82%A7%E3%83%BC%E3%82%B9]] からおこなう。オリジナルには GUI は付属しないが、かわりに提供するプロジェクトが数多くある。 公式コードの [[GitHub>https://ja.wikipedia.org/wiki/GitHub]] リポジトリ https://github.com/tesseract-ocr/tesseract - [[Tesseract (ソフトウェア) - Wikipedia>https://ja.wikipedia.org/wiki/Tesseract_(%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2)]] - [[Tesseract (software) - Wikipedia>https://en.wikipedia.org/wiki/Tesseract_(software)]] (英語版) (メモ:YouTube などで検索するばあい、同名のロックバンドが上位にヒットするので、「Tesseract-ocr」のように OCR であることを明記するのがベター。ちなみに、日本語の動画はまだないもよう。ハングルと中国語がちらほらで、ほとんどが英語もの。サンスクリット語の動画もあり) **Tesseract wiki とは - [[https://github.com/tesseract-ocr/tesseract/wiki]] ***OCR とは ***LSTM とは ***Google 翻訳とは - [[Google 翻訳 - Wikipedia>https://ja.wikipedia.org/wiki/Google_%E7%BF%BB%E8%A8%B3]] 2019-06-08:公開 2019-07-25:更新 しだひろし/PoorBook G3'99 カウンタ:&counter() - フリーの OCR ソフト「Tesseract」の公式 wiki サイトを Google 翻訳して、markdown 形式で対照してみました。 -- しだ (2019-06-08 21:45:44) - markdown モードのままではカウンタやコメント機能をいかせないので、アットウィキモードのページへ取り込み(include、最大70個まで)。 -- しだ (2019-06-09 23:09:20) - 取り込み元のページを閲覧不可にすると、取り込み先のページでもその部分は非表示になるもよう。当然といえば当然か。。。 -- しだ (2019-06-10 19:58:19) - ものは試しに、markdown モードでカウンタとコメントの wiki 用 &s(){タグ} プラグインをつけてみたが、やはり不可。 -- しだ (2019-06-10 20:05:19) - ページ名頭のブラケットタグ [翻訳] を [対訳] に変更しました。今後、翻訳の修正をほどこしたうえで、別ページをアップする予定。 -- しだ (2019-06-12 20:32:39) - [対訳] は Google 翻訳の出力結果を基本そのままで。現時点でおかしな翻訳のクセがあるので、それをさらすのがねらい。 -- しだ (2019-06-12 20:51:33) #comment

表示オプション

横に並べて表示:
変化行の前後のみ表示: