frame_decoration
original (2019/05/14 付) Google 翻訳 (2019/05/23 付)
# How to run UNLV tests on Tesseract #TesseractでUNLVテストを実行する方法
# Introduction # 前書き
Tesseract 2.0+ provided scripts that make it possible to run some of the UNLV tests published in the Fourth Annual Test of OCR Accuracy. Tesseract 2.0以降では、第4回OCR精度テストで発行されたUNLVテストのいくつかを実行することを可能にするスクリプトを提供しました。
See AT-1995.pdf (originally available at http://www.isri.unlv.edu/). The main purpose of providing these test scripts is to enable Tesseract users to verify that their installation is correct, and that no architecture-specific problems are causing bad recognition accuracy. It also serves as a benchmark to demonstrate accuracy improvements of each version. Developers working on Tesseract may find the benchmarking tools useful for measuring experimental new modules. AT-1995.pdfを参照してください(当初はhttp://www.isri.unlv.edu/から入手可能) 。これらのテストスクリプトを提供する主な目的は、Tesseractユーザーがインストールが正しいこと、およびアーキテクチャー固有の問題によって認識精度が悪くなっていないことを確認できるようにすることです。また、各バージョンの精度向上を実証するためのベンチマークとしても役立ちます。 Tesseractに取り組んでいる開発者は、実験的な新しいモジュールを測定するのに役立つベンチマークツールを見つけるかもしれません。
Note that some architecture-specific variation is bound to occur. Most of these should be caused by varying treatment and optimization of floating-point arithmetic between compilers. It is also possible of course that there are memory initialization errors that show up as differences between architectures, but we claim to have found most of these already in the unicodeization process. いくらかのアーキテクチャ特有の変化が起こることになっていることに注意してください。これらのほとんどは、コンパイラ間で浮動小数点演算の扱いや最適化が異なることによって引き起こされるはずです。アーキテクチャ間の違いとして現れるメモリ初期化エラーがあることももちろん可能ですが、私たちはこれらのほとんどがすでにunicodeizationプロセスで見つかったと主張します。
# Caveat # 警告
The UNLV images are G4 compressed, so you must build Tesseract with TIFF support, but all recent versions include libtiff by default. UNLVイメージはG4圧縮されているので、TIFFサポート付きでTesseractをビルドする必要がありますが、最近のすべてのバージョンではデフォルトでlibtiffが含まれています。
Windows users also have to have some unix shell script capability, perhaps via cygwin or equivalent. Windowsユーザーは、おそらくcygwinまたはそれと同等のものを介して、何らかのUnixシェルスクリプト機能を持つ必要があります。
# Images #画像
The current scripts only cover tests of the 3B test sets (ie 300 dpi bitonal). The adaptive thresholding in the open-source Tesseract is not the same as in the original as the original adaptive thresholding was not included in the open source release, so the 8 bit grey image tests would not compare correctly, and the other resolutions, while interesting, do not really serve a useful regression testing purpose. 現在のスクリプトは、3Bテストセットのテスト(つまり300 dpi 2階調)のみをカバーしています。オープンソースのTesseractの適応しきい値処理は、オリジナルのものと同じではありません。オリジナルの適応しきい値処理はオープンソースリリースに含まれていなかったため、8ビットグレー画像テストでは正しく比較できません。 、有用な回帰テストの目的には実際には役立たないでください。
# Running the tests #テストを実行する
See README file for UNLV tests for the current instructions on how to run the tests for Tesseract 4. Tesseract 4のテストの実行方法に関する現在の手順については、UNLVテスト用のREADMEファイルを参照してください。
# Example Results #結果の例
Here are some of the results of the 1995 test, taken from AT-1995.pdf and reformatted to match the output of the Tesseract test tools: AT-1995.pdfから抜粋した、1995年のテストの結果の一部を以下に示します。 Tesseractテストツールの出力:
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change エラーAcc変更エラーAcc変更エラーAcc変更
1995 bus.3B 5959 98.14% 0.00% 1631 96.83% 0.00% 1293 95.73% 0.00% 1995 bus.3B 5959 98.14%0.00%1631 96.83%0.00%1293 95.73%0.00%
1995 doe3.3B 36349 97.52% 0.00% 7826 96.34% 0.00% 7042 94.87% 0.00% 1995 doe3.3B 36349 97.52%0.00%7826 96.34%0.00%7042 94.87%0.00%
1995 mag.3B 15043 97.74% 0.00% 4566 96.01% 0.00% 3379 94.99% 0.00% 1995 mag.3B 15043 97.74%0.00%4566 96.01%0.00%3379 94.99%0.00%
1995 news.3B 6432 98.69% 0.00% 1946 97.68% 0.00% 1502 96.94% 0.00% 1995 news.3B 6432 98.69%0.00%1946 97.68%0.00%1502 96.94%0.00%
` | `
(The change column is for the recent tests, and measures the change over these 1995 results.) (変更の欄は最近のテスト用で、1995年の結果に対する変更を測定しています。)
The results of Tesseract 2.00 compiled with gcc 4.0.3-1ubuntu5 are: Tesseract 2.00をgcc 4.0.3-1ubuntu 5でコンパイルした結果は次のとおりです。
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change エラーAcc変更エラーAcc変更エラーAcc変更
gcc4.0 bus.3B 6259 98.04% 5.03% 1691 96.71% 3.68% 1313 95.66 1.55% gcc4.0 bus.3B 6259 98.04%5.03%1691 96.71%3.68%1313 95.66 1.55%
gcc4.0 doe3.3B 28850 98.03% -20.63% 7863 96.32% 0.47% 6688 95.13 -5.03% gcc4.0 doe3.3B 28850 98.03%-20.63%7863 96.32%0.47%6688 95.13 -5.03%
gcc4.0 mag.3B 14815 97.78% -1.52% 4396 96.16% -3.72% 3124 95.37 -7.55% gcc4.0 mag.3B 14815 97.78%-1.52%4396 96.16%-3.72%3124 95.37 -7.55%
gcc4.0 news.3B 7533 98.47% 17.12% 1758 97.91% -9.66% 1220 97.51 -18.77% gcc4.0 news.3B 7533 98.47%17.12%1758 97.91%-9.66%1220 97.51 -18.77%
gcc4.0 Total 57457 - -9.92% 15708 - -1.63% 12345 - -6.59% gcc4.0合計57457 - -9.92%15708 - -1.63%12345 - -6.59%
` | `
The change column shows wild variation in accuracy over the 1995 results, with a 20% reduction in character errors on the doe3.3B test set, but a 17% increase in character errors on the news.3B test set. Since the engine has been completely retrained since the 1995 tests, and it is now running on a different processor with a different compiler, it is difficult to pin down the cause of this wild variation. (It may also be partly due to the absence of the Aspirin package.) 変更の欄には、doe3.3Bテストセットでは文字エラーが20%減少しましたが、news.3Bテストセットでは文字エラーが17%増加していましたが、1995年の結果と比べて精度が大きく変動しています。エンジンは1995年のテスト以来完全に再訓練されており、現在は異なるコンパイラで異なるプロセッサ上で実行されているため、このような大規模な変動の原因を突き止めるのは困難です。 (これは、Aspirinパッケージがないことも一因と考えられます。)
To illustrate what a difference the compiler makes, here are the results from the same code compiled with gcc 4.1.1: コンパイラがどのような違いをもたらすのかを説明するために、gcc 4.1.1でコンパイルした同じコードの結果を次に示します。
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
gcc4.1 bus.3B 6258 98.04% 5.02% 1690 96.72% 3.62% 1312 95.67 1.47% gcc4.1 bus.3B 6258 98.04%5.02%1690 96.72%3.62%1312 95.67 1.47%
gcc4.1 doe3.3B 28589 98.05% -21.35% 7864 96.32% 0.49% 6692 95.12 -4.97% gcc4.1 doe3.3B 28589 98.05%-21.35%7864 96.32%0.49%6692 95.12 -4.97%
gcc4.1 mag.3B 14800 97.78% -1.62% 4394 96.16% -3.77% 3123 95.37 -7.58% gcc4.1 mag.3B 14800 97.78%-1.62%4394 96.16%-3.77%3123 95.37 -7.58%
gcc4.1 news.3B 7524 98.47% 16.98% 1759 97.91% -9.61% 1220 97.51 -18.77% gcc4.1 news.3B 7524 98.47%16.98%1759 97.91%-9.61%1220 97.51 -18.77%
gcc4.1 Total 57171 - -10.37% 15707 - -1.64% 12347 - -6.58% gcc4.1合計57171 - -10.37%15707 - -1.64%12347 - -6.58%
` | `
The error rates are not that different, but there is a slight difference. In contrast, the same code built with VisualC++ Express gives this: エラー率はそれほど違いはありませんが、わずかな違いがあります。対照的に、VisualC ++ Expressで構築された同じコードはこれを与えます:
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
vc++exp bus.3B 6270 98.04% 5.22% 1695 96.71% 3.92% 1315 95.66 1.70% vc ++ exp bus.3B 6270 98.04%5.22%1695 96.71%3.92%1315 95.66 1.70%
vc++exp doe3.3B 29098 98.01% -19.95% 8246 96.14% 5.37% 7038 94.87 -0.06% vc ++ exp doe3.3B 29098 98.01%-19.95%8246 96.14%5.37%7038 94.87 -0.06%
vc++exp mag.3B 14981 97.75% -0.41% 4435 96.12% -2.87% 3157 95.32 -6.57% vc ++ exp mag.3B 14981 97.75%-0.41%4435 96.12%-2.87%3157 95.32 -6.57%
vc++exp news.3B 7548 98.47% 17.35% 1763 97.90% -9.40% 1224 97.51 -18.51% vc ++ exp news.3B 7548 98.47%17.35%1763 97.90%-9.40%1224 97.51 -18.51%
vc++exp Total 57897 - -9.23% 16139 - 1.06% 12734 - -3.65% vc ++ exp合計57897 - -9.23%16139 - 1.06%12734 - -3.65%
` | `
This shows a fairly large increase in error rate, and this is after eliminating some use of floating point arithmetic from the code. More dramatically different though, is Visual C++6, which measures up with slightly better word accuracy, but worse character accuracy: これはエラー率のかなりの増加を示しています、そしてこれはコードから浮動小数点演算の使用を排除した後です。さらに劇的に異なるのは、Visual C ++ 6です。これは、単語の正確性はやや向上しますが、文字の正確性は低下します。
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
vc6 bus.3B 6298 98.03% 5.69% 1696 96.70% 3.99% 1317 95.65 1.86% vc6 bus.3B 6298 98.03%5.69%1696 96.70%3.99%1317 95.65 1.86%
vc6 doe3.3B 29745 97.97% -18.17% 8105 96.20% 3.57% 6894 94.98 -2.10% vc6 doe3.3B 29745 97.97%-18.17%8105 96.20%3.57%6894 94.98 -2.10%
vc6 mag.3B 15036 97.74% -0.05% 4448 96.11% -2.58% 3165 95.31 -6.33% vc6 mag.3B 15036 97.74%-0.05%4448 96.11%-2.58%3165 95.31 -6.33%
vc6 news.3B 7531 98.47% 17.09% 1745 97.92% -10.33% 1210 97.53 -19.44% vc6 news.3B 7531 98.47%17.09%1745 97.92%-10.33%1210 97.53 -19.44%
vc6 Total 58610 - -8.11% 15994 - 0.16% 12586 - -4.77% vc6合計58610 - -8.11%15994 - 0.16%12586 - -4.77%
` | `
Future work may be directed at making these discrepancies smaller, if not eliminating them completely, on the grounds that where there is variation, there is room for improvement... バリエーションがあるところには改善の余地があるという理由で、これらの矛盾を完全に排除しないのであれば、今後の作業はこれらの矛盾をより小さくすることに向けられるかもしれません。
### Results for more recent versions of Tesseract by Tom Morris ###最新版のTesseractの結果[by Tom Morris](https://groups.google.com/forum/#!searchin/tesseract-dev/bus.3B%7Csort:date/tesseract-dev/LErriuT- sck / B5PR0QaCGwAJ)
All compiled with Apple C compiler Apple LLVM version 7.0.2 (clang-700.1.81) with target x86_64-apple-darwin14.3.0. すべてApple CコンパイラApple LLVMバージョン7.0.2(clang-700.1.81)でターゲットx86_64-apple-darwin 14.3.0でコンパイルされています。
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
3.04.01 bus.3B 8816 97.24% 47.94% 2221 95.68% 36.17% 1629 94.62 25.99% 3.04.01バス3 B 8816 97.24%47.94%2221 95.68%36.17%1629 94.62 25.99%
3.04.01 doe3.3B 48306 96.70% 32.89% 9903 95.36% 26.54% 9020 93.43 28.09% 3.04.01 doe3.3B 48306 96.70%32.89%9903 95.36%26.54%9020 93.43 28.09%
3.04.01 mag.3B 30860 95.37% 105.15% 7034 93.85% 54.05% 5228 92.25 54.72% 3.04.01 mag.3B 30860 95.37%105.15%7034 93.85%54.05%5228 92.25 54.72%
3.04.01 news.3B 19073 96.12% 196.53% 3432 95.92% 76.36% 2685 94.53 78.76% 3.04.01 news.3B 19073 96.12%196.53%3432 95.92%76.36%2685 94.53 78.76%
3.04.01 Total 107055 - 67.84% 22590 - 41.46% 18562 - 40.45% 3.04.01合計107055 - 67.84%22590 - 41.46%18562 - 40.45%
` | `
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
3.03rc1 bus.3B
3.03rc1 doe3.3B
3.03rc1 mag.3B
3.03rc1 news.3B
3.03rc1 Total
` | `
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
3.02.02 bus.3B
3.02.02 doe3.3B
3.02.02 mag.3B
3.02.02 news.3B
3.02.02 Total
` | `
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
3.01 bus.3B
3.01 doe3.3B
3.01 mag.3B
3.01 news.3B
3.01 Total
` | `
` | `
Testid Testset Character Word Non-stopword Testidテストセット文字ワードノンストップワード
Errors Acc Change Errors Acc Change Errors Acc Change                 エラーAcc変更エラーAcc変更エラーAcc変更
2.04 bus.3B
2.04 doe3.3B
2.04 mag.3B
2.04 news.3B
2.04 Total
` | `
# How to use OCR Evaluation Tools by Nick White #Nick WhiteによるOCR評価ツールの使い方
## Introduction ## 前書き
Nick White had forked a repository of the ISRI OCR evaluation tools to make them work easily with UTF-8, and included some helper scripts. Nick Whiteは、ISRI OCR評価ツールをUTF-8で簡単に機能させるためのレポジトリを作成し、いくつかのヘルパースクリプトを含めました。
` | `
git clone https://ancientgreekocr.org/ocr-evaluation-tools.git gitクローンhttps://ancientgreekocr.org/ocr-evaluation-tools.git
Tools to test OCR accuracy. OCRの精度をテストするためのツール
` | `
Of particular relevance here is the 'tessaccsummary' script, which when given a directory of images and corresponding ground truth text and a .traineddata file will OCR each page and print the accuracy, and an average summary at the end. ここで特に関連性があるのは、 'tessaccsummary'スクリプトです。これは、画像のディレクトリとそれに対応するグランドトゥルーステキスト、および.traineddataファイルが各ページをOCRして正確さと最後の平均要約を出力します。
最終更新:2019年08月23日 20:30