「[対訳] コマンドラインの使い方」の編集履歴(バックアップ)一覧はこちら
「[対訳] コマンドラインの使い方」(2019/06/18 (火) 20:20:53) の最新版変更点
追加された行は緑色になります。
削除された行は赤色になります。
original (2019/05/14 付) | Google 翻訳 (2019/05/19 付)
---------- | ------------
## [Tesseract 'main' page](https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc) | ## [Tesseractの 'メイン'ページ](https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc)
|
See the [main](https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc) page for command line syntax and other details. | コマンドラインの構文およびその他の詳細については、[main](https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc)ページを参照してください。
|
-------------------------------------------- | --------------------------------------------
|
## Basic Command Line Usage | ##基本的なコマンドラインの使い方
|
See [Running Tesseract](https://github.com/tesseract-ocr/tesseract/wiki#running-tesseract) for basic command line usage. | 基本的なコマンドラインの使い方については[Running Tesseract](https://github.com/tesseract-ocr/tesseract/wiki#running-tesseract)をご覧ください。
|
## FAQ | ## よくある質問
|
See [FAQ](https://github.com/tesseract-ocr/tesseract/wiki/FAQ#running-tesseract) for more examples and tips. | その他の例やヒントについては[FAQ](https://github.com/tesseract-ocr/tesseract/wiki/FAQ#running-tesseract)を参照してください。
|
-------------------------------------------- | --------------------------------------------
|
## Available OCR Engines in Tesseract 4 | ## Tesseract 4で利用可能なOCRエンジン
|
Use `--oem 1` for LSTM, `--oem 0` for Legacy Tesseract. Please note that Legacy Tesseract models are only included in traineddata files from [tessdata](https://github.com/tesseract-ocr/tessdata) repo. | LSTMには `--oem 1`を、Legacy Tesseractには` --oem 0`を使用してください。 Legacy Tesseractモデルは[tessdata](https://github.com/tesseract-ocr/tessdata)リポジトリの訓練済みデータファイルにのみ含まれています。
|
`tesseract input.tiff output --oem 1 -l eng` | `tesseract input.tiff output --oem 1 -l eng`
|
--------------------------------------------- | ---------------------------------------------
|
## Simplest Invocation to OCR an image | ##画像をOCRするための最も簡単な呼び出し
|
tesseract imagename outputbase | tesseract imagename outputbase
|
This uses **English** as the default language and 3 as the Page Segmentation Mode. The default output format is **text**. | これは**English**をデフォルトの言語として、3をPage Segmentation Modeとして使います。デフォルトの出力フォーマットは**text**です。
|
osd.traineddata, for Orientation and Segmentation and eng.traineddata and other language data files for English should be in the "tessdata" directory. TESSDATA_PREFIX environment variable should be set to the parent directory of "tessdata" directory. | Orientation and Segmentation用のosd.traineddataおよび英語用のeng.traineddataおよびその他の言語データファイルは、 "tessdata"ディレクトリになければなりません。 TESSDATA_PREFIX環境変数は、 "tessdata"ディレクトリの親ディレクトリに設定する必要があります。
|
The following command would give the same result as above, if eng.traineddata and osd.traineddata files are in /usr/share/tessdata directory. | 次のコマンドは、eng.traineddataファイルとosd.traineddataファイルが/ usr / share / tessdataディレクトリにある場合、上記と同じ結果になります。
|
tesseract --tessdata-dir /usr/share imagename outputbase -l eng --psm 3 | tesseract --tessdata-dir / usr / shareイメージ名outputbase -l eng --psm 3
____________________________________ | ____________________________________
|
Following examples use this image which has text in multiple languages. | 次の例では、複数の言語のテキストを含むこの画像を使用しています。
|
![eurotext.png](http://dev.blog.fairway.ne.jp/wp-content/uploads/2014/04/eurotext.png) | ![eurotext.png](http://dev.blog.fairway.ne.jp/wp-content/uploads/2014/04/eurotext.png)
## Using One Language | ##一つの言語を使う
|
Add '-l LANG' to the command where LANG is three character language code from the list of supported languages. If this is not given then English language is assumed by default. | サポートされている言語のリストから、LANGが3文字の言語コードであるコマンドに「-l LANG」を追加します。これが与えられていない場合、英語がデフォルトで想定されます。
|
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng | tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng
|
Output | 出力
|
The (quick) [brown] {fox} jumps! | (素早い)[茶] {キツネ}は飛びます!
Over the $43,456.78 <lazy> #90 dog | 43,456.78ドル以上<lazy>#90犬
& duck/goose, as 12.5% of E-mail | &ダック/ガチョウ、電子メールの12.5%
from aspammer@website.com is spam. | aspammer@website.comからのスパムです。
Der ,,schnelle” braune Fuchs springt | Der ,, schnelle” braune Fuchs springt
fiber den faulen Hund. Le renard brun | フンの巣窟。ルルナールブラン
«rapide» saute par-dessus le chien | ≪ラピド≫ラ・パル=デス=ル=ソン
paresseux. La volpe marrone rapida | パレス。ラ・ボルペ・マローン・ラピタ
salta sopra i] cane pigro. El zorro | サルタ・ソプラ・ケーン・ピグロ。エルゾロ
marrén répido salta sobre el perro | MarénrépidoSalta sobre el perro
perezoso. A raposa marrom répida | ペレゾソ。ラポサ・マロム・レピダ
salta sobre 0 C50 preguieoso. | サルタソーブル0 C50 preguieoso。
|
## Using Multiple Languages | ##多言語を使う
|
Add '-l LANG[+LANG]' to the command line to use multiple languages together for recognition | 認識に複数の言語を一緒に使用するには、コマンドラインに '-l LANG [+ LANG]'を追加します。
|
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-engdeu -l eng+deu | tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-engdeu -l eng + deu
|
Output | 出力
|
The (quick) [brown] {fox} jumps! | (素早い)[茶] {キツネ}は飛びます!
Over the $43,456.78 <lazy> #90 dog | 43,456.78ドル以上<lazy>#90犬
& duck/goose, as 12.5% of E-mail | &ダック/ガチョウ、電子メールの12.5%
from aspammer@website.com is spam. | aspammer@website.comからのスパムです。
Der „schnelle” braune Fuchs springt | Der schnelleブラウヌFuchs springt
über den faulen Hund. Le renard brun | フーデンルルナールブラン
«rapide» saute par-dessus le chien | ≪ラピド≫ラ・パル=デス=ル=ソン
paresseux. La volpe marrone rapida | パレス。ラ・ボルペ・マローン・ラピタ
salta sopra il cane pigro. El zorro | サルタソプライルケインピグロ。エルゾロ
marrön räpido salta sobre el perro | MarrénräpidoSalta sobre el perro
perezoso. A raposa marrom räpida | ペレゾソ。ラポサ・マロム・レピダ
salta sobre o cäo preguieoso. | あなたのレビューを書く
|
## Order of multiple languages | ##多言語の順番
|
The output can be different based on the order of languages, so -l eng+hin can give different result than -l hin+eng. | 出力は言語の順序によって異なる可能性があるため、-l eng + hinは-l hin + engとは異なる結果になります。
|
Following examples use a greyscale version of this image which has text in multiple languages - Hindi and English. | 次の例では、このイメージのグレースケールバージョンを使用しています。このイメージには、複数の言語(ヒンディー語と英語)のテキストがあります。
|
![bilingual.jpg](https://i.ytimg.com/vi/Z0qDeKu7TWA/hqdefault.jpg) | ![bilingual.jpg](https://i.ytimg.com/vi/Z0qDeKu7TWA/hqdefault.jpg)
|
Using English as primary language and then Hindi | 第一言語として英語を使い、次にヒンディー語を使う
|
tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-enghin -l eng+hin | tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-enghin -l eng + hin
|
Output | 出力
|
हिदीसेअंठौजी | हिदीसेअंठौजी
HINDI To | ヒンディー語
|
ENGLISH | 英語
— | -
|
Using Hindi as primary language and then English | ヒンディー語を第一言語として使い、その後英語を使う
|
tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-hineng -l hin+eng | tesseract --tessdata-dir ./ ./testing/bilingual.jpg ./testing/bilingual-hineng -l hin + eng
|
Output | 出力
|
हिंदी से अंग्रेजी | この商品を追加しました
H I N D I T o | 私はいない
|
E N G L I S H | E N G L I S H
— | -
|
## Searchable pdf output | ##検索可能なpdf出力
|
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng pdf | tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng-l eng pdf
|
This creates a pdf with the image and a separate searchable text layer with the recognized text. | これにより、画像と認識されたテキストを含む個別の検索可能なテキストレイヤーを含むPDFが作成されます。
|
tesseract c:\temp\test_ara.jpg -l ara -psm 3 c:\temp\test_ara pdf | tesseract c:\ temp \ test_ara.jpg -l ara -psm 3 c:\ temp \ test_ara pdf
|
Files are attached (source JPG and output PDF) | ファイルが添付されている(ソースJPGおよび出力PDF)
|
![test_ara.jpg](https://cloud.githubusercontent.com/assets/17473681/13320324/bc160e22-dbd0-11e5-8090-6f3728fcc06d.jpg) | ![test_ara.jpg](https://cloud.githubusercontent.com/assets/17473681/13320324/bc160e22-dbd0-11e5-8090-6f3728fcc06d.jpg)
![test_ara.pdf](https://github.com/tesseract-ocr/tesseract/files/146534/test_ara.pdf) | ![test_ara.pdf](https://github.com/tesseract-ocr/tesseract/files/146534/test_ara.pdf)
|
## HOCR output | ## HOCR出力
|
Use 'hocr' config file by adding hocr at the end of the command to get the HOCR output. | HOCR出力を取得するには、コマンドの最後にhocrを追加して、 'hocr'設定ファイルを使用します。
|
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng hocr | tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng-l eng hocr
|
Partial Output | 部分出力
|
<?xml version="1.0" encoding="UTF-8"?> | <?xml version = "1.0" encoding = "UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" | <!DOCTYPE html PUBLIC " - // W3C // DTD XHTML 1.0トランジショナル// EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> | "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> | <html xmlns = "http://www.w3.org/1999/xhtml" xml:lang = "en" lang = "en">
<head> | <ヘッド>
<title></title> | <title> </title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" /> | <meta http-equiv = "コンテンツタイプ"コンテンツ= "テキスト/ html;文字セット= utf-8" />
<meta name='ocr-system' content='tesseract 3.05.00dev' /> | <meta name = 'ocr-system' content = 'tesseract 3.05.00dev' />
<meta name='ocr-capabilities' content='ocr_page ocr_carea ocr_par ocr_line ocrx_word'/> | <meta name = 'ocr-capabilities' content = 'ocr_page ocr_carea ocr_par ocr_line ocrx_word' />
</head> | </head>
<body> | <body>
<div class='ocr_page' id='page_1' title='image "./testing/eurotext.png"; bbox 0 0 1024 800; ppageno 0'> | <div class = 'ocr_page' id = 'page_1' title = 'image "./testing/eurotext.png"; bbox 0 0 1024 800。 ppageno 0 '>
<div class='ocr_carea' id='block_1_1' title="bbox 98 66 918 661"> | <div class = 'ocr_carea' id = 'block_1_1' title = "bbox 98 66 918 661">
<p class='ocr_par' id='par_1_1' lang='eng' title="bbox 98 66 918 661"> | <p class = 'ocr_par' id = 'par_1_1' lang = 'eng' title = "bbox 98 66 918 661">
<span class='ocr_line' id='line_1_1' title="bbox 105 66 823 113; baseline 0.015 -18; x_size 39; x_descenders 7; x_ascenders 9"><span class='ocrx_word' id='word_1_1' title='bbox 105 66 178 97; x_wconf 90'>The</span> <span class='ocrx_word' id='word_1_2' title='bbox 205 67 347 106; x_wconf 87'><strong>(quick)</strong></span> <span class='ocrx_word' id='word_1_3' title='bbox 376 69 528 109; x_wconf 89'>[brown]</span> <span class='ocrx_word' id='word_1_4' title='bbox 559 71 663 110; x_wconf 89'>{fox}</span> <span class='ocrx_word' id='word_1_5' title='bbox 687 73 823 113; x_wconf 89'>jumps!</span> | <span class = 'ocr_line' id = 'line_1_1' title = "bbox 105 66 823 113; baseline 0.015 -18; x_size 39; x_descenders 7; x_ascenders 9"> <span class = 'ocrx_word' id = 'word_1_1' title = bbox 105 66 178 97; x_wconf 90 '> </span> <spanクラス=' ocrx_word 'id =' word_1_2 'title =' bbox 205 67 347 106; x_wconf 87 '> <strong>(クイック)</strong> </span> <span class =' ocrx_word 'id =' word_1_3 'title =' bbox 376 69 528 109; x_wconf 89 '> [茶色] </span> <span class =' ocrx_word 'id =' word_1_4 'title =' bbox 559 71 663 110; x_wconf 89 '> {fox} </span> <span class =' ocrx_word 'id =' word_1_5 'title =' bbox 687 73 823 113; x_wconf 89 '>ジャンプ!</span>
</span> | </span>
</p> | </p>
</div> | </div>
</div> | </div>
</body> | </body>
</html> | </html>
|
|
## TSV output (Currently available in 3.05-dev in master branch on github) | ## TSVの出力(現在githubのmasterブランチの3.05-devで利用可能)
|
Use 'tsv' config file by adding tsv at the end of the command to get the TSV output. | TSV出力を取得するには、コマンドの末尾にtsvを追加して「tsv」構成ファイルを使用します。
|
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng tsv | tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng-l eng tsv
|
Partial Output | 部分出力
|
level | page_num
1 | 1
2 | 1
3 | 1
4 | 1
5 | 1
5 | 1
5 | 1
5 | 1
5 | 1
4 | 1
5 | 1
5 | 1
5 | 1
5 | 1
5 | 1
5 | 1
|
|
## Using different Page Segmentation Modes | ##さまざまなページセグメンテーションモードの使用
|
The following examples are using this image with text in Devanagari script and Sanskrit language. | 次の例では、この画像をDevanagariスクリプトとSanskrit言語のテキストで使用しています。
|
![san002.png](https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png) | ![san002.png](https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png)
|
tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm6 -l san -psm 6 | tesseract --tessdata-dir / usr / shareテスト/ san002.png testing / san002-psm6 -l san -psm 6
|
Output | 出力
|
विर्व्य 16 | विर्व्य 16
ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191 | ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191
दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213 | दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213
द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238 | द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238
द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263 | द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263
ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300 | ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300
पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329 | पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329
द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355 | द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355
द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360 | द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360
र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363 | र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363
अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365 | अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365
अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394 | अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394
क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397- | क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397-
कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432 | कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432
गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति` 457 | गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति` 457
गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488 | गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488
गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491 | गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491
यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493 | यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493
'शिवगङ्गासद्दृस्रनत्माव'ळि 517 | 'शिवगङ्गासद्दृस्रनत्माव'ळि 517
गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531 | गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531
|
tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm3 -l san -psm 3 | tesseract --tessdata-dir / usr / shareテスト/ san002.png testing / san002-psm3 -l san -psm 3
|
Output | 出力
|
ज्यंग्लत्रुखीसह्स्रनामलोत्रम्- नामावळिट्. | 他の人に知られています
दुर्गासहस्रनामस्तीत्रम्- १ नामाक्ळि | सुर्गासहस्रनामस्तीत्रम् - १नामाक्ळि
दुर्गासहस्रनत्मस्तीत्र्दुं'म्- २ नामावळिऽ | सुर्गासहस्रनत्मस्तीत्र्दुं'म्-२ नामावळिऽ
द्बुगसिद्द्स्रनत्मरत्तोत्रम्दकारादि (३) नामावळि | あなたが好きなもの(३)お気に入りに追加する
|
पार्वतीं ह्यो) सहम्रनम्परतोत्रम्- नामावळिऽ’ | ニュースレター)を追加しました
|
फुलकुर्व्यसहस्रनत्मक्तोत्रम्-क्ताचम्-नत्माचळिऽ | ुकुरर
|
गम्यत्रीसह्स्रनत्मक्तोत्रम्-नग्मग्वळिऽ(१) | 無料の写真(1)無料(2)
|
191 | 191
,213 | 、213
|
238 | 238
|
300 | 300
329 | 329
355 | 355
360 | 360
|
363 | 363。
|
365 | 365
|
394 | 394
|
397- | 397-
|
432 | 432
|
457 | 457
|
488 | 488
|
491 | 491
|
493 | 493
|
517 | 517
|
531 | 531
|
|