「正確な10万字と、誤差を含む1800万字どちらが優るのか」の項目では、N-gramの精度について、統計学的な理論を説明しました。今回は具体的に見てみようと思います。
(1)どれだけ大量のデータを集めても、その集め方による偏りはかなりある。
(2)すべての語彙が一様な確率分布をしてはいない。低頻度の語彙が続けて出現することが多々ある。
(3)上の(2)は無視して一様分布とみなしうるとしても、出現頻度には確率的な誤差が生じる。
(4)ご指摘頂いた変換誤差。
(1)~(4)まで全て込みの、出来上がりとしての3-gram上位を実際に比較してみました。
もっと低頻度の長いGRAMでも検討できると良いのですけれど、適当な比較対象が有りません。


での出現回数を、141F氏の10万字に合わせて調整し、いずれかの資料で50回以上、2000文字に一回以上という最頻出の文字列を抜き出して表にしました。また、いずれかの資料で20回、5000文字に一回程度という文字列についても調べました。この頻度を大きく外して評価すると、MeCabやKanji2naの誤読とは桁の違う誤差が生じます。
文体による差は極端なものでなければ個性として良いかと思います。
精度についてはご自分で判断下さい。

141F氏10万字 kouy氏120万字 月見草1800万字 141F氏10万字 kouy氏120万字 月見草1800万字
という 358 226.8 135.6 じゃな 73 20.2 26.6
ます。 338 209.7 284.4 れから 66 13.2 19.6
います 255 96.1 185.4 かんけ 52 25.2 20.2
ている 244 226.8 195.4 いのか 52 20.0 17.1
ひょう 241 67.8 51.1 があっ 46 21.2 20.4
ってい 212 168.4 188.3 がない 46 18.6 20.0
しょう 202 325.3 334.5 みたい 45 17.6 20.1
じょう 190 274.2 234.6 では、 42 27.5 19.9
ちょう 176 159.4 117.9 いした 41 25.1 20.4
とおも 167 75.5 142.0 やって 40 22.0 20.5
した。 161 141.4 235.9 なこと 40 19.8 24.4
ました 158 117.9 233.2 ほんと 40 18.9 20.0
ょうか 158 67.4 99.8 でも、 40 18.0 19.6
った。 154 100.9 126.5 そうい 39 20.1 18.1
ない。 154 89.2 53.5 いてき 37 28.2 19.7
してい 148 136.7 128.1 これは 37 20.4 14.9
なって 147 78.2 72.7 うとし 35 20.1 20.9
かった 142 90.6 86.8 られた 34 19.7 20.1
うこと 142 58.7 40.9 なかで 31 20.1 17.0
んです 141 54.9 75.1 くする 29 25.6 19.7
から、 140 48.3 50.7 なくて 26 17.5 19.8
ていた 138 95.3 96.2 たもの 25 23.1 20.3
ること 134 136.6 105.1 ときに 25 20.3 19.2
です。 134 135.9 203.8 とは、 23 18.9 19.8
きょう 130 221.3 156.8 るから 22 19.8 16.7
おもい 128 44.8 122.1 えてい 22 19.6 22.8
ざいま 128 17.1 10.0 るため 21 26.4 19.8
ります 127 68.0 121.6 なく、 21 19.8 19.4
ござい 127 16.6 9.7 たのし 21 19.8 15.0
いうこ 126 47.8 32.6 んきょ 20 44.4 33.1
して、 124 58.3 53.6 された 20 39.3 34.1
すが、 116 59.9 87.2 もうし 20 27.6 32.8
わたし 108 54.3 138.4 のため 20 23.3 22.8
いただ 108 29.1 29.8 つかっ 20 22.8 16.8
になっ 101 64.5 61.3 たり、 20 21.7 15.5
ないか 101 39.0 38.4 とがで 20 21.4 20.5
として 100 86.6 69.4 とにな 20 21.3 16.8
ので、 98 53.7 61.8 ねんど 20 20.4 21.5
ところ 98 51.9 51.8 とかん 20 19.8 17.0
もいま 96 24.0 99.6 ていく 20 19.7 17.9
くひょ 92 3.5 4.2 っきょ 20 19.7 12.3
ており 89 23.4 21.1 こころ 20 18.9 26.1
まして 89 11.0 18.4 たいで 20 18.2 21.2
ぎょう 88 89.9 72.7 せいを 20 18.2 13.0
ような 88 77.8 71.8 ったり 20 18.1 18.3
ついて 88 55.9 47.4 そうで 20 17.2 22.9
ょうの 87 79.2 63.3 んとい 20 17.1 12.6
けど、 87 23.3 13.6 にした 20 16.5 13.9
ちゅう 84 103.2 99.2 のとき 20 15.8 22.9
かんが 84 68.1 59.0 んけん 20 15.2 10.7
ように 83 85.4 89.2 みなさ 20 14.9 19.6
じぶん 83 47.6 65.5 たんで 20 14.2 11.1
ゃない 83 17.5 24.3 とんど 20 13.9 9.5
てしま 82 55.8 51.8 ほとん 20 13.9 9.5
につい 81 49.3 37.0 うには 20 12.8 13.2
きゅう 80 97.7 105.4 うにつ 20 11.3 9.1
おりま 80 15.9 18.1 きもち 20 10.9 15.7
なかっ 79 46.8 49.5 しんを 20 10.7 9.7
りょう 78 103.3 100.4 いんか 20 10.5 4.1
ありま 77 59.8 105.2 といい 20 10.3 13.0
しょく 77 56.9 53.4 むしょ 20 9.4 6.8
いって 77 44.9 65.2 のはい 20 9.3 7.9
ないの 77 42.4 52.9 ぶんが 20 9.1 13.0
れてい 76 81.5 62.6 りして 20 8.8 12.1
らない 76 54.5 56.4 とにか 20 8.8 7.0
って、 76 43.1 57.8 ないけ 20 8.4 6.2
ことを 74 45.7 48.8 いちぶ 20 7.9 6.9
でござ 74 3.9 2.5 のに、 20 7.7 7.4
はない 73 54.2 52.8 える。 20 7.0 5.7
ですが 73 47.3 89.6 そうと 20 6.9 9.1
じゃな 73 20.2 26.6 うれし 20 6.7 6.7
うして 72 55.2 55.0 だけの 20 6.7 5.4
だった 71 55.6 59.5 からい 20 6.5 8.6
てきた 71 36.2 28.8 てあげ 20 4.3 7.0
ょうに 70 62.0 52.4 たかっ 20 4.2 3.9
がある 70 59.0 44.8 るけど 20 4.1 3.1
ことは 70 41.9 42.5 ーじの 20 3.8 1.6
ません 68 73.2 144.2 だよ。 20 2.5 5.2
んがえ 68 52.6 46.8 んども 20 1.8 4.1
ていま 67 57.7 88.7 っかな 20 0.7 0.9
くなっ 67 23.0 22.7 めいせ 20 0.5 0.7
ょうし 66 87.3 76.9 ょうさ 19 31.0 19.9
できる 66 58.7 43.0 んぜん 19 29.1 20.4
ではな 66 55.2 53.0 うがあ 18 20.3 16.7
ってき 66 28.8 28.5 んどう 17 20.4 21.2
たいと 66 22.6 18.7 あると 17 16.8 19.8
れから 66 13.2 19.6 たほう 16 5.7 20.4
ことが 65 69.6 55.6 ちがい 15 21.4 20.3
ないと 65 41.2 52.7 いおう 15 19.9 11.3
おもう 65 28.7 27.5 さんの 14 19.8 21.8
しゃし 65 12.2 14.6 しあげ 14 19.6 23.3
んかい 64 57.3 32.5 もあり 14 15.1 19.9
いるの 64 38.6 41.8 んにん 14 13.3 19.7
りまし 64 30.8 51.0 いしゅ 13 24.3 20.4
もくひ 64 2.5 2.8 んりょ 12 23.8 19.8
るので 63 40.7 64.4 なけれ 12 20.2 22.4
だろう 63 40.5 25.2 くしゃ 12 20.1 16.3
いとお 63 18.1 46.6 せんで 12 15.9 20.2
んしょ 62 55.6 43.4 なら、 12 9.5 20.5
もって 62 41.2 53.5 のたい 11 19.9 14.1
いまし 62 28.2 67.2 ちょく 11 19.9 12.5
だから 62 27.5 29.7 しょん 10 20.8 19.8
おもっ 61 32.9 34.6 ゅうか 27.0 20.3
かんじ 60 43.7 38.5 うそう 20.6 19.9
るとい 60 37.0 26.6 うは、 19.8 16.9
ういう 60 23.1 20.5 いかつ 19.8 14.0
のよう 59 63.2 60.5 かーど 19.8 6.8
うせい 59 61.9 50.8 うさん 19.7 19.8
んだい 59 48.3 41.4 いんた 19.6 6.6
あった 59 43.3 45.7 げます 16.8 20.0
ことで 59 41.0 37.3 だいが 16.1 19.6
いいん 59 20.6 14.1
うかし 59 6.4 6.0
ことに 58 52.4 37.2
れない 58 34.1 30.4
なんで 58 20.7 23.7
つめい 58 16.2 10.0
しゅう 57 128.3 104.5
うほう 57 82.7 47.1
ゅうし 57 73.2 58.8
いうの 57 32.4 21.6
んから 57 26.4 22.7
まった 56 42.2 36.0
んけい 56 37.5 31.7
んとう 55 52.3 48.3
うしゃ 55 42.1 47.7
じかん 55 32.1 31.0
きまし 55 21.9 34.8
ってお 55 16.1 19.3
そんな 54 26.0 24.2
いから 54 23.8 22.8
わけで 54 23.5 12.1
んてん 54 17.9 13.1
ぼくは 54 7.7 20.6
それか 54 5.0 11.5
うかん 53 40.1 36.3
いとい 53 30.4 24.1
ょっと 53 20.7 14.1
いる。 52 65.2 39.5
のなか 52 39.2 46.0
どうし 52 32.0 33.9
する。 52 26.2 22.8
かんけ 52 25.2 20.2
いのか 52 20.0 17.1
ある。 51 100.8 49.3
じゅう 51 79.3 113.2
いする 51 53.9 36.4
いして 51 46.7 41.6
いった 51 43.4 48.5
いた。 51 35.5 47.9
ってる 51 16.2 19.4
かとい 51 11.9 5.8
いこと 50 27.3 27.1
ちょっ 50 22.3 15.0
いれつ 50 0.8 1.3
うする 48 65.4 48.9
んこう 48 61.8 54.1
るよう 48 55.0 52.8
なった 47 51.5 48.0
いしゃ 47 50.8 56.4
ったの 47 42.9 44.7
のです 46 53.8 85.5
いよう 46 52.4 45.5
します 45 49.0 67.8
である 44 100.6 63.0
いです 44 38.7 110.8
いので 44 33.1 59.9
うかい 43 55.1 37.6
ですか 42 28.4 69.4
んせい 39 58.3 56.0
せん。 39 41.3 68.4
ょうほ 37 64.0 23.0
するこ 35 52.3 36.3
りょく 32 47.3 53.2
でした 30 28.0 52.1
なりま 30 25.5 50.7
うきょ 29 58.7 35.4
ょうじ 28 52.9 43.4
いじょ 28 47.8 52.2
ないで 28 23.8 58.3
うしょ 27 60.7 46.8
でしょ 27 47.6 107.3
うです 27 31.8 52.5
たしは 27 12.5 51.4
にゅう 26 56.0 45.8
いしょ 25 53.3 49.0
りませ 25 30.7 62.1
たので 19 39.8 56.0
くださ 16 35.7 73.0
んしゅ 10 59.2 38.8
ださい 32.1 70.8
てくだ 21.4 55.2

以下は個人的な感想です。
「10万字サンプル」は「目標・評価し・配列・~というようなことじゃないかと思うんでございますけど、」辺りがいかになんでも多過ぎるのではないかと思います。「10万字が限度」ということでしたら、(3)は原理的にどうにもなりませんが、サンプルの採集方法に問題があって(2)の誤差も大きいのではないでしょうか。
「100万字」は「情報セキュリティ・著作権」とか異常に多いのでないかと思いますが、総量が一桁多いですから、誤差としてもオーダーが違います。それよりも文体による差異がはっきりしました。
最終更新:2013年02月10日 09:31