「正確な10万字と、誤差を含む1800万字どちらが優るのか」の項目では、N-gramの精度について、統計学的な理論を説明しました。今回は具体的に見てみようと思います。
(1)どれだけ大量のデータを集めても、その集め方による偏りはかなりある。
(2)すべての語彙が一様な確率分布をしてはいない。低頻度の語彙が続けて出現することが多々ある。
(3)上の(2)は無視して一様分布とみなしうるとしても、出現頻度には確率的な誤差が生じる。
(4)ご指摘頂いた変換誤差。
(1)~(4)まで全て込みの、出来上がりとしての3-gram上位を実際に比較してみました。
もっと低頻度の長いGRAMでも検討できると良いのですけれど、適当な比較対象が有りません。
での出現回数を、141F氏の10万字に合わせて調整し、いずれかの資料で50回以上、2000文字に一回以上という最頻出の文字列を抜き出して表にしました。また、いずれかの資料で20回、5000文字に一回程度という文字列についても調べました。この頻度を大きく外して評価すると、MeCabやKanji2naの誤読とは桁の違う誤差が生じます。
文体による差は極端なものでなければ個性として良いかと思います。
精度についてはご自分で判断下さい。
|
141F氏10万字 |
kouy氏120万字 |
月見草1800万字 |
|
|
141F氏10万字 |
kouy氏120万字 |
月見草1800万字 |
という |
358 |
226.8 |
135.6 |
|
じゃな |
73 |
20.2 |
26.6 |
ます。 |
338 |
209.7 |
284.4 |
|
れから |
66 |
13.2 |
19.6 |
います |
255 |
96.1 |
185.4 |
|
かんけ |
52 |
25.2 |
20.2 |
ている |
244 |
226.8 |
195.4 |
|
いのか |
52 |
20.0 |
17.1 |
ひょう |
241 |
67.8 |
51.1 |
|
があっ |
46 |
21.2 |
20.4 |
ってい |
212 |
168.4 |
188.3 |
|
がない |
46 |
18.6 |
20.0 |
しょう |
202 |
325.3 |
334.5 |
|
みたい |
45 |
17.6 |
20.1 |
じょう |
190 |
274.2 |
234.6 |
|
では、 |
42 |
27.5 |
19.9 |
ちょう |
176 |
159.4 |
117.9 |
|
いした |
41 |
25.1 |
20.4 |
とおも |
167 |
75.5 |
142.0 |
|
やって |
40 |
22.0 |
20.5 |
した。 |
161 |
141.4 |
235.9 |
|
なこと |
40 |
19.8 |
24.4 |
ました |
158 |
117.9 |
233.2 |
|
ほんと |
40 |
18.9 |
20.0 |
ょうか |
158 |
67.4 |
99.8 |
|
でも、 |
40 |
18.0 |
19.6 |
った。 |
154 |
100.9 |
126.5 |
|
そうい |
39 |
20.1 |
18.1 |
ない。 |
154 |
89.2 |
53.5 |
|
いてき |
37 |
28.2 |
19.7 |
してい |
148 |
136.7 |
128.1 |
|
これは |
37 |
20.4 |
14.9 |
なって |
147 |
78.2 |
72.7 |
|
うとし |
35 |
20.1 |
20.9 |
かった |
142 |
90.6 |
86.8 |
|
られた |
34 |
19.7 |
20.1 |
うこと |
142 |
58.7 |
40.9 |
|
なかで |
31 |
20.1 |
17.0 |
んです |
141 |
54.9 |
75.1 |
|
くする |
29 |
25.6 |
19.7 |
から、 |
140 |
48.3 |
50.7 |
|
なくて |
26 |
17.5 |
19.8 |
ていた |
138 |
95.3 |
96.2 |
|
たもの |
25 |
23.1 |
20.3 |
ること |
134 |
136.6 |
105.1 |
|
ときに |
25 |
20.3 |
19.2 |
です。 |
134 |
135.9 |
203.8 |
|
とは、 |
23 |
18.9 |
19.8 |
きょう |
130 |
221.3 |
156.8 |
|
るから |
22 |
19.8 |
16.7 |
おもい |
128 |
44.8 |
122.1 |
|
えてい |
22 |
19.6 |
22.8 |
ざいま |
128 |
17.1 |
10.0 |
|
るため |
21 |
26.4 |
19.8 |
ります |
127 |
68.0 |
121.6 |
|
なく、 |
21 |
19.8 |
19.4 |
ござい |
127 |
16.6 |
9.7 |
|
たのし |
21 |
19.8 |
15.0 |
いうこ |
126 |
47.8 |
32.6 |
|
んきょ |
20 |
44.4 |
33.1 |
して、 |
124 |
58.3 |
53.6 |
|
された |
20 |
39.3 |
34.1 |
すが、 |
116 |
59.9 |
87.2 |
|
もうし |
20 |
27.6 |
32.8 |
わたし |
108 |
54.3 |
138.4 |
|
のため |
20 |
23.3 |
22.8 |
いただ |
108 |
29.1 |
29.8 |
|
つかっ |
20 |
22.8 |
16.8 |
になっ |
101 |
64.5 |
61.3 |
|
たり、 |
20 |
21.7 |
15.5 |
ないか |
101 |
39.0 |
38.4 |
|
とがで |
20 |
21.4 |
20.5 |
として |
100 |
86.6 |
69.4 |
|
とにな |
20 |
21.3 |
16.8 |
ので、 |
98 |
53.7 |
61.8 |
|
ねんど |
20 |
20.4 |
21.5 |
ところ |
98 |
51.9 |
51.8 |
|
とかん |
20 |
19.8 |
17.0 |
もいま |
96 |
24.0 |
99.6 |
|
ていく |
20 |
19.7 |
17.9 |
くひょ |
92 |
3.5 |
4.2 |
|
っきょ |
20 |
19.7 |
12.3 |
ており |
89 |
23.4 |
21.1 |
|
こころ |
20 |
18.9 |
26.1 |
まして |
89 |
11.0 |
18.4 |
|
たいで |
20 |
18.2 |
21.2 |
ぎょう |
88 |
89.9 |
72.7 |
|
せいを |
20 |
18.2 |
13.0 |
ような |
88 |
77.8 |
71.8 |
|
ったり |
20 |
18.1 |
18.3 |
ついて |
88 |
55.9 |
47.4 |
|
そうで |
20 |
17.2 |
22.9 |
ょうの |
87 |
79.2 |
63.3 |
|
んとい |
20 |
17.1 |
12.6 |
けど、 |
87 |
23.3 |
13.6 |
|
にした |
20 |
16.5 |
13.9 |
ちゅう |
84 |
103.2 |
99.2 |
|
のとき |
20 |
15.8 |
22.9 |
かんが |
84 |
68.1 |
59.0 |
|
んけん |
20 |
15.2 |
10.7 |
ように |
83 |
85.4 |
89.2 |
|
みなさ |
20 |
14.9 |
19.6 |
じぶん |
83 |
47.6 |
65.5 |
|
たんで |
20 |
14.2 |
11.1 |
ゃない |
83 |
17.5 |
24.3 |
|
とんど |
20 |
13.9 |
9.5 |
てしま |
82 |
55.8 |
51.8 |
|
ほとん |
20 |
13.9 |
9.5 |
につい |
81 |
49.3 |
37.0 |
|
うには |
20 |
12.8 |
13.2 |
きゅう |
80 |
97.7 |
105.4 |
|
うにつ |
20 |
11.3 |
9.1 |
おりま |
80 |
15.9 |
18.1 |
|
きもち |
20 |
10.9 |
15.7 |
なかっ |
79 |
46.8 |
49.5 |
|
しんを |
20 |
10.7 |
9.7 |
りょう |
78 |
103.3 |
100.4 |
|
いんか |
20 |
10.5 |
4.1 |
ありま |
77 |
59.8 |
105.2 |
|
といい |
20 |
10.3 |
13.0 |
しょく |
77 |
56.9 |
53.4 |
|
むしょ |
20 |
9.4 |
6.8 |
いって |
77 |
44.9 |
65.2 |
|
のはい |
20 |
9.3 |
7.9 |
ないの |
77 |
42.4 |
52.9 |
|
ぶんが |
20 |
9.1 |
13.0 |
れてい |
76 |
81.5 |
62.6 |
|
りして |
20 |
8.8 |
12.1 |
らない |
76 |
54.5 |
56.4 |
|
とにか |
20 |
8.8 |
7.0 |
って、 |
76 |
43.1 |
57.8 |
|
ないけ |
20 |
8.4 |
6.2 |
ことを |
74 |
45.7 |
48.8 |
|
いちぶ |
20 |
7.9 |
6.9 |
でござ |
74 |
3.9 |
2.5 |
|
のに、 |
20 |
7.7 |
7.4 |
はない |
73 |
54.2 |
52.8 |
|
える。 |
20 |
7.0 |
5.7 |
ですが |
73 |
47.3 |
89.6 |
|
そうと |
20 |
6.9 |
9.1 |
じゃな |
73 |
20.2 |
26.6 |
|
うれし |
20 |
6.7 |
6.7 |
うして |
72 |
55.2 |
55.0 |
|
だけの |
20 |
6.7 |
5.4 |
だった |
71 |
55.6 |
59.5 |
|
からい |
20 |
6.5 |
8.6 |
てきた |
71 |
36.2 |
28.8 |
|
てあげ |
20 |
4.3 |
7.0 |
ょうに |
70 |
62.0 |
52.4 |
|
たかっ |
20 |
4.2 |
3.9 |
がある |
70 |
59.0 |
44.8 |
|
るけど |
20 |
4.1 |
3.1 |
ことは |
70 |
41.9 |
42.5 |
|
ーじの |
20 |
3.8 |
1.6 |
ません |
68 |
73.2 |
144.2 |
|
だよ。 |
20 |
2.5 |
5.2 |
んがえ |
68 |
52.6 |
46.8 |
|
んども |
20 |
1.8 |
4.1 |
ていま |
67 |
57.7 |
88.7 |
|
っかな |
20 |
0.7 |
0.9 |
くなっ |
67 |
23.0 |
22.7 |
|
めいせ |
20 |
0.5 |
0.7 |
ょうし |
66 |
87.3 |
76.9 |
|
ょうさ |
19 |
31.0 |
19.9 |
できる |
66 |
58.7 |
43.0 |
|
んぜん |
19 |
29.1 |
20.4 |
ではな |
66 |
55.2 |
53.0 |
|
うがあ |
18 |
20.3 |
16.7 |
ってき |
66 |
28.8 |
28.5 |
|
んどう |
17 |
20.4 |
21.2 |
たいと |
66 |
22.6 |
18.7 |
|
あると |
17 |
16.8 |
19.8 |
れから |
66 |
13.2 |
19.6 |
|
たほう |
16 |
5.7 |
20.4 |
ことが |
65 |
69.6 |
55.6 |
|
ちがい |
15 |
21.4 |
20.3 |
ないと |
65 |
41.2 |
52.7 |
|
いおう |
15 |
19.9 |
11.3 |
おもう |
65 |
28.7 |
27.5 |
|
さんの |
14 |
19.8 |
21.8 |
しゃし |
65 |
12.2 |
14.6 |
|
しあげ |
14 |
19.6 |
23.3 |
んかい |
64 |
57.3 |
32.5 |
|
もあり |
14 |
15.1 |
19.9 |
いるの |
64 |
38.6 |
41.8 |
|
んにん |
14 |
13.3 |
19.7 |
りまし |
64 |
30.8 |
51.0 |
|
いしゅ |
13 |
24.3 |
20.4 |
もくひ |
64 |
2.5 |
2.8 |
|
んりょ |
12 |
23.8 |
19.8 |
るので |
63 |
40.7 |
64.4 |
|
なけれ |
12 |
20.2 |
22.4 |
だろう |
63 |
40.5 |
25.2 |
|
くしゃ |
12 |
20.1 |
16.3 |
いとお |
63 |
18.1 |
46.6 |
|
せんで |
12 |
15.9 |
20.2 |
んしょ |
62 |
55.6 |
43.4 |
|
なら、 |
12 |
9.5 |
20.5 |
もって |
62 |
41.2 |
53.5 |
|
のたい |
11 |
19.9 |
14.1 |
いまし |
62 |
28.2 |
67.2 |
|
ちょく |
11 |
19.9 |
12.5 |
だから |
62 |
27.5 |
29.7 |
|
しょん |
10 |
20.8 |
19.8 |
おもっ |
61 |
32.9 |
34.6 |
|
ゅうか |
|
27.0 |
20.3 |
かんじ |
60 |
43.7 |
38.5 |
|
うそう |
|
20.6 |
19.9 |
るとい |
60 |
37.0 |
26.6 |
|
うは、 |
|
19.8 |
16.9 |
ういう |
60 |
23.1 |
20.5 |
|
いかつ |
|
19.8 |
14.0 |
のよう |
59 |
63.2 |
60.5 |
|
かーど |
|
19.8 |
6.8 |
うせい |
59 |
61.9 |
50.8 |
|
うさん |
|
19.7 |
19.8 |
んだい |
59 |
48.3 |
41.4 |
|
いんた |
|
19.6 |
6.6 |
あった |
59 |
43.3 |
45.7 |
|
げます |
|
16.8 |
20.0 |
ことで |
59 |
41.0 |
37.3 |
|
だいが |
|
16.1 |
19.6 |
いいん |
59 |
20.6 |
14.1 |
|
|
|
|
|
うかし |
59 |
6.4 |
6.0 |
|
|
|
|
|
ことに |
58 |
52.4 |
37.2 |
|
|
|
|
|
れない |
58 |
34.1 |
30.4 |
|
|
|
|
|
なんで |
58 |
20.7 |
23.7 |
|
|
|
|
|
つめい |
58 |
16.2 |
10.0 |
|
|
|
|
|
しゅう |
57 |
128.3 |
104.5 |
|
|
|
|
|
うほう |
57 |
82.7 |
47.1 |
|
|
|
|
|
ゅうし |
57 |
73.2 |
58.8 |
|
|
|
|
|
いうの |
57 |
32.4 |
21.6 |
|
|
|
|
|
んから |
57 |
26.4 |
22.7 |
|
|
|
|
|
まった |
56 |
42.2 |
36.0 |
|
|
|
|
|
んけい |
56 |
37.5 |
31.7 |
|
|
|
|
|
んとう |
55 |
52.3 |
48.3 |
|
|
|
|
|
うしゃ |
55 |
42.1 |
47.7 |
|
|
|
|
|
じかん |
55 |
32.1 |
31.0 |
|
|
|
|
|
きまし |
55 |
21.9 |
34.8 |
|
|
|
|
|
ってお |
55 |
16.1 |
19.3 |
|
|
|
|
|
そんな |
54 |
26.0 |
24.2 |
|
|
|
|
|
いから |
54 |
23.8 |
22.8 |
|
|
|
|
|
わけで |
54 |
23.5 |
12.1 |
|
|
|
|
|
んてん |
54 |
17.9 |
13.1 |
|
|
|
|
|
ぼくは |
54 |
7.7 |
20.6 |
|
|
|
|
|
それか |
54 |
5.0 |
11.5 |
|
|
|
|
|
うかん |
53 |
40.1 |
36.3 |
|
|
|
|
|
いとい |
53 |
30.4 |
24.1 |
|
|
|
|
|
ょっと |
53 |
20.7 |
14.1 |
|
|
|
|
|
いる。 |
52 |
65.2 |
39.5 |
|
|
|
|
|
のなか |
52 |
39.2 |
46.0 |
|
|
|
|
|
どうし |
52 |
32.0 |
33.9 |
|
|
|
|
|
する。 |
52 |
26.2 |
22.8 |
|
|
|
|
|
かんけ |
52 |
25.2 |
20.2 |
|
|
|
|
|
いのか |
52 |
20.0 |
17.1 |
|
|
|
|
|
ある。 |
51 |
100.8 |
49.3 |
|
|
|
|
|
じゅう |
51 |
79.3 |
113.2 |
|
|
|
|
|
いする |
51 |
53.9 |
36.4 |
|
|
|
|
|
いして |
51 |
46.7 |
41.6 |
|
|
|
|
|
いった |
51 |
43.4 |
48.5 |
|
|
|
|
|
いた。 |
51 |
35.5 |
47.9 |
|
|
|
|
|
ってる |
51 |
16.2 |
19.4 |
|
|
|
|
|
かとい |
51 |
11.9 |
5.8 |
|
|
|
|
|
いこと |
50 |
27.3 |
27.1 |
|
|
|
|
|
ちょっ |
50 |
22.3 |
15.0 |
|
|
|
|
|
いれつ |
50 |
0.8 |
1.3 |
|
|
|
|
|
うする |
48 |
65.4 |
48.9 |
|
|
|
|
|
んこう |
48 |
61.8 |
54.1 |
|
|
|
|
|
るよう |
48 |
55.0 |
52.8 |
|
|
|
|
|
なった |
47 |
51.5 |
48.0 |
|
|
|
|
|
いしゃ |
47 |
50.8 |
56.4 |
|
|
|
|
|
ったの |
47 |
42.9 |
44.7 |
|
|
|
|
|
のです |
46 |
53.8 |
85.5 |
|
|
|
|
|
いよう |
46 |
52.4 |
45.5 |
|
|
|
|
|
します |
45 |
49.0 |
67.8 |
|
|
|
|
|
である |
44 |
100.6 |
63.0 |
|
|
|
|
|
いです |
44 |
38.7 |
110.8 |
|
|
|
|
|
いので |
44 |
33.1 |
59.9 |
|
|
|
|
|
うかい |
43 |
55.1 |
37.6 |
|
|
|
|
|
ですか |
42 |
28.4 |
69.4 |
|
|
|
|
|
んせい |
39 |
58.3 |
56.0 |
|
|
|
|
|
せん。 |
39 |
41.3 |
68.4 |
|
|
|
|
|
ょうほ |
37 |
64.0 |
23.0 |
|
|
|
|
|
するこ |
35 |
52.3 |
36.3 |
|
|
|
|
|
りょく |
32 |
47.3 |
53.2 |
|
|
|
|
|
でした |
30 |
28.0 |
52.1 |
|
|
|
|
|
なりま |
30 |
25.5 |
50.7 |
|
|
|
|
|
うきょ |
29 |
58.7 |
35.4 |
|
|
|
|
|
ょうじ |
28 |
52.9 |
43.4 |
|
|
|
|
|
いじょ |
28 |
47.8 |
52.2 |
|
|
|
|
|
ないで |
28 |
23.8 |
58.3 |
|
|
|
|
|
うしょ |
27 |
60.7 |
46.8 |
|
|
|
|
|
でしょ |
27 |
47.6 |
107.3 |
|
|
|
|
|
うです |
27 |
31.8 |
52.5 |
|
|
|
|
|
たしは |
27 |
12.5 |
51.4 |
|
|
|
|
|
にゅう |
26 |
56.0 |
45.8 |
|
|
|
|
|
いしょ |
25 |
53.3 |
49.0 |
|
|
|
|
|
りませ |
25 |
30.7 |
62.1 |
|
|
|
|
|
たので |
19 |
39.8 |
56.0 |
|
|
|
|
|
くださ |
16 |
35.7 |
73.0 |
|
|
|
|
|
んしゅ |
10 |
59.2 |
38.8 |
|
|
|
|
|
ださい |
|
32.1 |
70.8 |
|
|
|
|
|
てくだ |
|
21.4 |
55.2 |
|
|
|
|
|
以下は個人的な感想です。
「10万字サンプル」は「目標・評価し・配列・~というようなことじゃないかと思うんでございますけど、」辺りがいかになんでも多過ぎるのではないかと思います。「10万字が限度」ということでしたら、(3)は原理的にどうにもなりませんが、サンプルの採集方法に問題があって(2)の誤差も大きいのではないでしょうか。
「100万字」は「情報セキュリティ・著作権」とか異常に多いのでないかと思いますが、総量が一桁多いですから、誤差としてもオーダーが違います。それよりも文体による差異がはっきりしました。
最終更新:2013年02月10日 09:31