#blognavi

ブラウザのタイ語の改行處理


以下、元々とある方に宛てたメールを少し改變。

ふと思い立ってタイ語の処理をちょっと見てみたんですが、タイ語と比較しても日本語の処理はさぼってますね。(もちろん、そもそもタイ語は文字合成を目茶苦茶頑張っているという話も有るのですが)

タイ語は基本、空白は文と文との間にだけ使い、文中の単語の間は空白を使いません。句点や読点も有りません。しかし、本を読んでいても、日本語と違って、単語が文を跨ぐことも有りません。

分ち書きをしないにも関わらず、日本語みたいに単語を好きにぶった切れないので、単語の知識が無いと改行が正しく出来ません。

firefox ではどうしてるのだろうと思ってwikipediaで文字の大きさを変えたりしなが眺めましたが、ちゃんと処理されてますねー。分ち書きでも無いのに、単語と単語の間で、改行されてます。

ただ、単語では無く音節(2-8文字くらい)を判別して切っているだけかもしれません。タイ語は中国語と同じく音節が必ず単語に対応しますので。単体では使えない単語の場合も有りますが。(うーん、でも外来語はそうでも無いか。。。)

音節を見てるにしても文章を解釈しない限り音節の分け方が複数通りある場合もあって、どうやるんだろうと思って、

มากว่า (makw1a に相当、1 は声調記号)

と書いてブラウザで見てみました。

มาก ว่า (mak w1a)


มา กว่า (ma kw1a)

の二通りの切り方が考えられるのですが、firefox だとどちらでも絶対に切りませんね。

しかし

มากว่ามากว่า (makw1amakw1a)

と二つ続けて書くと、

มากว่า มากว่า (makw1a makw1a)

と切れることはあります。怪しい所では切らない、確実なところで切る、というアルゴリズムなんでしょうかね。


名前:
コメント:


カテゴリ: [泰語] - &trackback() - 2010年05月28日 17:36:53

#blognavi
最終更新:2010年06月16日 18:46