アットウィキロゴ

文字コード

*
シフトJIS
JIS8
EBCDIC
JIS(78年度版)
JIS(83年度版)
JEF(富士通漢字)
IBM(IBM漢字)
KEIS(日立漢字)
JIPS(E)
JIPS(J)
EUC-JP
UTF-8
UTF-16
JISのみ


Unicode

文字セット

UCS-2

2バイト固定(65536文字)

UCS-4

4バイトに拡張
Unicode3.1から実際に文字が割り当て

エンコーディング

UTF-32

4バイト固定

UTF-16

2バイト、または4バイト
UCS-2の厳密なスーパーセットで、補助文字(1文字あたり4バイトが必要なサロゲート・ペア)をサポートする。

UTF-8

1~4バイト、日本語は3バイト

参考サイト


Java

System.out.print("サイズ:" + str.getBytes().length);
System.out.println("文字数:" + str.length());
叱(U+20B9F)いう字だとサロゲートペアになるため、lengthだと正しくカウントされない。
1234567890:サイズ:10文字数:10
ABCDEFGHIJ:サイズ:10文字数:10
あいうえお:サイズ:15文字数:5
アイウエオカキクケコ:サイズ:30文字数:10
しかる×5:サイズ:20文字数:10

タグ:

+ タグ編集
  • タグ:
最終更新:2014年07月18日 15:23
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。