*
シフトJIS
JIS8
EBCDIC
JIS(78年度版)
JIS(83年度版)
JEF(富士通漢字)
IBM(IBM漢字)
KEIS(日立漢字)
JIPS(E)
JIPS(J)
EUC-JP
UTF-8
UTF-16
JISのみ
Unicode
文字セット
UCS-2
2バイト固定(65536文字)
UCS-4
4バイトに拡張
Unicode3.1から実際に文字が割り当て
エンコーディング
UTF-32
4バイト固定
UTF-16
2バイト、または4バイト
UCS-2の厳密なスーパーセットで、補助文字(1文字あたり4バイトが必要なサロゲート・ペア)をサポートする。
UTF-8
1~4バイト、日本語は3バイト
参考サイト
Java
System.out.print("サイズ:" + str.getBytes().length);
System.out.println("文字数:" + str.length());
叱(U+20B9F)いう字だとサロゲートペアになるため、lengthだと正しくカウントされない。
1234567890:サイズ:10文字数:10
ABCDEFGHIJ:サイズ:10文字数:10
あいうえお:サイズ:15文字数:5
アイウエオカキクケコ:サイズ:30文字数:10
しかる×5:サイズ:20文字数:10
最終更新:2014年07月18日 15:23