エディタの内部コードはUTF-16です。サロゲートペアにはたいだい対応しています。
編集画面
サロゲートペアには対応しています。
2000, XP で、一部の言語の表示がおかしい場合、FontLinkの設定(レジストリ操作)が必要です。
プロポーショナルフォントには未対応です。
右書き(rtl)・合成文字・Unicode制御文字などには未対応です。
ファイルの読み込み
Shift_JIS(CP932), EUC-JP
- 仕様によりNEC/IBM拡張漢字一部文字が双方向変換できないため、それらの文字が発見されると読み取り専用になります。
- EUC-JPは、CP932に一度変換されてから、OSのコンバータでUTF-16LEに変換されます。
UTF-8
- 不正シーケンスは、U+D800からU+D8FFのサロゲート断片に変換されます。
CEUS-8
- おそらくUTF-8に同じ。ただし、サロゲートペアは、CEUSの規則に従って変換されます。
UTF-16LE/UTF-16BE
- ファイルが奇数バイトの場合は、最後の文字の上位8bitに0を割り当てて、偶数バイトにするらしい
IS-2022-JP
UTF-7
ファイルの書き出し
Shift_JIS(CP932), EUC-JP
- 表現不能なワイド文字がある場合、?に変換されるらしい
- EUC-JPは、CP932に一度変換されてから、OSのコンバータでUTF-16LEに変換されます。
UTF-8
- U+D800からU+D8FFのサロゲート断片は、元のバイトシーケンスに変換されます。
CEUS-8
UTF-16LE/UTF-16BE
- ファイルが奇数バイトだったときでも、読み込み時の影響で偶数バイトになるらしい
IS-2022-JP
UTF-7
不正データ類の保持
サクラ上のU+D800からU+D8FFのサロゲート断片は ?XX と表示され半角扱いになります。
正常なサロゲートペアはそれなりに扱います。(並び順依存)
コードポイント表示
[共通設定]に、エンコードごとにステータスに表示されるコードポイントの指定オプションがあります。
デフォルトエンコード指定
[タイプ別設定]-[支援]に、タイプ別ごとのデフォルト指定があります。
※Grepも、そのウィンドウに適用されているタイプ別設定に依存して文字コード判別をします。
関連:
エンコーダー/デコーダー周りについて Rev:1553 PatchUnicode:2478365
最終更新:2010年06月20日 01:55