文字コード

　エディタの内部コードはUTF-16です。サロゲートペアにはたいだい対応しています。

編集画面

サロゲートペアには対応しています。
2000, XP で、一部の言語の表示がおかしい場合、FontLinkの設定(レジストリ操作)が必要です。
プロポーショナルフォントには未対応です。
右書き(rtl)・合成文字・Unicode制御文字などには未対応です。

ファイルの読み込み

Shift_JIS(CP932), EUC-JP

仕様によりNEC/IBM拡張漢字一部文字が双方向変換できないため、それらの文字が発見されると読み取り専用になります。
EUC-JPは、CP932に一度変換されてから、OSのコンバータでUTF-16LEに変換されます。

UTF-8

不正シーケンスは、U+D800からU+D8FFのサロゲート断片に変換されます。

CEUS-8

おそらくUTF-8に同じ。ただし、サロゲートペアは、CEUSの規則に従って変換されます。

UTF-16LE/UTF-16BE

ファイルが奇数バイトの場合は、最後の文字の上位8bitに0を割り当てて、偶数バイトにするらしい

IS-2022-JP

未調査

UTF-7

未調査

ファイルの書き出し

Shift_JIS(CP932), EUC-JP

表現不能なワイド文字がある場合、?に変換されるらしい
EUC-JPは、CP932に一度変換されてから、OSのコンバータでUTF-16LEに変換されます。

UTF-8

U+D800からU+D8FFのサロゲート断片は、元のバイトシーケンスに変換されます。

CEUS-8

UTF-8に同じ

UTF-16LE/UTF-16BE

ファイルが奇数バイトだったときでも、読み込み時の影響で偶数バイトになるらしい

IS-2022-JP

未調査

UTF-7

未調査

不正データ類の保持

サクラ上のU+D800からU+D8FFのサロゲート断片は ?XX と表示され半角扱いになります。
正常なサロゲートペアはそれなりに扱います。(並び順依存)

コードポイント表示

[共通設定]に、エンコードごとにステータスに表示されるコードポイントの指定オプションがあります。

デフォルトエンコード指定

[タイプ別設定]-[支援]に、タイプ別ごとのデフォルト指定があります。
※Grepも、そのウィンドウに適用されているタイプ別設定に依存して文字コード判別をします。

関連:
エンコーダー/デコーダー周りについて Rev:1553 PatchUnicode:2478365

タグ：

+ タグ編集

「文字コード」をウィキ内検索

最終更新：2010年06月20日 01:55

ツールボックス

下から選んでください:

新しいページを作成する

ヘルプ / FAQ もご覧ください。

sakurawmemo @ ウィキ