文字コード

 エディタの内部コードはUTF-16です。サロゲートペアにはたいだい対応しています。

編集画面

サロゲートペアには対応しています。
2000, XP で、一部の言語の表示がおかしい場合、FontLinkの設定(レジストリ操作)が必要です。
プロポーショナルフォントには未対応です。
右書き(rtl)・合成文字・Unicode制御文字などには未対応です。

ファイルの読み込み

Shift_JIS(CP932), EUC-JP
  • 仕様によりNEC/IBM拡張漢字一部文字が双方向変換できないため、それらの文字が発見されると読み取り専用になります。
  • EUC-JPは、CP932に一度変換されてから、OSのコンバータでUTF-16LEに変換されます。
UTF-8
  • 不正シーケンスは、U+D800からU+D8FFのサロゲート断片に変換されます。
CEUS-8
  • おそらくUTF-8に同じ。ただし、サロゲートペアは、CEUSの規則に従って変換されます。
UTF-16LE/UTF-16BE
  • ファイルが奇数バイトの場合は、最後の文字の上位8bitに0を割り当てて、偶数バイトにするらしい
IS-2022-JP
  • 未調査
UTF-7
  • 未調査

ファイルの書き出し

Shift_JIS(CP932), EUC-JP
  • 表現不能なワイド文字がある場合、?に変換されるらしい
  • EUC-JPは、CP932に一度変換されてから、OSのコンバータでUTF-16LEに変換されます。
UTF-8
  • U+D800からU+D8FFのサロゲート断片は、元のバイトシーケンスに変換されます。
CEUS-8
  • UTF-8に同じ
UTF-16LE/UTF-16BE
  • ファイルが奇数バイトだったときでも、読み込み時の影響で偶数バイトになるらしい
IS-2022-JP
  • 未調査
UTF-7
  • 未調査

不正データ類の保持

サクラ上のU+D800からU+D8FFのサロゲート断片は ?XX と表示され半角扱いになります。
正常なサロゲートペアはそれなりに扱います。(並び順依存)

コードポイント表示

[共通設定]に、エンコードごとにステータスに表示されるコードポイントの指定オプションがあります。

デフォルトエンコード指定

[タイプ別設定]-[支援]に、タイプ別ごとのデフォルト指定があります。
※Grepも、そのウィンドウに適用されているタイプ別設定に依存して文字コード判別をします。

関連:
エンコーダー/デコーダー周りについて Rev:1553 PatchUnicode:2478365

タグ:

+ タグ編集
  • タグ:
最終更新:2010年06月20日 01:55
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。