《乱码大全》前面的各个部分中有很多是对汉字乱码进行分析的。除了《乱 码大全(3)》的综述外,HTML、Unicode 以及其他各种编码都有可能与汉字乱码有关。尽管如此,我们在日常的邮件来往中,仍然有很多乱码没有包括在上面的讨论中。这里将比较典型的情况归纳起来作为补充。
下面列举的几种编码中,日文 JIS 和韩文汉字编码是 7 位编码,其他是 8 位编码。这两种 7 位编码看上去很像,其他的编码之间也很像,并且和我们原来介绍过的 UTF-8 看上去也没有什么太明显的区别,因此只能通过试验来进行。下面先列举一下这些编码的例子:
日文 JIS 编码:[iso-2022-jp]
----------------------------
.$BF|KE*E_E7JBITB@Nd!$<)3n20N$6uD4L5O@E_2FET5kF@WLB-!$2f:#.(B
.$BG/E_E7>e?H@'0l7o30Ee2C0l8DMSLSGX?4!#=;K<@'0lI.Bg3+;Y!$2f.(B>
.$B8=:_E*K>AE@'.(B2.$Bh_.(B4.$B@i!$>JITN;!#G!2LM-I,MWVh0l:3.(B Windows 95
.$BOB.(B Office .$BGgkE*8wHW4T@'WLM-MQE*!#.(B
(其中的 ESC 字符已经用 "." 代替)
日文 Shift-JIS (SJIS) 编码:[shift_jis]
---------------------------------------
擔杮揑搤揤暲晄懢椻丆帶妿壆棦嬻挷柍榑搤壞搒媼摼渒懌丆変崱
擭搤揤忋恎惀堦審奜搮壛堦屄梤栄攚怱丅廧朳惀堦昅戝奐巟丆変
尰嵼揑朳慸惀2漭4愮丆徣晄椆丅擛壥桳昁梫涙堦嵄 Windows 95
榓 Office 攪為揑岝斦娨惀渒桳梡揑丅
日文 EUC 编码:[euc-jp]
-----------------------
泣塑弄胚欧事稍吕武·缉愁舶韦鄂拇痰侠胚财旁惦评滋颅·叉海
钳胚欧惧咳困办凤嘲佩裁办改陀逃秦看。交思困办僧络倡毁·叉
附哼弄思僚困2柽4篱·臼稍位。恰蔡铜涩妥骤办撼 Windows 95
下 Office 晴茈弄各茸丛困滋铜脱弄。
韩文 KSC 编码:[euc-kr]
-----------------------
祉茆钴韵舾?荇骷找,旎螃瑭嘴亡疣夙皱韵源绣责?痣,洳醒
掖韵舾呔泱憷扉遂桠鬟圣扉肆逑倬畚泯。瘳郛憷扉愚艘颞,洳
瞍钴郛鹫憷2乜4舳,帻荇瞩。妪妄牦椹俞扉蘖 Windows 95
Office 钕迤钴蚊陲憷?牦槟钴。
韩文 KSC-HZ(KHanzi) 编码:
-------------------------
.$(ClmbnTOt8!!twUR#,l;s&h)WlMvp`YmVeTOy>T4PeTp!!pk#,d2PQ.(B
.$(CR4TOt8_>csc@liKlhbw_J%liKAeOY>[Nc}!#q,[.c@liy6S^KRr(#,d2.(B
.$(Cz^n$n[.pUc@.(B2.$(CX?.(B4.$(Ct6#,`}tVu!#e}M}jsy1i)Sali^A.(B Windows 95
.$(C{z.(B Office .$(CnOeFnNCZo|=c@!!jsiDn!#.(B
(其中的 ESC 字符已经用 "." 代替)
上面这些编码的缩写中,JIS 代表 Japanese Industrial Standard、 EUC 代表 Extended Unix Code,ShiftJIS Macintosh 和 DOS-V 上的 8 位日语编码标准。JIS 和 KHanzi 都使用 ESC $... 序列来标识编码的部分。详细信息参见 Japanese Character Encoding for Internet Messages(rfc1468) 、[EUC-JP]、 [ISO-2022-JP]、Korean Character Encoding for Internet Messages(rfc1557)、 [KSC5601]、[EUC-KR] 等内容。