錕斤拷？UTF-8與GBK互轉(zhuǎn)，為什么會亂碼？

liang1234_ 2019-02-13

展開全文

作為一名程序員，肯定有被亂碼困擾的時候，真到了百思不得其解的時候，就會覺得：英文程序員真幸福。

但其實(shí)只要明白編碼之間的轉(zhuǎn)換規(guī)律，其實(shí)亂碼so easy~

我們知道，計(jì)算機(jī)存儲數(shù)據(jù)都是2進(jìn)制，就是0和1，那么這么多的字符就都需要有自己對應(yīng)的0和1組成的序列，計(jì)算機(jī)將需要存儲的字符轉(zhuǎn)換成它們對應(yīng)的01序列，然后就可以儲存在電腦里了。

比如我們可以定義用8位2進(jìn)制表示一個字符，“00000000”表示小寫字母“a”，“00000001”表示小寫字母“b”，那么計(jì)算機(jī)要存儲“ab”的時候，其實(shí)在計(jì)算機(jī)里的存儲的是“0000000000000001”，讀取的時候先讀取前8位，根據(jù)對應(yīng)關(guān)系，可以解碼出“a”，再讀取后8位，又可以解碼出“b”，這樣就讀出了當(dāng)時寫入的“ab”了。而我們定義的這種字符和二進(jìn)制序列的對應(yīng)關(guān)系，就可以稱之為編碼。我們?nèi)绻枰獙ⅰ癮b”發(fā)送給別人，因?yàn)榫W(wǎng)絡(luò)也是基于二進(jìn)制，所以只要先約定好編碼規(guī)則，就可以發(fā)送“0000000000000001”，然后對方根據(jù)約定的編碼解碼，就可以得到“ab”?，F(xiàn)在是互聯(lián)網(wǎng)的時代，我們經(jīng)常需要和其他的計(jì)算機(jī)進(jìn)行交互，一套編碼系統(tǒng)還是比較復(fù)雜的，所以大家就需要約定統(tǒng)一的編碼，這樣的編碼是大家都約定好的，就不用再去約定編碼規(guī)則了~然而，為了滿足各種不同的需求，人們還是制定了很多種編碼，沒有哪一種能全面替代其他編碼，所以現(xiàn)在多種編碼并存。通常這些編碼都被大家所接受和熟知，所以現(xiàn)在不用再通信前商量編碼的對應(yīng)規(guī)則和細(xì)節(jié)，只需要告訴對方，我采用的是什么通用編碼，彼此就能愉快地通信了。

所以亂碼的本質(zhì)就是：讀取二進(jìn)制的時候采用的編碼和最初將字符轉(zhuǎn)換成二進(jìn)制時的編碼不一致。

ps：編碼有動詞含義也有名詞含義，名詞含義就是一套字符和二進(jìn)制序列之間的轉(zhuǎn)換規(guī)則，動詞含義是使用這種規(guī)則將字符轉(zhuǎn)換成二進(jìn)制序列。

好了，廢話不多，直接上一段代碼：

[java]view
 plaincopy

import java.io.UnsupportedEncodingException;  

public class EncodingTest {  

    public static void main(String[] args) throws UnsupportedEncodingException {  

        String srcString = "我們是中國人";  

        String utf2GbkString = new String(srcString.getBytes("UTF-8"),"GBK");  

        System.out.println("UTF-8轉(zhuǎn)換成GBK："+utf2GbkString);  

        String utf2Gbk2UtfString = new String(utf2GbkString.getBytes("GBK"),"UTF-8");  

        System.out.println("UTF-8轉(zhuǎn)換成GBK再轉(zhuǎn)成UTF-8："+utf2Gbk2UtfString);  

    }  

}

因?yàn)閁TF-8和GBK是兩套中文支持較好的編碼，所以經(jīng)常會進(jìn)行它們之間的轉(zhuǎn)換，這里就以它們舉例。

以上代碼運(yùn)行打印出以下內(nèi)容：

UTF-8轉(zhuǎn)換成GBK：鎴戜滑鏄腑鍥戒漢
UTF-8轉(zhuǎn)換成GBK再轉(zhuǎn)成UTF-8：我們是中國人

我們看到，將"我們是中國人"以UTF-8編碼轉(zhuǎn)換成byte數(shù)組（byte數(shù)組其實(shí)就相當(dāng)于二進(jìn)制序列了，此過程即編碼），再以GBK編碼和byte數(shù)組創(chuàng)建新的字符串（此過程即以GBK編碼去解碼byte數(shù)組，得到字符串），就產(chǎn)生亂碼了。

因?yàn)?strong>編碼采用的UTF-8和解碼采用的GBK不是同一種編碼，所以最后結(jié)果亂碼了。

之后再對亂碼使用GBK編碼，還原到解碼前的byte數(shù)組，再使用和最初編碼時使用的一致的編碼UTF-8進(jìn)行解碼，就可得到最初的“我們是中國人”。

這種多余的轉(zhuǎn)換有時候還是很有用的，比如ftp協(xié)議只支持ISO-8859-1編碼，這個時候如果要傳中文，只能先換成ISO-8859-1的亂碼，ftp完成后，再轉(zhuǎn)回UTF-8就又可以得到正常的中文了。

怎么樣？編碼轉(zhuǎn)換是不是so easy？那該來點(diǎn)正經(jīng)的了：

[java]view
 plaincopy

import java.io.UnsupportedEncodingException;  

public class EncodingTest {  

    public static void main(String[] args) throws UnsupportedEncodingException {  

        String srcString = "我們是中國人";  

        String gbk2UtfString = new String(srcString.getBytes("GBK"), "UTF-8");  

        System.out.println("GBK轉(zhuǎn)換成UTF-8：" + gbk2UtfString);  

        String gbk2Utf2GbkString = new String(gbk2UtfString.getBytes("UTF-8"), "GBK");  

        System.out.println("GBK轉(zhuǎn)換成UTF-8再轉(zhuǎn)成GBK：" + gbk2Utf2GbkString);  

    }  

}

這次我們反過來，先將字符串以GBK編碼再以UTF-8解碼，再以UTF-8編碼，再以GBK解碼。

這次的運(yùn)行結(jié)果是：

GBK轉(zhuǎn)換成UTF-8：???????й???
GBK轉(zhuǎn)換成UTF-8再轉(zhuǎn)成GBK：錕斤拷錕斤拷錕斤拷錕叫癸拷錕斤拷

WTF？？萬惡的“錕斤拷”，相信不少人都見過。這里GBK轉(zhuǎn)成UTF-8亂碼好理解，但是再轉(zhuǎn)回來怎么變成了“錕斤拷錕斤拷錕斤拷錕叫癸拷錕斤拷”，這似乎不科學(xué)。

這其實(shí)和UTF-8獨(dú)特的編碼方式有關(guān)，由于UTF-8需要對unicode字符進(jìn)行編碼，unicode字符集是一個幾乎支持所有字符的字符集，為了表示這么龐大的字符集，UTF-8可能需要更多的二進(jìn)制位來表示一個字符，同時為了不致使UTF-8編碼太占存儲空間，根據(jù)二八定律，UTF-8采用了一種可變長的編碼方式，即將常用的字符編碼成較短的序列，而不常用的字符用較長的序列表示，這樣讓編碼占用更少存儲空間的同時也保證了對龐大字符集的支持。

正式由于UTF-8采用的這種特別的變長編碼方式，這一點(diǎn)和其他的編碼很不一樣。比如GBK固定用兩個字節(jié)來表示漢字，一個字節(jié)來表示英文和其他符號。

來測試一下：

[java]view
 plaincopy

import java.io.UnsupportedEncodingException;  

public class EncodingTest {  

    public static void main(String[] args) throws UnsupportedEncodingException {  

        String srcString = "我們是中國人";  

        byte[] GbkBytes = srcString.getBytes("GBK");  

        System.out.println("GbkBytes.length:" + GbkBytes.length);  

        byte[] UtfBytes = srcString.getBytes("UTF-8");  

        System.out.println("UtfBytes.length:" + UtfBytes.length);  

        String s;  

        for (int i = 0; i < srcString.length(); i++) {  

            s = Character.valueOf(srcString.charAt(i)).toString();  

            System.out.println(s + ":" + s.getBytes().length);  

        }  

    }  

}

運(yùn)行結(jié)果為：

GbkBytes.length:12
UtfBytes.length:18
我:3
們:3
是:3
中:3
國:3
人:3

可以看到使用GBK進(jìn)行編碼，“我們是中國人”6個漢字占12個字節(jié)，而是用UTF-8進(jìn)行編碼則占了18個字節(jié)，其中每個漢字占3個字節(jié)（由于是常用漢字，只占3個字節(jié)，有的稀有漢字會占四個字節(jié)。）

UTF-8編碼的讀取方式也比較不同，需要先讀取第一個字節(jié)，然后根據(jù)這個字節(jié)的值才能判斷這個字節(jié)之后還有幾個字節(jié)共同參與一個字符的表示。

對于某一個字符的UTF-8編碼，如果只有一個字節(jié)則其最高二進(jìn)制位為0；如果是多字節(jié)，其第一個字節(jié)從最高位開始，連續(xù)的二進(jìn)制位值為1的個數(shù)決定了其編碼的位數(shù)，其余各字節(jié)均以10開頭。UTF-8最多可用到6個字節(jié)。

如表：
1字節(jié) 0xxxxxxx
2字節(jié) 110xxxxx 10xxxxxx
3字節(jié) 1110xxxx 10xxxxxx 10xxxxxx
4字節(jié) 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字節(jié) 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字節(jié) 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
因此UTF-8中可以用來表示字符編碼的實(shí)際位數(shù)最多有31位，即上表中x所表示的位。除去那些控制位（每字節(jié)開頭的10等），這些x表示的位與UNICODE編碼是一一對應(yīng)的，位高低順序也相同。
實(shí)際將UNICODE轉(zhuǎn)換為UTF-8編碼時應(yīng)先去除高位0，然后根據(jù)所剩編碼的位數(shù)決定所需最小的UTF-8編碼位數(shù)。
因此那些基本ASCII字符集中的字符（UNICODE兼容ASCII）只需要一個字節(jié)的UTF-8編碼（7個二進(jìn)制位）便可以表示。

上面一隨便看看就好，只要知道“由于UTF-8的特殊編碼方式，所以有些序列是不可能出現(xiàn)在UTF-8編碼中的”就可以了。

所以當(dāng)我們將由GBK編碼的12個字節(jié)試圖用UTF-8解碼時會出現(xiàn)錯誤，由于GBK編碼出了不可能出現(xiàn)在UTF-8編碼中出現(xiàn)的序列，所以當(dāng)我們試圖用UTF-8去解碼時，經(jīng)常會遇到這種不可能序列，對于這種不可能序列，UTF-8把它們轉(zhuǎn)換成某種不可言喻的字符“?”，當(dāng)這種不可言喻的字符再次以UTF-8進(jìn)行編碼時，他們已經(jīng)無法回到最初的樣子了，因?yàn)槟切┦荱TF-8編碼不可能編出的序列。然后這個神秘字符再轉(zhuǎn)換成GBK編碼時就變成了“錕斤拷”。當(dāng)然，還有很多其他的巧合，可能正好碰到UTF-8中存在的序列，甚至原本不是一個字符的字節(jié)，可能是某個字的第二個字節(jié)和下一個字的兩個字節(jié)，正好被識別成一個UTF-8序列，于是解碼出一個漢字，當(dāng)然這些在我們看來都是亂碼了，只不過不是“錕斤拷”的樣子。因?yàn)椴豢赡苄蛄懈毡榇嬖?，所以GBK轉(zhuǎn)UTF-8再轉(zhuǎn)GBK時，最常見的便是“錕斤拷”！

所以：以非UTF-8編碼編碼出的字節(jié)數(shù)組，一旦以UTF-8進(jìn)行解碼，通常這是一條不歸路，再嘗試將解碼出的字符以UTF-8進(jìn)行編碼，也無法還原之前的字節(jié)數(shù)組。

相反地，其他的固定長度編碼幾乎都可以順利還原。

=====================2016/11/15補(bǔ)充==========================

上文中其實(shí)有一個東西一直在回避，就是既然所有字符在保存時都需要轉(zhuǎn)換成二進(jìn)制，那么java是使用什么編碼來保存字符的呢？這個問題其實(shí)我們可以不必深究，因?yàn)檫@對我們是透明的，我們只要假設(shè)java使用某種編碼可以表示所有字符。得益于這種透明，我們可以當(dāng)作java是直接保存字符本身的，就如上文所做的這樣。但是今天面試的時候被問到了，我說這個是對我們透明所以沒有深究。他說雖然是透明的，但是如果弄懂其中的原理還是能加深理解。我馬上想到unicode，因?yàn)閖ava要準(zhǔn)確地表示所有字符，那么只有unicode能勝任了。這個回答也得到面試官的肯定，還說了一些更細(xì)節(jié)的。每種編碼都會提供和unicode編碼之間的轉(zhuǎn)換規(guī)則。當(dāng)我們以字符串直接量new一個String，這個String就是以unicode在內(nèi)存中存儲的。同樣這也解決了一個讓我疑惑的問題：為什么一個char中既可以存儲一個字母，也可以存儲一個漢字，明明很多編碼如GBK、UTF-8中漢字和字母的長度不一樣。如果java虛擬機(jī)使用unicode編碼，那這一切就很好理解了，字母和漢字長度一樣。

新增一條結(jié)論：java虛擬機(jī)中以使用unicode編碼保存字符，任何編碼都提供了和unicode編碼的轉(zhuǎn)換規(guī)則。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： liang1234_ > 《關(guān)于編碼》

舉報(bào)/認(rèn)領(lǐng)