老宅筆記本
工作經驗筆記
2014-07-15
偵測檔案使用的編碼是Utf-8或Big5-新版
前一篇文章討論到如何偵測檔案的編碼方式,但由於還是有很小的機會會誤判,心裡總是有疙瘩在,不確定廠商到底會丟怎樣的資料來(
廠商的代名詞就是腦X
),而且訂單XML內中文字的數量很少,若只有一筆,很可能只有三個中文字而已,於是從utf-8是如何編碼開始研究起。
沒想到規則意外的簡單,因為我不須知道太詳細的細節,只需知道幾個重點:
只要是0開頭的byte就表示是ascii編碼,也就是0xxxxxxx後面的七碼x相容於傳統ascii編碼
非ascii編碼,一律以1開頭再接0,並且最少兩個1
1的數量指出這個字是由幾個byte所組成,如1110xxxxx表示這個字要3個byte
其後每個子byte都為10開頭
最多每個字4個byte
閱讀更多 »
偵測檔案使用的編碼是Utf-8或Big5
使用程式處理文字檔,最麻煩的就是要選擇開啟檔案時所採用的編碼方式。在台灣常見的就是utf-8或是big5兩種編碼,只要選錯了,那麼檔案裡面的中文字99.999%以上會變成亂碼或是莫名其妙的中文字。這也是非英語系國家的痛啊!
閱讀更多 »
較新的文章
較舊的文章
首頁
訂閱:
文章 (Atom)