“漢字”在日本,韩国,越南的几种叫法
CJKV,是漢語(Chinese)、日語(Japanese)、韓語(Korean)、越南語(Vietnamese)的集合名詞,其也組成了主要的東亞語言。CJKV這名詞主要應用於軟體產業與國際化與本地化領域。CJKV的順序是拉丁字母順序。在越南語加入之前,舊稱CJK(即中韓日用字)。對於較早廢止漢字,而曾使用過漢字及本民族類漢字文字—喃字的越南語方塊文字進入CJKV編碼較晚。用語的使用頻度以CJK較多。不過,隨着越文漢字、喃字加入該計劃,CJKV的稱呼開始使用。
中韓日越這四個語言中皆有共同的特色,即其文字皆完全或部份的使用了漢字,即中文的漢字、中國少數民族的表意文字,如部分方塊壯字、日文漢字(kanji)、韓文漢字(한자 / hanja)、越南的喃字(Chữ Nôm)、越文漢字(Chữ Nho,在越南也稱作儒字)。漢字在中文裏是唯一的文字系統,在一般的文書中常用字約為四千字(據統計,1000個常用字能覆蓋約92%的書面資料,2000字可覆蓋98%以上,3000字時已到99%),字數總數則多達四萬字以上(清朝的《康熙字典》收字47,035個、台灣的《中文大字典》收字49,905個、《漢語大字典》收字54,678個、《中華字海》,收字85000個)。日文漢字的數量則少了許多,在一般的文書中常用的漢字約為二千字左右。在韓語裏漢字則有越來越罕用的趨勢(可參見漢字廢止主題)。
中韓日越所使用的這些漢字總數,使用僅能呈現256字元的八位元字元編碼系統自然是不足,至少必須使用十六位元固定寬度的字元編碼、或是多位元可變長度的字元編碼系統才能包含所有的漢字數量。十六位元固定寬度的字元編碼(例如 Unicode 2.0 以及 2.0 之前的版本)目前已不再採用,取而代之的是可以包含更多的漢字的編碼方式,例如 Unicode 5.0 包含了多達7萬多的漢字,以及中華人民共和國政府現今所使用的GB18030字集。
即使中日越韓的編碼具有共通的字集,然而用以呈現這些字集的常用編碼方式是由各國政府以及軟體公司所各自獨立發展,並且彼此間並不相容。Unicode嘗試著將這些不同的字集加以統一,即所謂的 Han unification(中日韓統一表意文字、或稱中韓日越統一表意文字)。