讨论编译器是如何处理源文件编码的
近日从事Linux编程,反正是在windows下写程序,在Linux下编译运行,使我遇到了编码问题(特别是汉字编码),虽然知道了是编码的原因,但是仍然很是让人头大。由此我又想到一个问题:假设编译器能识别ASCII和UTF-8两种编码的源文件,那么UTF-8编码的源文件里面:
1、char c = 'c';这是c是什么值?ASCII还是UTF8?
2、char sz[] = "abc";此时sz里面存储的是ASCII码还是UTF8码?
3、关键字、标识符等(如char,c,=, sz)在编译过程中其词素(如标识符sz的字面值sz)又是如何编码?ASCII还是UTF8?
我在使用Pelles C(基于LCC,默认支持cp936编码的源文件)时,如下语句:
char c = '\xfe';
char c = 0xfe;
均出现警告,而且发生转换(用unsigned char也一样),而调试时发现这样的语句似乎未被执行。
如果我想要字节的0xfe似乎无法实现。
这个编码问题真的让我头大,所以想请大家一起来讨论一下,所谓理越辩越明嘛。