讨论编译器是如何处理源文件编码的 - C语言论坛

问题点数：0 回复次数：0

讨论编译器是如何处理源文件编码的

近日从事Linux编程，反正是在windows下写程序，在Linux下编译运行，使我遇到了编码问题（特别是汉字编码），虽然知道了是编码的原因，但是仍然很是让人头大。
由此我又想到一个问题：假设编译器能识别ASCII和UTF-8两种编码的源文件，那么UTF-8编码的源文件里面：
1、char c = 'c';这是c是什么值？ASCII还是UTF8？
2、char sz[] = "abc";此时sz里面存储的是ASCII码还是UTF8码？
3、关键字、标识符等（如char，c，＝, sz）在编译过程中其词素（如标识符sz的字面值sz）又是如何编码？ASCII还是UTF8？

我在使用Pelles C（基于LCC，默认支持cp936编码的源文件）时，如下语句：
char c = '\xfe';
char c = 0xfe;
均出现警告，而且发生转换（用unsigned char也一样），而调试时发现这样的语句似乎未被执行。
如果我想要字节的0xfe似乎无法实现。

这个编码问题真的让我头大，所以想请大家一起来讨论一下，所谓理越辩越明嘛。

搜索更多相关主题的帖子: 编码　编译　文件