求：解析html entity的VFP优雅算法。 - VFP论坛

问题点数：0 回复次数：3

求：解析html entity的VFP优雅算法。

*--------------------
源字符串（html entity）：

&#36825;&#26159;&#19968;&#20010;&#20363;&#23376;&#44;&#116;&#104;&#105;&#115;&#32;&#105;&#115;&#32;&#97;&#32;&#101;&#120;&#97;&#109;&#112;&#108;&#101;

目标字符串（UTF16-LE或UTF-8）：
这是一个例子,this is a example
*--------------------

算法本身其实也不复杂。唯，html entity的英文字符其实是ANSI（能兼容UTF-8），故而将目标字符串统一转换为UTF-8，可能会更方便、也更合理一些。

因源字符是Unicode BE的十进制值，故而整个算法需执行几次转换：
1、遍历源字符串，STREXTRACT( )；
2、循环，逐字判断中英文，若英文，直接chr( )；
3、若中文：UTF16-BE数值 TO UTF16-LE数值；
4、统一转为UTF-8。

网上抄的Python，只需一个如此简单的函数：
def convHTML(string):
hexL = [hex(int(c.strip('&#;'))).replace('0x', '') for c in string.split(';&#')]
return bytes.fromhex(' '.join(hexL)).decode('utf-16be')

故而，有些好奇，VFP能否逼出一个类似的特别优雅的转换函数？

搜索更多相关主题的帖子: 转换　算法　 VFP　字符串　 html　

第 2 楼

得分:0

以下是引用csyx在2022-12-10 11:24:32的发言：
以我的能力，只能做到这个地步

抱歉，此函数可能存在一点问题：

Html Entity用在网页代码之中，其实最主要目的，是拿来生成“极生僻字”，即：在UCS双字节编码范围之外（必然也是在ANSI双字节编码范围之外）的多字节UTF-16编码；这些偏僻字编码的字符，STRCONV(x, 6)只会得到“??”。更稳妥的处置方式是 Y = STRCONV(x, 10)，然后将结果strtofile(Y, "UTF8.txt")，或直接显示到Unicode控件中。

其次，Html Entity编码，最常见的形式，是穿插在正常的UTF-8字符中间，而非通篇都是&#...;，比方说：

这是Html Entity编码最常用的形式：&#9779;为震，&#9780;为巽，上震下巽就是&#19935;恒卦。

[此贴子已经被作者于2022-12-10 12:05编辑过]

第 3 楼

得分:0

以下是引用吹水佬在2022-12-10 14:48:24的发言：

原来是算挂的

失礼失礼，那是随手从网上复制/粘贴的示例，见笑啦。

第 4 楼

得分:0

先生批评得极是！
确实，经常会遇到的是lt、gt、nbsp……，若想完整解析Html Entity，就不得不照顾到一长串的列表。
Html Entity一般常用于HTML网页当中。
HTML网页一般常用UTF-8编码。
近年来的HTML网页，一般情况下，极少极少再会用gbk、gb2312了。
故而会有"Html Entity" To "UTF-8"相互转换的想法。
不知有没留意到，本论坛的php程序恰恰是“Html Entity敏感”的，发帖时甚至难以正常显示Html Entity源编码。我输入：

这是Html Entity编码最常用的形式：&#9779;为震，&#9780;为巽，上震下巽就是&#19935;恒卦。

你一引用，就会自动解析为：
这是Html Entity编码最常用的形式：☳为震，☴为巽，上震下巽就是䷟恒卦。
这也间接证明了Html Entity编码的常用性、易用性以及普及性。

以下是引用csyx在2022-12-10 22:37:25的发言：
1. 你一楼的需求就不明确，没说只有生僻字才用 Html Entity 编码。没有哪个网页会将英文字符也写成这种编码格式
2. 如果是用于网页，当没有指定中文(gbk, gb2312)编码的情况下，所有中文都要用 Html Entity 编码来表示，而非仅生僻字
3. 如果是想将 Html Entity 编码的字符显示成解码后的字符，一楼的 py 代码也不一定正确，我没用过 py 无法验证
   a. 网页中不光有 &#NNNNN 形式的 Html Entity，很多基本的 ascii 字符都需要，例如 < 就要写成 <，空格写  ，...
   b. 随便找一个其他的生僻字，例如：𠁰, Html Entity = &#１３１１８４;
   你试试一楼的 py 代码能否正确解码？