| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 6426 人关注过本帖, 1 人收藏
标题:版主,来改标题(快速提取电话号码)
取消只看楼主 加入收藏
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
结帖率:97.96%
收藏(1)
已结贴  问题点数:100 回复次数:33 
版主,来改标题(快速提取电话号码)
快速提取网页中的电话号码
要求 :
1. 给定一个网页或是一个网址,从网页文件中提取出电话号码放到一个txt文件中
2. 特殊电话号码不提取。例如:110,120,400****之类的电话
3. 提取手机号或者固定电话号。手机号11位,手机区号不需要;固定电话号码7位或8位,区号3位或4位,中间‘-’连接符可省略
4. 速度越快越好,但要保证一定的正确率,不要求100%能提取出所有合法的电话号码
5. 最后按执行速度和正确率给分
6. 对各个网页通用(该条属补充要求)
7. 想起来再补充

注:大家还有什么要补充的跟帖说明。

后记:去年还是前年,忘记了,应朋友邀请写了一个从网页或是网址中提取电话号码的一段小代码。当时随便一写,应付了事。速度非常慢,根据网页大小需要1-6分钟不等。今天突然想起来想看看那段代码,却又找不到了。正好发在这里给大家当个练习。
所以,我这个也没有标准答案。大家尽情发挥吧!!!

附测试文件:
桌面.rar (13.25 KB)


[ 本帖最后由 taohua300 于 2012-10-20 14:22 编辑 ]
搜索更多相关主题的帖子: 网页 电话号 固定电话 
2012-10-20 09:47
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
回复 2楼 sdta
我原来考虑的没有版主想象的那么复杂
(太复杂了也好,你说是不是)

这里仅仅是提取网页明文中的电话号码
至于连接,换页里的电话号码,不在本网页中,不予提取
如果这个问题也考虑到
最后的功能就相当强劲了

个性太多,无法显示
2012-10-20 13:27
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
回复 9楼 sdta
换页应该不算太难
之前夜来香大侠在梅子论坛有个例子用用到了换页
没有仔细看
大概是分析url,然后组合成正确的url再去发送http请求

但是,实际上我们并不知道哪个连接中有电话号码,也不是只对某个网站进行电话号码提取
我们要做的,是对某个网页或是url提取,做到对绝大多数网页都能使用该程序提取电话号码(不可能绝对是所有网页)
就这样

[ 本帖最后由 taohua300 于 2012-10-20 13:41 编辑 ]

个性太多,无法显示
2012-10-20 13:37
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
回复 7楼 TonyDeng
如果要换页,我同意T版这个说法

个性太多,无法显示
2012-10-20 13:37
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
回复 9楼 sdta
版主,快不快,要拿代码来说话

个性太多,无法显示
2012-10-20 13:43
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
以下是引用TonyDeng在2012-10-20 12:53:24的发言:

那是.htm,本身已是文本文件。只能逐页提取,因为翻页是动态的,数据在服务端传过来,不在本机。
对头,这两个网页实际上就是纯文本文件。
ie6 另存为时网页与网页里的元素是分开的
ie8 合并为一个mht文件
所以我在另存为的时候选择了“仅 HTML”这一项

这里也是着重于vfp对文本,字符串的处理
从“杂乱无章”的文本中得到想要的东西

个性太多,无法显示
2012-10-20 13:50
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
以下是引用TonyDeng在2012-10-20 13:43:08的发言:

如何换页,不同网站后台有不同的处理办法,未必总可以通过修改查询字符串能激发不同页面的。就这个问题而言,从另存下来的页面提取数据就可以了,而且幸好它的数据非常有规律,很好做的,不至于要花几分钟时间的啊。
可能我表达有误,分析url包括纯文本网页中的链接
这个已经不是要讨论的范围了

这两个网页是我现从网上找的
当时他发给我的网页的确需要“稍等”一会
这个一会可长可短
具体怎样
我没有详细测试
只是在大体得到正确结果后就给他了
正所谓“应付了事”

这个速度,可能跟网页有关
比如网页大小,网页内容的格式

[ 本帖最后由 taohua300 于 2012-10-20 13:57 编辑 ]

个性太多,无法显示
2012-10-20 13:55
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
回复 18楼 sdta
这个代码对另一个网页就不行了
应该通用

这属于我的错误
已在一楼补充(第6条)

另,只提取电话号码即可

个性太多,无法显示
2012-10-20 14:23
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
图片附件: 游客没有浏览图片的权限,请 登录注册

个性太多,无法显示
2012-10-20 15:02
taohua300
Rank: 12Rank: 12Rank: 12
来 自:光
等 级:贵宾
威 望:14
帖 子:1636
专家分:3906
注 册:2009-3-11
收藏
得分:0 
回复 22楼 TonyDeng
恭等T版代码

个性太多,无法显示
2012-10-20 15:04
快速回复:版主,来改标题(快速提取电话号码)
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.043977 second(s), 9 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved