| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2023 人关注过本帖
标题:用python匹配中文网页,匹配结果为空的问题
只看楼主 加入收藏
cloud_baby
Rank: 1
等 级:新手上路
帖 子:5
专家分:0
注 册:2010-4-1
结帖率:100%
收藏
已结贴  问题点数:0 回复次数:6 
用python匹配中文网页,匹配结果为空的问题
我想匹配http://www. 这个页面中的中间那段文字,结果我写了以下代码:

import httplib
import re
conn = httplib.HTTPConnection("www.)
conn.request("GET", "/cpdq/show.php?id=1000")
r1 = conn.getresponse()
data1 = r1.read()
keyword = (r'''<div class="f14" id="read_tpc">(.*?)</div>''',re.U)
a = re.findall(keyword,data1)
print a[0]
conn.close()

结果是a为空, 自然就没有a[0] 这个元素了。 但是我把网页源文件保存在文件里, 用读文件的方式去匹配, 却可以成功匹配,
请教下各位高手该怎么解决这个问题
搜索更多相关主题的帖子: 结果 中文 网页 python 
2010-04-01 13:56
外部三电铃
Rank: 16Rank: 16Rank: 16Rank: 16
来 自:那一年
等 级:贵宾
威 望:57
帖 子:2012
专家分:7306
注 册:2007-12-17
收藏
得分:10 
1、网页源码里面搜不到<div class="f14" id="read_tpc">,当然也就无法返回匹配项了
2、如果是匹配多行后面还得加上re.S

试一下下面的代码
程序代码:
import httplib
import re
conn = httplib.HTTPConnection("www.")
conn.request("GET", "/cpdq/show.php?id=1000")
r1 = conn.getresponse()
data1 = r1.read()
keyword = (r'''<td valign="top" class="black">(.*?)</td>''',re.U|re.S)
a = re.findall(keyword,data1)
print a[0]
conn.close()



[ 本帖最后由 外部三电铃 于 2010-4-1 14:23 编辑 ]

那一年,苍井空还是处女
2010-04-01 14:19
m4774411wang
Rank: 2
等 级:新手上路
威 望:3
帖 子:4
专家分:0
注 册:2010-4-1
收藏
得分:0 
我上次用urllib抓取网页然后匹配内容也碰到这个问题,我后来改了下写法:
    link = (r'([\d,]+)</a>')
    rank = 0
    try:
        QUERY_URL = "http://www.
        content = urllib.urlopen(QUERY_URL % site).read()
        webcontent = content.decode('utf-8')
        pos = webcontent.find(u'Alexa Traffic Rank:')
        rank = webcontent[pos+40:pos+150]
        rank = link.search(rank).group(1).replace(',','')
    except Exception,e:
        msg = '%s:%s,%s\n' % (time.strftime("%Y/%m/%d %H:%M:%S", time.localtime()),site,e)
        setinfo.faillog.write(msg)
        rank = 0
    return  site, rank
这次直接用的是字符串的find方法直接来取得要截取的内容的开始位置,然后再进行截取

老王python: http://提供大家喜欢看的python教程
2010-04-01 14:21
cloud_baby
Rank: 1
等 级:新手上路
帖 子:5
专家分:0
注 册:2010-4-1
收藏
得分:0 
回复 2楼 外部三电铃
想请您给我推荐一下,初学python该看什么书,我刚刚看了个PDF版本的《简明 Python 教程》 发现还是大大的不够
2010-04-01 14:24
外部三电铃
Rank: 16Rank: 16Rank: 16Rank: 16
来 自:那一年
等 级:贵宾
威 望:57
帖 子:2012
专家分:7306
注 册:2007-12-17
收藏
得分:0 
《python开发技术详解》
图片附件: 游客没有浏览图片的权限,请 登录注册



一本循规蹈矩的教程,500多页,当然没必要每个字都细细品读,根据自己的情况跳着看也行

不是打广告啊,我是在新华书店买的,小地方的新华书店可能没有,可以在网上买
http://www.{IdeaId}&ref=pd_sl_90u4t8mfya_e
http://product.

感觉这本书不能说好,也不能说坏,普普通通的一本教程书,讲了python的基础知识和相关的wxPython、Django等,这正是新手最需要的内容


[ 本帖最后由 外部三电铃 于 2010-4-1 14:38 编辑 ]

那一年,苍井空还是处女
2010-04-01 14:32
外部三电铃
Rank: 16Rank: 16Rank: 16Rank: 16
来 自:那一年
等 级:贵宾
威 望:57
帖 子:2012
专家分:7306
注 册:2007-12-17
收藏
得分:0 
《简明 Python 教程》很适合入门,心情好的时候可能1天就能看完

那一年,苍井空还是处女
2010-04-01 14:34
m4774411wang
Rank: 2
等 级:新手上路
威 望:3
帖 子:4
专家分:0
注 册:2010-4-1
收藏
得分:0 
回复 4楼 cloud_baby
可以去买本python学习手册第3版本对python入门非常有帮助。有时间可以上上老王python,里面都是我学习python的时候遇到问题记录下来的。
开源要多交流大家才能进步的比较快!

老王python: http://提供大家喜欢看的python教程
2010-04-01 14:41
快速回复:用python匹配中文网页,匹配结果为空的问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.035735 second(s), 10 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved