注册 登录
编程论坛 Python论坛

关于正则表达式匹配网页图片地址的问题

ID不见了 发布于 2016-09-26 00:32, 3202 次点击
我想获取这个网页里面的狗的所有图片,写了一个正则想匹配图片的地址,可是不知道为什么匹配不出结果,下面是小代码,求助各位大神
程序代码:
#!/usr/bin/python
#
_*_ coding:utf-8 _*_

import re
import urllib

geturl = urllib.urlopen('http://tieba.baidu.com/p/4570256150')
urlcode = geturl.read()
imgre = r'src="(.*?fm=\d{3})"'
img = re.findall(imgre,urlcode)
print img
显示的结果是空的列表。。
我试过把图片地址直接复制下来匹配,是可以匹配成功的,为什么在原代码中就不行呢?
3 回复
#2
飞奔的大蟒2016-09-26 17:26
跟我当年犯得错误一样,抓取网页提取网页里面的元素,用正则是下下策。

用pyquery,提取网页里的dom元素才是正道。

https://pypi.
#3
飞奔的大蟒2016-09-26 17:32
打开浏览器,按下F12就知道什么是dom了
只有本站会员才能查看附件,请 登录


网页中的div啦,table啦,img啦,要把这些标签当成对象,不要当成文本
#4
ID不见了2016-09-27 09:17
回复 3楼 飞奔的大蟒
好的 非常感谢,我回去学一下
1