| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 3074 人关注过本帖
标题:关于正则表达式匹配网页图片地址的问题
只看楼主 加入收藏
ID不见了
Rank: 1
等 级:新手上路
帖 子:58
专家分:0
注 册:2016-5-10
结帖率:83.33%
收藏
已结贴  问题点数:20 回复次数:3 
关于正则表达式匹配网页图片地址的问题
我想获取这个网页里面的狗的所有图片,写了一个正则想匹配图片的地址,可是不知道为什么匹配不出结果,下面是小代码,求助各位大神
程序代码:
#!/usr/bin/python
# _*_ coding:utf-8 _*_

import re
import urllib

geturl = urllib.urlopen('http://tieba.baidu.com/p/4570256150')
urlcode = geturl.read()
imgre = r'src="(.*?fm=\d{3})"'
img = re.findall(imgre,urlcode)
print img
显示的结果是空的列表。。
我试过把图片地址直接复制下来匹配,是可以匹配成功的,为什么在原代码中就不行呢?
搜索更多相关主题的帖子: 表达式 图片 网页 
2016-09-26 00:32
飞奔的大蟒
Rank: 3Rank: 3
等 级:论坛游侠
威 望:1
帖 子:13
专家分:100
注 册:2015-11-26
收藏
得分:20 
跟我当年犯得错误一样,抓取网页提取网页里面的元素,用正则是下下策。

用pyquery,提取网页里的dom元素才是正道。

https://pypi.
2016-09-26 17:26
飞奔的大蟒
Rank: 3Rank: 3
等 级:论坛游侠
威 望:1
帖 子:13
专家分:100
注 册:2015-11-26
收藏
得分:0 
打开浏览器,按下F12就知道什么是dom了
图片附件: 游客没有浏览图片的权限,请 登录注册


网页中的div啦,table啦,img啦,要把这些标签当成对象,不要当成文本
2016-09-26 17:32
ID不见了
Rank: 1
等 级:新手上路
帖 子:58
专家分:0
注 册:2016-5-10
收藏
得分:0 
回复 3楼 飞奔的大蟒
好的 非常感谢,我回去学一下
2016-09-27 09:17
快速回复:关于正则表达式匹配网页图片地址的问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.019229 second(s), 10 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved