| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1472 人关注过本帖
标题:求教,关于python正则表达式的问题
只看楼主 加入收藏
xzjy789
Rank: 1
等 级:新手上路
帖 子:2
专家分:0
注 册:2019-7-10
结帖率:0
收藏
已结贴  问题点数:10 回复次数:3 
求教,关于python正则表达式的问题
我在使用爬虫爬取网页源代码后,希望利用正则表达式提取出指定内容,具体情况如下:
网页源代码,其中红框内的文字是我要的内容
图片附件: 游客没有浏览图片的权限,请 登录注册

爬取网页的代码如下:
weburl="http://

req=urllib.request.Request(url=weburl)
response=urllib.request.urlopen(req)
content = response.read()
#获得系统的编码
type = sys.getfilesystemencoding()
#设置爬出内容的编码
content = content.decode(type)

求教各位大神,如何爬取我要的内容?如果可以,请写出完整的代码,不要只写正则表达式,小白一个,谢谢各位
搜索更多相关主题的帖子: python 正则表达式 网页 内容 request 
2019-07-10 08:36
wp231957
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:神界
等 级:贵宾
威 望:423
帖 子:13688
专家分:53332
注 册:2012-10-18
收藏
得分:10 
这类的使用正则 并不是最优选择

程序代码:
# coding: utf-8

import requests
from lxml import etree

agent = "Mozilla/5.0 (Windows NT 10.0; rv:68.0) Gecko/20100101 Firefox/68.0"
headers = {'User-Agent':agent}    
url="http://"
res = requests.get(url,headers=headers,timeout=5)
html = etree.HTML(res.text)
data=html.xpath("/html/body/dd[20]/span[1]/a")
print(data[0].text)

'''
e:\pytest>python ex6.py

                基于EKC的中国人均CO
                '''

DO IT YOURSELF !
2019-07-10 09:49
wp231957
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:神界
等 级:贵宾
威 望:423
帖 子:13688
专家分:53332
注 册:2012-10-18
收藏
得分:0 
回复 楼主 xzjy789
2楼代码有些问题 ,现在更换bs4 选择器
 
程序代码:

# coding: utf-8

import requests
from bs4 import BeautifulSoup as bs

agent = "Mozilla/5.0 (Windows NT 10.0; rv:68.0) Gecko/20100101 Firefox/68.0"
headers = {'User-Agent':agent}   
url="http://"
res = requests.get(url,headers=headers,timeout=5)
soup = bs(res.text, "lxml")
sp=soup.find_all("span",class_="name")
for x in sp:print(x.get_text())




DO IT YOURSELF !
2019-07-10 11:01
xzjy789
Rank: 1
等 级:新手上路
帖 子:2
专家分:0
注 册:2019-7-10
收藏
得分:0 
回复 4楼 wp231957
非常感谢,我也查询了一下,对于这类使用BS4是最优选择,谢谢使用BS4为我写了范例代码
2019-07-10 11:05
快速回复:求教,关于python正则表达式的问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.016549 second(s), 9 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved