| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2489 人关注过本帖
标题:求助大神关于python爬虫的问题
取消只看楼主 加入收藏
LllSong
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2019-12-26
结帖率:0
收藏
 问题点数:0 回复次数:2 
求助大神关于python爬虫的问题
刚学python,不太会爬虫,现在想要爬取古诗文网的古诗的标题和正文,希望大佬帮忙看一下,跪谢
程序代码:
import requests
import re
from bs4 import BeautifulSoup
rex1=(r'\(.*?\)')
for i in range(1):
    url='http://www.'+str(i+1)
    web_data = requests.get(url)
    soup=BeautifulSoup(web_data.text,'lxml')
    context=soup.select('div[class="main3"]')[0].select('div[class="typeleft"]')[0].select('div[class="sons"]')
    title=context[0].select('strong')[0].text
    print(title)

这个是想要爬取标题的,但是只能抓到乱码,如图
图片附件: 游客没有浏览图片的权限,请 登录注册

然后网站是这样的
图片附件: 游客没有浏览图片的权限,请 登录注册

如果我想爬取这个正文的画应该怎么写代码呢?
图片附件: 游客没有浏览图片的权限,请 登录注册

跪谢!!!!

[此贴子已经被作者于2019-12-26 22:58编辑过]

搜索更多相关主题的帖子: python select 爬虫 import div 爬虫 import select python div 
2019-12-26 22:50
LllSong
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2019-12-26
收藏
得分:0 
回复 4楼 wp231957
谢谢大佬,我又有了新的问题
我现在的代码是这样的
import requests
import re
from bs4 import BeautifulSoup as bs
rex1=(r'\(.*?\)')
for i in range(3):
    url='http://www.'+str(i+1)
    web_data=requests.get(url)
    html=str(web_data.content,'utf-8')
    soup=bs(html,'lxml')
    contents=soup.select('div[class="main3"]')[0]
    contents=contents.select('div[class="main3"]')[0]
    contents=contents.select('div[class="typeleft"]')[0]
    contents=list(contents.select('div[class="sons"]'))
    for c in contents:
        title=c.select('p')[0].text
        title=title.strip().replace('\n','')
        text=c.select('p')[2].text
        text=text.strip().replace('\n','')
        text=text.replace('...','')
        print(title)
        print(text)
我想要去掉多余的空格和换行
但是得到的结果是这样的
图片附件: 游客没有浏览图片的权限,请 登录注册

而原来的是这样的
图片附件: 游客没有浏览图片的权限,请 登录注册

请问这个应该怎么解决呢?
2019-12-27 14:12
LllSong
Rank: 1
等 级:新手上路
帖 子:9
专家分:0
注 册:2019-12-26
收藏
得分:0 
回复 7楼 wp231957
谢谢谢谢
2019-12-27 16:48
快速回复:求助大神关于python爬虫的问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.027848 second(s), 10 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved