| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2019 人关注过本帖
标题:萌新遇到难题,求大佬帮解,实在不知道哪里越界了
取消只看楼主 加入收藏
方云
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2019-7-7
结帖率:100%
收藏
已结贴  问题点数:20 回复次数:5 
萌新遇到难题,求大佬帮解,实在不知道哪里越界了
图片附件: 游客没有浏览图片的权限,请 登录注册

就这个,我主要是想用爬虫urllib去试手将QQ视频的评论全爬下来
结果
图片附件: 游客没有浏览图片的权限,请 登录注册

萌新想知道到底是越界了还是别的原因,是不是因为这个评论超长已经超出限度了
不知道有没有大佬愿意给我点解决方案
下面是我要爬的第一个页面的网页源代码
图片附件: 游客没有浏览图片的权限,请 登录注册

请问大佬是不是这代码真长的离谱
搜索更多相关主题的帖子: 源代码 越界 难题 页面 网页 
2019-09-14 20:18
方云
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2019-7-7
收藏
得分:0 
这是代码

import urllib.request
import re


vid="vbb35hm6m6da1wc"
cid=""

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
         "Content-Type":"application/javascript",
         }
opener=urllib.request.build_opener()
headall=[]
for key,value in headers.items():
    item=(key,value)
    headall.append(item)
opener.addheaders=headall
urllib.request.install_opener(opener)
for j in range(0,100):
    #爬去当前页面
    print("第"+str(j)+"页")
    thisurl='https://video.coral.'
    data=urllib.request.urlopen(thisurl).read().decode("utf-8")
    titlepat='"title":"(.*?)","abstract":"(.*?)"'
    commentpat='"content":"(.*?)"'
    titleall=(titlepat,re.S).findall(data)
    commentall=(commentpat,re.S).findall(data)
    lastpat='"last":"(.*?)"'   
    cid=(lastpat,re.S).findall(data)[0]
    for i in range(0,len(titleall)):
        try:
            print("评论标题是:"+eval('u"'+titleall[i]+'"'))
            print("评论标题是:"+eval('u"'+commentall[i]+'"'))
            print("------")
        except Exception as err:
            print(err)
 


[此贴子已经被作者于2019-9-14 20:29编辑过]

2019-09-14 20:23
方云
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2019-7-7
收藏
得分:0 
%20应该是+,实在不知道怎么变了,呜呜
2019-09-14 20:30
方云
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2019-7-7
收藏
得分:0 
回复 5楼 陈精的梅先生
try不行的。我之前改过,就是警告消失了,超过范围仍然还在
图片附件: 游客没有浏览图片的权限,请 登录注册

2019-09-16 18:47
方云
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2019-7-7
收藏
得分:0 
回复 4楼 fall_bernana
谢谢,可是解决了还是没办法爬下来,心好累
2019-09-16 18:50
方云
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2019-7-7
收藏
得分:0 
回复 8楼 fall_bernana
https://video.coral.
第一页地址,目的是爬取里面编码隐藏的评论,解码用u‘。。’,就这样一页一页爬
第二页地址
https://video.coral.
content 与title是标题和内容
abstract后影藏内容
last:后是爬下一页评论地址的关键代码
2019-09-17 23:02
快速回复:萌新遇到难题,求大佬帮解,实在不知道哪里越界了
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.016528 second(s), 10 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved