| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 637 人关注过本帖, 1 人收藏
标题:网页数据抓取状态代码问题
取消只看楼主 加入收藏
igaoyuan
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:103
专家分:112
注 册:2022-12-19
结帖率:100%
收藏(1)
已结贴  问题点数:20 回复次数:3 
网页数据抓取状态代码问题
学习网页数据抓取,天眼查https://www.这个网站有些难度(还有类似https://aiqicha.baidu.com/)

1、输入关键词“华为”,获取请求 URL: https://www.,状态代码显示200
图片附件: 游客没有浏览图片的权限,请 登录注册


2、代码
程序代码:
CLEAR 
lcWb = '华为'    &&keywords    
lcWb1 = STRCONV(STRCONV(lcWb, 9), 15)
* 转换为UTF8编码
lcUTF8 = ""
FOR ln = 1 TO LEN(lcWb1) STEP 2
    lcUTF8 = lcUTF8 + "%" + SUBSTR(lcWb1, ln, 2)
ENDFOR
myurl = 'https://www.'  &&"https://aiqicha.baidu.com/s?q=&lcUTF8"

oHTTP = CREATEOBJECT("MSXML2.ServerXMLHTTP") 
oHTTP.Open("GET", myurl, .F.)
OHTTP.SETREQUESTHEADER("Content-Type", "application/x-www-form-urlencoded")
lcSend = "erectDate=&nothing=&pjname=" + lcUTF8 + "&head=head_620.js&bottom=bottom_591.js"

oHTTP.Send(lcSend)
? oHTTP.Status
IF oHTTP.Status = 200
    lcStr = oHTTP.ResponseText                           &&网页内容存入lcstr
    STRTOFILE(lcStr,'D:\ex.txt')                               &&调试语句:将下载的网页存为D:\ex.txt
ENDIF 


3、实际状态代码返回418

4、网址搜索后自动挂上一段变化码&sessionNo=1674728807.71143526,与此有关吗?
https://www.
搜索更多相关主题的帖子: https 代码 com 状态 网页 
2023-01-26 18:43
igaoyuan
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:103
专家分:112
注 册:2022-12-19
收藏
得分:0 

厉害厉害!果然行!!果然行!!!

有个疑问:
myurla = 'https://www.' + lcUTF8
myurlb = 'https://www.'
?myurla
?myurlb
字符串结果是一样的,但是结论却不一样,啥原因?
2023-01-26 19:57
igaoyuan
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:103
专家分:112
注 册:2022-12-19
收藏
得分:0 
如果查询关键字使用数字或英文(如搜索huawei),两种方式都可行,中文可能比较特殊,虽然字符串一致...
2023-01-26 20:34
igaoyuan
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:103
专家分:112
注 册:2022-12-19
收藏
得分:0 
回复 2楼 sdta
感谢!感谢!!
2023-01-26 21:36
快速回复:网页数据抓取状态代码问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.653463 second(s), 10 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved