注册 登录
编程论坛 Python论坛

在爬取网站数据时突然发现网站不是用网址参数进行传递的,这可如何是好啊?

广水一中肖聪 发布于 2023-06-27 12:54, 658 次点击
网址如下:http://58.49.47.121:81/n_score/index.jsp
本来以为是将高考报名号、身份证号、验证码作为网址参数传递后打开新的网页显示成绩信息,没想到成绩查询页面的网址没有变化,那这样在查询的时候如何将高考报名号、身份证号、验证码信息告诉网站,让网站显示成绩信息后我好用find爬取所需数据呢?
5 回复
#2
sheeboard2023-06-27 13:33
抓包,看post包的内容,然后构造包发送到相应的webAPI上,响应包里就会有你要的数据,难点么是有些网站有反爬,比如会把时间和客户验证信息哈希用作token放在包头里来验证post包,需要找相应js来生成,相对requests,selenium简单多了,就是模拟人的操作,缺点是速度慢点。

[此贴子已经被作者于2023-6-27 13:53编辑过]

#3
阳光上的桥2023-06-27 15:25
首先,建议别碰这个网站,跟踪学习一下可以,玩坏了良心受不了,被逮到了后果很严重。

分析方法一:在浏览器按F12,打开网络,登录一下
分析方法二:查看源码,下载JS文件,看看按钮的事件和JS代码
#4
广水一中肖聪2023-06-28 12:18
回复 3楼 阳光上的桥
领导要求查询所有成绩,想做个自动查询的程序,学生太多,一个个输入得累死
#5
阳光上的桥2023-06-28 15:48
有验证码,可能难搞
#6
pvm20002023-06-28 18:20
回复 4楼 广水一中肖聪
各中学的高考成绩,应该是被分发下来的吧
1