| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2664 人关注过本帖
标题:又来求助各位老师了,这个网页的数据如何采集?
只看楼主 加入收藏
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
结帖率:93.88%
收藏
已结贴  问题点数:20 回复次数:25 
又来求助各位老师了,这个网页的数据如何采集?
又来求助各位老师了,这个网页的数据如何采集?能不能把所有学科的评估数据都采集下来,谢谢,有点贪心了
https://souky.
我查看网页源码,上面只有哲学的
view-source:https://souky.

[此贴子已经被作者于2021-6-12 05:51编辑过]

搜索更多相关主题的帖子: 数据 采集 老师 网页 api 
2021-06-12 02:23
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:335
帖 子:9828
专家分:27145
注 册:2012-2-5
收藏
得分:0 
在源文件的下面找

坚守VFP最后的阵地
2021-06-12 07:11
吹水佬
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:451
帖 子:10570
专家分:43038
注 册:2014-5-20
收藏
得分:0 
https://souky.
https://souky.
2021-06-12 07:14
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
正在研究,烧脑
https://souky.55&flag=3
这个参数改变各个学科
2021-06-12 10:16
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
view-source:https://souky.
2021-06-12 20:13
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:335
帖 子:9828
专家分:27145
注 册:2012-2-5
收藏
得分:0 
这个网页是不是不稳定,长时间打不开

坚守VFP最后的阵地
2021-06-13 11:23
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:335
帖 子:9828
专家分:27145
注 册:2012-2-5
收藏
得分:10 
XKPG.rar (20.9 KB)

下载一次后,网页就要有一段时间打不开了

程序代码:
CLEAR 
t1 = SECONDS()
CREATE CURSOR 学科查询 (序号 C(4), 学校代码 C(5), 学校名称 C(20), 评估结果 C(2), 学科分类 N(3))
FOR lnk = 1 TO 111
    cUrl = "https://souky. + TRANSFORM(lnk) + "&flag=1&" + SUBSTR(SYS(2015), 2)
    lcText = GETURL(cUrl)
    FOR lnj = 9 TO ALINES(laText, lcText, '"},[{"', '},{"', '":', ',"') STEP 16
        INSERT INTO 学科查询 VALUES (&laText[lnj + 1], &laText[lnj + 5], &laText[lnj + 7], &laText[lnj + 9], lnk)
    ENDFOR
ENDFOR 
? SECONDS() - t1
BROWSE 
FUNCTION GETURL(cUrl)
    LOCAL objScrCtl As Object, cText As String  
    oHttp = CREATEOBJECT("WinHttp.WinHttpRequest.5.1")
    oHttp.Open("GET", cUrl, .F.)
    OHTTP.SETREQUESTHEADER("Content-Type", "text/html; charset=UTF-8")
    oHttp.Send()
     cText = oHttp.ResponseText
    * 解码
    objScrCtl = CreateObject("MSScriptControl.ScriptControl")
    objScrCtl.Language = "Javascript"
    cText = objScrCtl.Eval("unescape('" + cText + "')")
    RELEASE oHttp, objScrCtl
    RETURN cText
ENDFUNC 

坚守VFP最后的阵地
2021-06-13 12:33
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:335
帖 子:9828
专家分:27145
注 册:2012-2-5
收藏
得分:0 
应该是下面的结果吧
图片附件: 游客没有浏览图片的权限,请 登录注册

坚守VFP最后的阵地
2021-06-13 13:21
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
回复 8楼 sdta
是的,老师,应该是后一种效果,谢谢
2021-06-13 14:18
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:335
帖 子:9828
专家分:27145
注 册:2012-2-5
收藏
得分:0 
楼主提供的网址,下载一次后,网页2小时打不开,又找了一个网址:https://www.
xkcx.rar (26.17 KB)

坚守VFP最后的阵地
2021-06-13 14:46
快速回复:又来求助各位老师了,这个网页的数据如何采集?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.018042 second(s), 9 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved