| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 3163 人关注过本帖, 1 人收藏
标题:老师好,这个网页的采集入口如何找,谢谢
只看楼主 加入收藏
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
回复 10楼 sdta
老师,真是太厉害了
2021-05-22 16:37
吹水佬
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:451
帖 子:10607
专家分:43182
注 册:2014-5-20
收藏
得分:0 
有些学校的“类中所含专业”数据不完整
查看了源代码也有注释:<!-- 用jstl的fn标签库对传过来的专业中的'、'进行替换成<br/> -->
这部分数据只转存了254个字符,有缺失或有乱码字符
如:
图片附件: 游客没有浏览图片的权限,请 登录注册

图片附件: 游客没有浏览图片的权限,请 登录注册


2021-05-23 15:18
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
回复 12楼 吹水佬
谢谢,吹水佬老师的研究分析,我就观察不到.
2021-05-23 18:19
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
以下是引用吹水佬在2021-5-22 16:04:20的发言:

试试这个地址:北京大学,其他的改改应该也可以
https://xkkm.



老师,您是如何找到这个地址呢?谢谢
2021-05-29 10:22
吹水佬
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:451
帖 子:10607
专家分:43182
注 册:2014-5-20
收藏
得分:0 
以下是引用jinanshui在2021-5-29 10:22:39的发言:

老师,您是如何找到这个地址呢?谢谢

在 https://xkkm. 页面源码就看得到
图片附件: 游客没有浏览图片的权限,请 登录注册

4楼的代码就是参考这个改用绝对路径作为本地测试用
有点要注意的是:
页面源码的 mc=%E5%8C%97%E4%BA%AC%E5%A4%A7%E5%AD%A6 是一次编码
而链接地址的 mc=%25E5%258C%2597%25E4%25BA%25AC%25E5%25A4%25A7%25E5%25AD%25A6 是二次编码,也就是在一次编码后再次编码
编码示例:
程序代码:
mc = "北京大学"
? mc
bm1 = encodeURI(mc)
? "一次编码:"+bm1 
bm2 = encodeURI(bm1)
? "二次编码:"+bm2
? "一次解码:"+decodeURI(bm2)
? "二次解码:"+decodeURI(decodeURI(bm2))
RETURN

FUNCTION encodeURI(cUnencoded)
    LOCAL jsCode, oSC
    TEXT TO jsCode TEXTMERGE NOSHOW PRETEXT 7
        function encode(unencoded) 
        {
            return encodeURIComponent(unencoded).replace(/'/g,"%27").replace(/"/g,"%22");    
        }
    ENDTEXT
    oSC = CREATEOBJECT("ScriptControl")
    oSC.Language = "JavaScript"
    oSC.AddCode(jsCode)
    RETURN oSC.run("encode", cUnencoded)
ENDFUNC

FUNCTION decodeURI(cEncoded)
    LOCAL jsCode, oSC
    TEXT TO jsCode TEXTMERGE NOSHOW PRETEXT 7
        function decode(encoded) 
        {
            return decodeURIComponent(encoded.replace(/\+/g,  " "));
        }
    ENDTEXT
    oSC = CREATEOBJECT("ScriptControl")
    oSC.Language = "JavaScript"
    oSC.AddCode(jsCode)
    RETURN oSC.run("decode", cencoded)
ENDFUNC

如果要了解页面的详细内容,可以使用“开发者工具”,现在大部份浏览器都有集成这个工具。
2021-05-29 15:28
sdta
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:江苏省连云港市
等 级:版主
威 望:335
帖 子:9841
专家分:27213
注 册:2012-2-5
收藏
得分:0 
mc = %  E5%  8C%  97%  E4%  BA%  AC%  E5%  A4%  A7%  E5%  AD%  A6
mc = %25E5%258C%2597%25E4%25BA%25AC%25E5%25A4%25A7%25E5%25AD%25A6
这个网页的二次编码只是骗骗外行人的,二次编码是在一次编码的基础上把"%"替换为"%25"即可,不需要进行二次编码

坚守VFP最后的阵地
2021-05-29 15:38
吹水佬
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:451
帖 子:10607
专家分:43182
注 册:2014-5-20
收藏
得分:0 
以下是引用sdta在2021-5-29 15:38:57的发言:

mc = %  E5%  8C%  97%  E4%  BA%  AC%  E5%  A4%  A7%  E5%  AD%  A6
mc = %25E5%258C%2597%25E4%25BA%25AC%25E5%25A4%25A7%25E5%25AD%25A6
这个网页的二次编码只是骗骗外行人的,二次编码是在一次编码的基础上把"%"替换为"%25"即可,不需要进行二次编码

问题是:现在刚好是25,以后会不会变,有人还把他说是加密编码,也不知encodeURI的标准会不会变,实际应用编码时还是用encodeURI来处理稳妥点,故在此略提一下encodeURI。
2021-05-29 15:57
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
谢谢两位老师
2021-05-29 16:24
hugeston
Rank: 1
等 级:新手上路
帖 子:1
专家分:0
注 册:2022-1-7
收藏
得分:0 
回复 2楼 sdta
https://xkkm.
2024年的数据如何提取?跪谢!!969651281@
2022-01-07 14:27
jinanshui
Rank: 2
等 级:论坛游民
帖 子:294
专家分:67
注 册:2009-10-6
收藏
得分:0 
回复 19楼 hugeston
同求,我鼓捣了半年,也没弄出来,还是用了sdta老师的数据,2024年还要考各位大侠。最好大侠把代码发出来,谢谢

[此贴子已经被作者于2022-1-7 19:21编辑过]

2022-01-07 19:20
快速回复:老师好,这个网页的采集入口如何找,谢谢
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.021563 second(s), 11 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved