说，某人突然想看看网络小说，于是上次复制的几行“爬虫”代码就派上了用场…… - VFP论坛

问题点数：0 回复次数：6

说，某人突然想看看网络小说，于是上次复制的几行“爬虫”代码就派上了用场……

小说的目录页有全部章节网址链接，而且是明码；
随手整理出一个download.lst，打算用迅雷“导入下载列表”，直接批量下载。
可网站似乎添加了防爬script，用迅雷之类软件无法下载。
心道：
上次不是复制过几行VFP“爬虫”嘛？
正好派上用场：

*------------------
* 网络小说爬虫.prg
* 用途：下载网络小说目录页的全部HTML链接
* URL首页 = "http://www.
* 1、解析目录页的全部链接，并insert into table URL.dbf（略）
* 2、遍历URL.dbf，逐个将网页爬下来并保存。
* 注：每爬一页，就CREATEOBJECT/RELEASE一次，琢磨着，可能有助于避免被BAN
*------------------
local lcFileName, lcURL, lcHTML
LOCAL oxhttp AS Microsoft.xmlhttp
use URL
scan
    lcFileName = trim(URL.filename)
    lcURL = trim(URL.filelink)
    oxhttp=CREATEOBJECT("Microsoft.xmlhttp")
    oxhttp.OPEN("GET", lcURL, .F.)
    oxhttp.SEND()
    lcHTML = oxhttp.responseBody
    strTofile(lcHTML, lcFileName)
    RELEASE oxhttp
endscan
return
*------------------

嘿嘿。
搞定。
收工。

收到的鲜花

厨师王德榜于 2022-04-11 12:11 送鲜花 1朵附言：用vfp实现爬虫,有意思

第 2 楼

得分:0

download.lst因事先已整理好了，就偷懒没写前半段解析全部章节链接的代码。
URL.dbf大致为：
CREATE TABLE url (filelink C(50), filename C(10), OK L)
append from download.lst sdf
replace all filename with padl(alltrim(str(recno())), 4, "0") + ".htm"

OK字段是备用的，预备万一爬着爬着中途被BAN，那就加一段代码，作“断点续传”。
大概是长这样子：

http://www. | 0001.htm
http://www. | 0002.htm
http://www. | 0003.htm
……