说,某人突然想看看网络小说,于是上次复制的几行“爬虫”代码就派上了用场……
小说的目录页有全部章节网址链接,而且是明码;随手整理出一个download.lst,打算用迅雷“导入下载列表”,直接批量下载。
可网站似乎添加了防爬script,用迅雷之类软件无法下载。
心道:
上次不是复制过几行VFP“爬虫”嘛?
正好派上用场:
*------------------
* 网络小说爬虫.prg
* 用途:下载网络小说目录页的全部HTML链接
* URL首页 = "http://www.
* 1、解析目录页的全部链接,并insert into table URL.dbf(略)
* 2、遍历URL.dbf,逐个将网页爬下来并保存。
* 注:每爬一页,就CREATEOBJECT/RELEASE一次,琢磨着,可能有助于避免被BAN
*------------------
local lcFileName, lcURL, lcHTML
LOCAL oxhttp AS Microsoft.xmlhttp
use URL
scan
lcFileName = trim(URL.filename)
lcURL = trim(URL.filelink)
oxhttp=CREATEOBJECT("Microsoft.xmlhttp")
oxhttp.OPEN("GET", lcURL, .F.)
oxhttp.SEND()
lcHTML = oxhttp.responseBody
strTofile(lcHTML, lcFileName)
RELEASE oxhttp
endscan
return
*------------------
嘿嘿。
搞定。
收工。