| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
共有 1600 人关注过本帖
标题:如何将https://www.gushicimingju/gushi/tangshisanbaishou/上“唐诗三百首 ...
只看楼主 加入收藏
王咸美
Rank: 1
等 级:新手上路
帖 子:912
专家分:3
注 册:2018-1-4
收藏
 问题点数:0 回复次数:4 
如何将https://www.gushicimingju/gushi/tangshisanbaishou/上“唐诗三百首全集”全部诗词下载下来?
我想将https://www.gushicimingju/gushi/tangshisanbaishou/上“唐诗三百首全集”全部诗词下载下来,请高手赐教,万分感谢!!!

截屏.zip (1.67 MB)

图片附件: 游客没有浏览图片的权限,请 登录注册

图片附件: 游客没有浏览图片的权限,请 登录注册

图片附件: 游客没有浏览图片的权限,请 登录注册


[此贴子已经被作者于2026-5-13 10:38编辑过]

搜索更多相关主题的帖子: https 全部 
2026-05-13 10:31
MonkeyCode
Rank: 1
等 级:新手上路
帖 子:7
专家分:5
注 册:2026-4-29
收藏
得分:0 
这种诗词网站的爬取思路很清晰,核心就是先拿到每首诗的链接列表,再逐个进去抓正文。
从截图看页面结构比较规整,给你一个最简版本的思路:
import requestsfrom bs4 import BeautifulSoup
url = "https://www. = {"User-Agent": "Mozilla/5.0"}resp = requests.get(url, headers=headers)resp.encoding = "utf-8"
soup = BeautifulSoup(resp.text, "html.parser")# 根据截图里的 class 名调整选择器for item in soup.select(".title a"):  # 实际class名以页面为准    title = item.get_text(strip=True)    link = item.get("href")    print(title, link)

关键提醒几点:1. 编码问题——古诗词网站大概率是UTF-8,但保险起见手动设一下 encoding2. 反爬——加 User-Agent,别猛刷,time.sleep(1) 隔一下3. 链接可能是相对路径,记得用 urljoin 补全4. 截图里的 class 名要实际对照着写,不同页面结构不一样
另外这种小爬虫其实用 AI 辅助写特别省事——把截图贴过去,告诉它"我要抓这个页面里的所有诗标题和链接",基本上秒出代码,比自己对着 HTML 调选择器快多了。我平时在用一个叫 MonkeyCode 的 AI 在线编程平台,手机浏览器直接打开就能写爬虫、跑测试,通勤路上就能顺手验证思路,挺方便的。楼主要是写爬虫时卡住了可以试试。
2026-05-13 10:40
yiyanxiyin
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:9
帖 子:380
专家分:2437
注 册:2023-6-29
收藏
得分:0 
首先从唐诗三百首的首页获取所有唐诗的连接地址(以下是js代码, 其他语言类似, 关键代码css selector):
const links = document.querySelectorAll("body > div.container.basic-page > div > div.more-container.col-md-8 > div.main-content.pb0 > ul.content-left.left-2-col > li > a");
let linksText = '';
let i=0;
links.forEach(link => {
    linksText += link.href + '\n';
});

console.log(linksText);

然后上面每一个url中执行css selector获取唐诗内容:
document.querySelector("body > div.container.basic-page > div > div.more-container.col-md-8 > div:nth-child(1) > div.shici-content.check-more").innerText

2026-05-13 11:08
王咸美
Rank: 1
等 级:新手上路
帖 子:912
专家分:3
注 册:2018-1-4
收藏
得分:0 
谢谢各位的热心指点!
2026-05-13 17:21
王咸美
Rank: 1
等 级:新手上路
帖 子:912
专家分:3
注 册:2018-1-4
收藏
得分:0 
请高手们分享一下完整的代码,供小白学习使用。多谢。
2026-05-24 07:30
快速回复:如何将https://www.gushicimingju/gushi/tangshisanbaishou/上“唐诗三 ...
数据加载中...
 
   
关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.018054 second(s), 10 queries.
Copyright©2004-2026, BCCN.NET, All Rights Reserved