| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1111 人关注过本帖
标题:请教网页数据抓取问题
只看楼主 加入收藏
nini8060
Rank: 1
等 级:新手上路
帖 子:1
专家分:0
注 册:2009-8-12
结帖率:0
收藏
已结贴  问题点数:20 回复次数:3 
请教网页数据抓取问题
请教各位大侠一个问题:
如何才能把百度百科中的词条解释页面最下面的“相关词条”中的词条抓取到自己的网站页面上,包括词条和链接,在自己网站页面上点击词条之后就能链接到百度百科的词条解释页面。例如:http://baike.baidu.com/view/598725.htm
搜索更多相关主题的帖子: 数据抓取 
2009-08-12 11:18
淮少智
Rank: 2
等 级:论坛游民
帖 子:23
专家分:50
注 册:2009-9-5
收藏
得分:10 
真不会!
2009-09-05 01:36
qingxrong
Rank: 2
等 级:论坛游民
帖 子:5
专家分:37
注 册:2008-10-28
收藏
得分:10 
程序代码:
package  org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class TestHtmlparser {
    /**
     * @author rrong_m
     * @throws ParserException
     */
    public static void getWords(String url) throws ParserException {
        Parser parser = new Parser(url);
        NodeFilter filter = new HasAttributeFilter("id", "word_more_con");
        NodeList nodelist = parser.extractAllNodesThatMatch(filter);
        NodeFilter filter1 = new NodeClassFilter(LinkTag.class);
        nodelist = nodelist.extractAllNodesThatMatch(filter1, true);
        for (int i = 0; i < nodelist.size(); i++) {
            LinkTag link = (LinkTag) nodelist.elementAt(i);
            System.out.println(link.getLinkText() + ":" + link.getLink());
        }
    }
    public static void main(String[] args) throws ParserException {
        getWords("http://baike.baidu.com/view/598725.htm");
    }
}

http://.cn
http://
http://
2009-09-06 05:22
qingxrong
Rank: 2
等 级:论坛游民
帖 子:5
专家分:37
注 册:2008-10-28
收藏
得分:0 
本来想发个测试结果,提示广告!

http://.cn
http://
http://
2009-09-06 05:23
快速回复:请教网页数据抓取问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.021116 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved