请教网页数据抓取问题 - J2EE论坛 - JAVA论坛

nini8060

等　级：新手上路
帖　子：1
专家分：0
注　册：2009-8-12
结帖率：0

楼主

已结贴√ 问题点数：20 回复次数：3

请教网页数据抓取问题

请教各位大侠一个问题：
如何才能把百度百科中的词条解释页面最下面的“相关词条”中的词条抓取到自己的网站页面上，包括词条和链接，在自己网站页面上点击词条之后就能链接到百度百科的词条解释页面。例如：http://baike.baidu.com/view/598725.htm

搜索更多相关主题的帖子: 数据抓取　

2009-08-12 11:18

qingxrong

等　级：论坛游民
帖　子：5
专家分：37
注　册：2008-10-28

第 3 楼

得分:10

程序代码：

package  org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class TestHtmlparser {
    /**
     * @author rrong_m
     * @throws ParserException
     */
    public static void getWords(String url) throws ParserException {
        Parser parser = new Parser(url);
        NodeFilter filter = new HasAttributeFilter("id", "word_more_con");
        NodeList nodelist = parser.extractAllNodesThatMatch(filter);
        NodeFilter filter1 = new NodeClassFilter(LinkTag.class);
        nodelist = nodelist.extractAllNodesThatMatch(filter1, true);
        for (int i = 0; i < nodelist.size(); i++) {
            LinkTag link = (LinkTag) nodelist.elementAt(i);
            System.out.println(link.getLinkText() + ":" + link.getLink());
        }
    }
    public static void main(String[] args) throws ParserException {
        getWords("http://baike.baidu.com/view/598725.htm");
    }
}

http://.cn
http://
http://

2009-09-06 05:22