Java小菜鸟虚心求教关于网络爬虫 - JAVA论坛

楼主

已结贴√ 问题点数：20 回复次数：9

Java小菜鸟虚心求教关于网络爬虫

    老师让编一个爬虫  编得我意识都模糊了可是最后就是差一点
    刚不住了  求各位大神指点迷津
    这是主程序：

程序代码：

import import java.util.Set;

public class MyCrawler {
   
    public static void main(String args[]) throws IOException{
       
           
        LinkQueue.addUnvisitedUrl("http://www.baidu.com");
        //循环条件：待抓取的链接不空且抓取的网页不多于100
        while(!LinkQueue.unVisitedUrlsEmpty()
                &&LinkQueue.getVisitedUrlNum()<=100){
            //队头URL出队列
            String visitUrl = (String) LinkQueue.unVisitedUrlDeQueue();
            if(visitUrl==null){
                continue;
            }
            DownPage downpage = new DownPage();
            //下载网页
            String filePath = downpage.downpage(visitUrl);
            //该URL放入已访问的URL中
            LinkQueue.addVisitedUrl(visitUrl);
            //提取出下载网页中的URL
            Set<String> links = collectUrl.collect(filePath);
            //新的未访问的URL入队
            for(String link:links){
                LinkQueue.addUnvisitedUrl(link);
            }
               
        }
    }
   
}

表单我是参照其他书上写的

程序代码：

import java.util.LinkedList;

/**

 * 队列，保存将要访问的URL

 */
public class Queue {
    //使用链表实现队列
    private LinkedList<Object> queue = new LinkedList<Object>();
    //入队列
    public void enQueue(Object t){
        queue.addLast(t);
    }
    //出队列
    public Object deQueue(){
        return queue.removeFirst();
    }
    //判断队列是否为空
    public boolean isQueueEmpty(){
        return queue.isEmpty();
    }
    //判断队列是否包含t
    public boolean contains(Object t){
        return queue.contains(t);
    }
    public boolean empty(){
        return queue.isEmpty();
    }
   
}    import java.util.*;

public class LinkQueue {
   
    //已访问的URL集合
    private static Set<String> visitedUrl = new HashSet<String>();
    //待访问的URL集合
    private static Queue unVisitedUrl = new Queue();
    //获得URL队列
    public static Queue getUnVisitedUrl(){
        return unVisitedUrl;
    }
    //添加到访问过的URL队列中
    public static void addVisitedUrl(String url){
        visitedUrl.add(url);
    }
    //移除访问过的URL
    public static void removeVisitedUrl(String url){
        visitedUrl.remove(url);
    }
    //未访问的URL出队列
    public static Object unVisitedUrlDeQueue(){
        return unVisitedUrl.deQueue();
    }
    //保证每个URL只能被访问一次
    public static void addUnvisitedUrl(String url){
        if(url!=null&&url.trim().equals("")
                &&!visitedUrl.contains(url)
                &&!unVisitedUrl.contains(url))
            unVisitedUrl.enQueue(url);
    }
    //获得已经访问的URL数目
    public static int getVisitedUrlNum(){
        return visitedUrl.size();
    }
    //判断未访问的URL队列中是否为空
    public static boolean unVisitedUrlsEmpty(){
        return unVisitedUrl.empty();
    }
   
}

我觉得应该没什么问题了可是运行之后什么都没有
求各位大神行行好救救我把
我已经在这卡了好多天了再这样下去要疯了

搜索更多相关主题的帖子: 主程序　 Java　网络　小菜　

第 2 楼

得分:0

回复 2楼 java小蚂蚁

主要是第一个网址就是百度主页那个出了问题  我试了试
add进去后直接输出  但是什么都输出不出来
可是没显示任何问题  请问这是怎么了

第 3 楼

得分:0

回复 2楼 java小蚂蚁

主要是第一个网址就是百度主页那个出了问题  我试了试
add进去后直接输出  但是什么都输出不出来
可是没显示任何问题  请问这是怎么了

第 4 楼

得分:0

回复 5楼 java小蚂蚁

好吧
老师真心给我出了个难题哇。。

第 5 楼

得分:0

回复 7楼 hhwz

谢谢楼主大神
试过代码了可以解决
我想请教一下为什么要这样改
我的表单哪里写错了
指出来让我进步吧
谢谢大神

第 6 楼

得分:0

回复 7楼 hhwz

我稍微看懂了一点
是把那个地址加到了Queue的对象去
为什么LinkQueue不行呢

第 7 楼

得分:0

回复 10楼 hhwz

关于这个爬虫我可以把我编好的整个程序打包发给你吗
还是有些地方不知道怎么了
求大神帮帮忙吧我真的莫法了

第 8 楼

得分:0

回复 12楼 hhwz

好的
谢谢大神

crawler.rar (3 KB)

第 9 楼

得分:0

回复 12楼 hhwz

刚突然发现我在DownPage里都写了main语句
请你忽略吧这是我这两天各种测试的残骸
我的主线程在MyCrawler里先向表里写入第一个网页然后进入循环 DownPage 抓取后把网页放入访问过的表里
然后把抓取到的内容传给collectUrl提取其中的地址后加入未访问的表
这是主要的思路
请你指点吧

第 10 楼

得分:0

回复 12楼 hhwz

大神实在是不好意思
我这两天真心让它愁得快崩溃了
脑子都乱了
今天一天没碰刚静心锊了一遍解决了一些小麻烦
现在主要的问题是
我在主线程抓取了里面的网页后
传什么东西给collectUrl比较好呢
原来我是直接传自己存在电脑上的TXT文件名字然后collectUrl读取出来再用正则匹配可是这样把数据流读了存了再在其他地方又读出来
我觉得很浪费资源
我原来想直接把读取的数据流定义成字符串然后return给collectUrl 直接匹配   可是似乎不行

现在我就想知道  我到底传个什么东西给collectUrl才好用又不浪费资源呢