| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 3423 人关注过本帖
标题:python爬虫出了个问题
只看楼主 加入收藏
皮影09
Rank: 1
等 级:新手上路
帖 子:9
专家分:2
注 册:2015-3-28
结帖率:100%
收藏
 问题点数:0 回复次数:2 
python爬虫出了个问题
程序代码:
import re
import urllib

def get(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
def getima(html):
    res = r'"(.*\.png)"'
    ress = (res)
    list_ima = ress.findall(html)
    print list_ima
    i = 0
    for x in list_ima:
            urllib.urlretrieve(x,'%s.jpg' % i)
        i+=1
        print '%s has been downloaded' % i
html = get("http://mm.")
getima(html)


错误信息说:

['890" height="440" src="//img.', '890" height="440" src="//img.', '890" height="440" src="//img.', '890" height="440" src="//img.', '290" height="280" src="//img.', '290" height="280" src="//img.', '290" height="280" src="//img.', 'http://gtms03.', '270" height="280" src="http://gtms04.', '270" height="280" src="http://gtms03.', '270" height="280" src="http://gtms02.', '270" height="280" src="http://gtms01.', '270" height="280" src="http://gtms03.', '270" height="280" src="http://gtms04.', '270" height="280" src="http://gtms01.', '270" height="280" src="http://gtms04.', '270" height="280" src="http://gtms01.', '115" height="126" src="http://gtms04.', '115" height="126" src="http://gtms03.', '115" height="126" src="http://gtms03.', '115" height="126" src="http://gtms02.', '115" height="126" src="http://gtms01.', '115" height="126" src="http://gtms01.', '115" height="126" src="http://gtms02.', '115" height="126" src="http://gtms04.', '115" height="126" src="http://gtms04.', '220" height="295" src="http://img03.', '220" height="295" src="http://img02.', '220" height="295" src="http://img04.', '220" height="295" src="http://img03.', '220" height="295" src="http://img02.', '220" height="295" src="http://img04.', '220" height="295" src="http://img01.', '220" height="295" src="http://img03.', '220" height="295" src="http://img02.', '220" height="295" src="http://img01.', 'http://gtms01.', '140" height="390" src="//img.', '140" height="390" src="//img.', '475" height="444" src="//img.', '140" height="390" src="//img.', '140" height="390" src="//img.', '140" height="390" src="//img.', '225" height="290" src="http://gtms02.', '100" height="100" src="http://gtms03.', '100" height="100" src="http://gtms02.', '100" height="100" src="http://gtms04.', '225" height="290" src="http://gtms01.', '100" height="100" src="http://gtms03.', '100" height="100" src="http://gtms04.', '100" height="100" src="http://gtms03.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms01.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms01.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms02.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms04.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms03.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms02.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms04.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms01.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms04.', '180" height="180" class="mm_debut_item_avatar" src="http://gtms04.', '180" height="180" class="mm_debut_item_avatar" src="http://img03.', '180" height="180" class="mm_debut_item_avatar" src="http://img01.', '180" height="180" class="mm_debut_item_avatar" src="http://img01.', '180" height="180" class="mm_debut_item_avatar" src="http://img04.', '180" height="180" class="mm_debut_item_avatar" src="http://img02.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms02.', '238" height="238" src="http://gtms03.', '238" height="238" src="http://gtms04.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms02.', '238" height="238" src="http://gtms03.', '238" height="238" src="http://gtms04.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms02.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms04.', '238" height="238" src="http://gtms03.', '238" height="238" src="http://gtms02.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms04.', '238" height="238" src="http://gtms03.', '238" height="238" src="http://gtms02.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms02.', '238" height="238" sTraceback (most recent call last):rc="http://gtms03.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms04.', '238" height="238" src="http://gtms01.', '238" height="238" src="http://gtms02.', '238" height="238" src="http://gtms03.', '238" height="238" src="http://gtms04.', '383" height="140" src="http://gtms04.', '383" height="140" src="http://gtms04.', '383" height="140" src="http://gtms02.']

  File "C:\Workspace\taobao.py", line 25, in <module>
    getima(html)
  File "C:\Workspace\taobao.py", line 19, in getima
    urllib.urlretrieve(x,'%s.jpg' % i)
  File "C:\Python27\lib\urllib.py", line 98, in urlretrieve
    return opener.retrieve(url, filename, reporthook, data)
  File "C:\Python27\lib\urllib.py", line 245, in retrieve
    fp = self.open(url, data)
  File "C:\Python27\lib\urllib.py", line 213, in open
    return getattr(self, name)(url)
  File "C:\Python27\lib\urllib.py", line 469, in open_file
    return self.open_local_file(url)
  File "C:\Python27\lib\urllib.py", line 483, in open_local_file
    raise IOError(e.errno, e.strerror, e.filename)
IOError: [Errno 22] : '890" height="440" src="\\\\img.\\tps\\i2\\TB1glSeHFXXXXcQXFXXblszJFXX-890-440.png'
[Finished in 0.9s with exit code 1]


是哪里出问题了呢?
搜索更多相关主题的帖子: python 
2015-04-22 15:53
皮影09
Rank: 1
等 级:新手上路
帖 子:9
专家分:2
注 册:2015-3-28
收藏
得分:0 
额,错误信息一大串都是print出的图片网址,下面是错误信息。。。
2015-04-22 15:54
informed
Rank: 1
等 级:新手上路
帖 子:12
专家分:0
注 册:2009-2-6
收藏
得分:0 
发现了两个错误,已调通。
1.正则表达式错误。
2.资源地址错误。
2015-06-12 17:33
快速回复:python爬虫出了个问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.020293 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved