| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2037 人关注过本帖
标题:python3 初学者:Lxml和BeautifulSoup解析网页出问题输出有问题, 求指教! ...
只看楼主 加入收藏
Protoss_Sine
Rank: 1
等 级:新手上路
帖 子:2
专家分:0
注 册:2017-3-14
收藏
 问题点数:0 回复次数:1 
python3 初学者:Lxml和BeautifulSoup解析网页出问题输出有问题, 求指教!
各位大神好:
下面这几句代码输出网页解析的结果为什么结果很难看:
import lxml.html
broken_html = '<ul class=country><li>area<li>population</ul>'
tree = lxml.html.fromstring(broken_html)
cc = lxml.html.tostring(tree, pretty_print=True, method='html').decode()
print(cc)

下面是输出结果:
<ul class="country">
<li>area</li>
<li>population</li>
</ul>

尽管闭合了标签,但是完全看不出嵌套关系了。上面的decode()是为了将前面的输出bytes类型转换成str类型。

而使用BeautifulSoup同样出错
from bs4 import BeautifulSoup
soup = BeautifulSoup(broken_html, 'html.parser')
ccc = soup.prettify()
print(ccc)
结果,标签都补错了:
<ul class="country">
 <li>
  area
  <li>
   population
  </li>
 </li>
</ul>

第一次发帖,求各位大神给我解释下,多谢!

[此贴子已经被作者于2017-4-12 15:53编辑过]

搜索更多相关主题的帖子: country import method 网页 
2017-04-12 15:52
Protoss_Sine
Rank: 1
等 级:新手上路
帖 子:2
专家分:0
注 册:2017-3-14
收藏
得分:0 
自己先顶下
2017-04-12 15:54
快速回复:python3 初学者:Lxml和BeautifulSoup解析网页出问题输出有问题, 求 ...
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.030998 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved