2025年3月14日星期五甲辰(龙)年月十三夜设为首页加入收藏

进入网站首页面

掌上城东书院
定制您的专属资源库
m.cdsy.xyz

掌上城东书院
随时随地，想看就看

关注我们

首页

您当前的位置：首页 > 计算机 > 编程开发 > Python

爬取不规范html网页文本时，用html5lib解析不规范的html文本

时间：12-07来源：作者：点击数：19

爬取不规范html网页文本时，用html5lib解析不规范的html文本

安装解析器：

 pip install html5lib

from lxml import etree
from bs4 import BeautifulSoup

# text中<tr>标签只有闭合标签，没有起始标签
text = """
<table>
        <td>姓名</td>
        <td>年龄</td>
    </tr>
        <td>出生日期</td>
        <td>地址</td>
    </tr>
        <td>说明</td>
        <td>备注</td>
    </tr>
</table>
"""
# 默认是lxml解析
html = etree.HTML(text)
# 结果：[]，lxml无法正确解析出不规范的标签
print(html.xpath('//table/tr[1]/td[1]/text()'))

#利用BeautifulSoup和html5lib先将不规范的html文本转为规范的文本再解析
soup = BeautifulSoup(text,'html5lib')
print(soup.prettify()) # 结果大概如下，自动补全了标签
"""
<html><head></head><body>
<table>
    <tbody>
        <tr>
            <td>姓名</td>
            <td>年龄</td>
        </tr>
        <tr>
            <td>出生日期</td>
            <td>地址</td>
        </tr>
        <tr>
            <td>说明</td>
            <td>备注</td>
        </tr>
    </tbody>
</table>
</body></html>
"""
html = etree.HTML(soup.prettify())
# 结果：['\n      姓名\n     ']
print(html.xpath('//table/tbody/tr[1]/td[1]/text()'))

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

城东书院微信服务号

城东书院微信订阅号

2

上一篇:Python中str转为dict的两种解决方法，及json.decoder.JSONDecodeError报错处理下一篇:采用bs4和xpath两种方法抓取国外图书网站关于书的信息,保存到MongoDB、Redis、MySQL数据库

推荐内容

InDesign入门教程\|半	Vmware虚拟机三种网络
Git的安装与卸载详细	Photoshop非常实用的

相关内容

栏目更新

栏目热门

本栏推荐

关于我们 | 联系我们 | 用户协议 | 广告服务 | 申请链接 | 网站地图 | 版权声明 | 用户留言 | 招聘信息 | 帮助中心 | 社区讨论 | 下载服务

中国文明网传播文明

Copyright ©2019-2024 CDSY Corporation, All Rights Reserved

城东书院^® CDSY.XYZ 版权所有湘ICP备19021508号-1 公安网备案

公安网备案

湘公网安备 43102202000103号

※学习、工作、生活信息平台※

人生没有彩排，每一天都是现场直播。 —五岭行者

本网大部分资源来源于会员上传，除本网组织的资源外，版权归原作者所有，如有侵犯版权，请立刻和本网联系并提供证据，本网将在三个工作日内改正。