您当前的位置:首页 > 计算机 > 编程开发 > Python

Python提取docx文档中例题、插图、表格清单

时间:09-04来源:作者:点击数:

Python提取docx文档中例题、插图、表格清单

from docx import Document

import re

result = {'li':[], 'fig':[], 'tab':[], 'tuozhan':[]}

doc = Document(r'C:\test.docx')

for p in doc.paragraphs:

    t = p.text #获取每一段的文本

    if re.match('例\d+-\d+ ', t):

        result['li'].append(t)

    elif re.match('图\d+-\d+ ', t):

        result['fig'].append(t)

    elif re.match('表\d+-\d+ ', t):

        result['tab'].append(t)

print('='*30)

for li in result['li']:

    print(li)

print('='*30)

for fig in result['fig']:

    print(fig)

print('='*30)

for tab in result['tab']:

    print(tab)

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门