Python读取pdf里面的表格,并保存为xlsx
一、安装模块:pip install pdfplumber
二、示例代码如下
import pdfplumber
import pandas as pd
def pdf_table(pdf_name,spage=0,epage=10):
"""
:param pdf_name: PDF文件路径名称
:param spage: 表格开始页(从0开始)
:param epage: 表格结束页
:return: table list
"""
tables = []
pdf = pdfplumber.open(pdf_name)
for i in range(spage, epage+1):
pt=pdf.pages[i]
table=pt.extract_table()
tables.extend(table)
return tables
if __name__ == '__main__':
pdf_name = 'D:\\123.pdf'
tables = pdf_table(pdf_name, 2, 22)
df = pd.DataFrame(tables)
df.to_excel('123.xlsx')