先安装win32库:pip install pywin32
- from win32com.client import gencache
- from win32com.client import constants, gencache
-
-
- def createPdf(wordPath, pdfPath):
- """
- word转pdf
- :param wordPath: word文件路径
- :param pdfPath: 生成pdf文件路径
- """
- word = gencache.EnsureDispatch('Word.Application')
- doc = word.Documents.Open(wordPath, ReadOnly=1)
- doc.ExportAsFixedFormat(pdfPath,
- constants.wdExportFormatPDF,
- Item=constants.wdExportDocumentWithMarkup,
- CreateBookmarks=constants.wdExportCreateHeadingBookmarks)
- word.Quit(constants.wdDoNotSaveChanges)
-
- createPdf('D:\桌面\论文阅读笔记.docx','D:\桌面\论文阅读笔记.pdf')
-
- # Import Module
- from win32com import client
- # Open Microsoft Excel
- excel = client.Dispatch("Excel.Application")
- # Read Excel File
- sheets = excel.Workbooks.Open('F:\书籍借阅信息.xlsx')
- work_sheets = sheets.Worksheets[0]
- # Convert into PDF File
- work_sheets.ExportAsFixedFormat(0, 'F:\书籍借阅信息.pdf')
- # 关闭服务
- excel.Quit()
-
- # 1). 导入需要的模块(打开应用程序的模块)
- import win32com.client
- import os
-
-
- def ppt2pdf(filename, output_filename):
- """
- PPT文件导出为pdf格式
- :param filename: PPT文件的名称
- :param output_filename: 导出的pdf文件的名称
- :return:
- """
- # 2). 打开PPT程序
- ppt_app = win32com.client.Dispatch('PowerPoint.Application')
- # ppt_app.Visible = True # 程序操作应用程序的过程是否可视化
- # 3). 通过PPT的应用程序打开指定的PPT文件
- # filename = "C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pptx"
- # output_filename = "C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pdf"
- ppt = ppt_app.Presentations.Open(filename)
- # 4). 打开的PPT另存为pdf文件。17数字是ppt转图片,32数字是ppt转pdf。
- ppt.SaveAs(output_filename, 32)
- print("导出成pdf格式成功!!!")
- # 退出PPT程序
- ppt_app.Quit()
-
- # 要处理的目录名称
- dirname = 'D:\桌面\智能算法设计与实现'
- # 列出指定目录的内容
- filenames = os.listdir(dirname)
- # for循环依次访问指定目录的所有文件名
- for filename in filenames:
- # 判断文件的类型,对所有的ppt文件进行处理(ppt文件以ppt或者pptx结尾的)
- if filename.endswith('ppt') or filename.endswith('pptx'):
- # print(filename) # PPT素材1.pptx -> PPT素材1.pdf
- # 将filename以.进行分割,返回2个信息,文件的名称和文件的后缀名
- base, ext = filename.split('.') # base=PPT素材1 ext=pdf
- new_name = base + '.pdf' # PPT素材1.pdf
- # ppt文件的完整位置: C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pptx
- filename = dirname + '/' + filename
- # pdf文件的完整位置: C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pdf
- output_filename = dirname + '/' + new_name
- # 将ppt转成pdf文件
- ppt2pdf(filename, output_filename)
-
- from PIL import Image
- import os
-
-
- # 防止字符串乱码
- os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
- def pic2pdf(img_path, pdf_path):
- file_list = os.listdir(img_path)
- for x in file_list:
- if "jpg" in x or 'png' in x or 'jpeg' in x:
- pdf_name = x.split('.')[0]
- im1 = Image.open(os.path.join(img_path, x))
- im1.save(pdf_path + pdf_name + '.pdf', "PDF", resolution=100.0)
- if __name__ == '__main__':
- # 待转换图像路径
- img_path = r"D:\桌面\\"
- # 转换后的pdf存放路径
- pdf_path = r'D:\桌面\\'
- pic2pdf(img_path=img_path, pdf_path=pdf_path)
-
先安装:pip install pdf2docx
- from pdf2docx import Converter
-
- pdf_file = r'D:\桌面\论文阅读笔记.pdf'
- docx_file = r'D:\桌面\论文阅读笔记.docx'
- cv = Converter(pdf_file)
- cv.convert(docx_file, start=0, end=None)
- cv.close()
-
- pip install Spire.PDF
-
通过Python将PDF文件转为Word文档(Doc和Docx)
PdfDocument 类代表一个PDF文档,使用其下的 LoadFromFile() 方法即可从文件载入PDF文档。在载入文档后,我们可以使用 PdfDocument 类下的 SaveToFile() 方法将PDF文档转换为其他格式的文件并保存,包括Doc、Docx、HTML、SVG等格式。在使用SaveToFile()方法时,只需要将保存路径和 FileFormat 枚举类型作为参数传递给该方法即可。
下面是操作步骤介绍:
代码示例:
- from spire.pdf import PdfDocument
- from spire.pdf import FileFormat
-
- # 创建PdfDocument类的实例
- pdf = PdfDocument()
-
- # 载入PDF文件
- pdf.LoadFromFile("示例.pdf")
-
- # 将PDF文件直接转换为Doc文件并保存
- pdf.SaveToFile("output/PDF转DOC", FileFormat.DOC)
-
- # 将PDF文件直接转换为Docx文件并保存
- pdf.SaveToFile("output/PDF转DOCX", FileFormat.DOCX)
-
- # 关闭实例
- pdf.Close()
-
通过Python将PDF文档转换为Docx文件并设置文档属性
除了上述方法外,还可以使用PdfToDocConverter类并将文件路径作为参数创建转换实例。使用此类进行转换时,还可以对文件属性进行设置。此方法只能转换为DOC和DOCX文件。
下面是操作步骤介绍:
代码示例:
- from spire.pdf import PdfToDocConverter
-
- # 创建PdfToDocConverter类的实例
- converter = PdfToDocConverter("G:/文档/示例.pdf")
-
- # 设置转换出的Word文档的文档属性
- converter.DocxOptions.Title = "企业计划"
- converter.DocxOptions.Subject = "企业管理及运营的计划草案。"
- converter.DocxOptions.Tags = "企业, 企业管理, 工作计划"
- converter.DocxOptions.Categories = "工作计划"
- converter.DocxOptions.Commments = "本计划为草案,制定了工作计划的大致内容,需要进一步讨论确定详细内容。"
- converter.DocxOptions.Authors = "李莉"
- converter.DocxOptions.LastSavedBy = "王银"
- converter.DocxOptions.Revision = 8
- converter.DocxOptions.Version = "V4.0"
- converter.DocxOptions.ProgramName = "Python"
- converter.DocxOptions.Company = "企业名"
- converter.DocxOptions.Manager = "企业名"
-
- # 将PDF文件直接转换为Doc文件并保存
- converter.SaveToDocx("output/PDF转DOC设置属性.doc", False)
-
- # 将PDF文件直接转换为Doc文件并保存
- converter.SaveToDocx("output/PDF转DOCX设置属性.docx", True)
-
总结:
以上展示了如何通过Python代码将PDF文件转换为Word文档,包括转换为DOC格式和DOCX格式,以及在转换时设置结果文档的文档属性。Spire.PDF for Python还支持转换PDF文件为其他诸多格式,包括网页文件(HTML)、SVG、JPEG和PNG图片、Tiff、RTF等格式。
先安装:pip install pdf2image
- from pdf2image import convert_from_path
-
- pages = convert_from_path('D:\桌面\论文阅读笔记.pdf', 500)
- # 保存
- for page in pages:
- page.save('D:\桌面\论文阅读笔记.jpg', 'JPEG')
- # 多图保存
- for index, img in enumerate(pages):
- img.save('E:\识别\page_%s.jpg' % (index+1))
-
如果报错pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
则需要安装配置poppler:
Windows的poppler下载地址:https://poppler.freedesktop.org/
解压缩后,将C:\Program Files\poppler-0.68.0\bin(可以放在其他位置)添加进环境变量-系统变量-path中,重启生效:
- import PyPDF2
-
-
- def coverPDFToTxt(pdf_file_path=None, word_file_path=None):
- # 打开pdf文件
- pdf_file = open(pdf_file_path, 'rb')
- pdf_reader = PyPDF2.PdfReader(pdf_file)
-
- pages = len(pdf_reader.pages)
- text = ""
-
- # 循环遍历每一页,将文本添加到text字符串中
- for i in range(pages):
- page = pdf_reader.pages[i]
- text += page.extract_text()
-
- pdf_file.close()
- with open(word_file_path, 'w', encoding='utf-8') as file:
- file.write(text)
-
-
- if __name__ == '__main__':
- coverPDFToTxt('d.pdf','d.txt')
-
- import pandas as pd
- data = pd.read_csv('F:/train.csv',index_col=0)
- data.to_excel('F:/train.xlsx',encoding='utf-8')
-
- import pandas as pd
- data = pd.read_excel('F:/train.xlsx',index_col=0)
- data.to_csv('F:/train.csv',encoding='utf-8')
-
- pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pypiwin32
-
说明:只要目标文件后缀名不变,那么FileFormat就不会变化,所以wps、doc、docx转docx的FileFormat都是12
注意:下面代码适用于微软Word,如果使用金山WPS,需要把代码中的 Word.Application 换成 Kwps.Application
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("word源文件全路径")
- doc.SaveAs("生成pdf文档全路径", FileFormat=17)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
例如:
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("C:\\test\\20221020\\111.docx")
- doc.SaveAs("C:\\test\\20221020\\111.pdf", FileFormat=17)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
拓展:
如果大家想看到具体使用的软件,可以在try语句下方添加soft.Visible = True,不过所用软件会在任务栏一闪而过,所以要注意下任务栏,完整代码如下:
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- soft.Visible = True
- doc = soft.Documents.Open("C:\\test\\20221020\\111.docx")
- doc.SaveAs("C:\\test\\20221020\\111.pdf", FileFormat=17)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
注意:下面代码适用于微软Excel,如果使用金山WPS,需要把代码中的 Excel.Application 换成 Ket.Application,但是经过我的测试,发现目前不支持金山WPS
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Excel.Application')
-
- try:
- doc = soft.Workbooks.Open("excel源文件全路径")
- doc.SaveAs("生成pdf文档全路径", FileFormat=57)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
例如:
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Excel.Application')
-
- try:
- doc = soft.Workbooks.Open("C:\\test\\20221020\\333.xlsx")
- doc.SaveAs("C:\\test\\20221020\\333.pdf", FileFormat=57)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
注意:下面代码适用于微软PPT,如果使用金山WPS,需要把代码中的 Powerpoint.Application 换成 Kwpp.Application
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Powerpoint.Application')
-
- try:
- doc = soft.Presentations.Open("ppt源文件全路径")
- doc.SaveAs("生成pdf文档全路径", FileFormat=32)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
例如:
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Powerpoint.Application')
-
- try:
- doc = soft.Presentations.Open("C:\\test\\20221020\\555.pptx")
- doc.SaveAs("C:\\test\\20221020\\555.pdf", FileFormat=32)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
注意:下面代码适用于微软Word,如果使用金山WPS,需要把代码中的 Word.Application 换成 Kwps.Application
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("word源文件全路径")
- doc.SaveAs("生成html网页全路径", FileFormat=17)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
例如:
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("C:\\test\\20221020\\111.docx")
- doc.SaveAs("C:\\test\\20221020\\111.html", FileFormat=10)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
注意:下面代码适用于微软Word,如果使用金山WPS,需要把代码中的 Word.Application 换成Kwps.Application
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("wps源文件全路径")
- doc.SaveAs("生成word文档全路径", FileFormat=12)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
例如:
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("C:\\test\\20221020\\111.wps")
- doc.SaveAs("C:\\test\\20221020\\111.docx", FileFormat=12)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
注意:下面代码适用于微软Word,如果使用金山WPS,需要把代码中的 Word.Application 换成 Kwps.Application
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("doc源文件全路径")
- doc.SaveAs("生成docx文档全路径", FileFormat=12)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
例如:
- from win32com.client import DispatchEx
- import sys
-
- soft = DispatchEx('Word.Application')
-
- try:
- doc = soft.Documents.Open("C:\\test\\20221020\\222.doc")
- doc.SaveAs("C:\\test\\20221020\\222.docx", FileFormat=12)
- doc.Close()
- except:
- print("错误信息:", sys.exc_info())
-
- soft.Quit()
-
注意:下面代码适用于Adobe Acrobat DC
- from win32com.client.dynamic import ERRORS_BAD_CONTEXT
- from win32com.client import DispatchEx
-
- import sys
- import winerror
-
- # 必须加,不然就会出问题
- ERRORS_BAD_CONTEXT.append(winerror.E_NOTIMPL)
-
- # 打开Adobe Acrobat DC,其中使用DispatchEx()方法可以新开一个进程来做事情,避免影响已经打开的文件
- soft = DispatchEx("AcroExch.AVDoc")
-
- # 文件另存为
- try:
- # 打开文档
- soft.Open("pdf源文件全路径", "")
- file = soft.GetPDDoc()
- jsObject = file.GetJSObject()
- # 另存为
- jsObject.SaveAs("生成docx文档全路径")
- file.Close()
- except:
- print("错误信息:", sys.exc_info())
- finally:
- # 退出软件
- soft.Close(True)
-
示例:
- from win32com.client.dynamic import ERRORS_BAD_CONTEXT
- from win32com.client import DispatchEx
-
- import sys
- import winerror
-
- # 必须加,不然就会出问题
- ERRORS_BAD_CONTEXT.append(winerror.E_NOTIMPL)
-
- # 打开Adobe Acrobat DC,其中使用DispatchEx()方法可以新开一个进程来做事情,避免影响已经打开的文件
- soft = DispatchEx("AcroExch.AVDoc")
-
- # 文件另存为
- try:
- # 打开文档
- soft.Open("C:\\test\\20220301\\智能提取服务接口文档.pdf", "")
- file = soft.GetPDDoc()
- jsObject = file.GetJSObject()
- # 另存为
- jsObject.SaveAs("C:\\test\\20220301\\智能提取服务接口文档.docx", "com.adobe.acrobat.docx")
- file.Close()
- except:
- print("错误信息:", sys.exc_info())
- finally:
- # 退出软件
- soft.Close(True)
-
有些图片上传至博客站点后就自动被打上水印,想要二次使用时只有截小图,或者将相关代码案例重操一遍,后来在github偶然翻到python去除水印的脚本,用来也相当好用,脚本我精简过,只保留我自己需要的部分。有想看原文的可以看github的DocumentLightMarkWipeTool项目,也很简短。
- # 图片处理
- def imgDeal(img_path, save_path):
- img = Image.open(img_path)
- img = levelsDeal(img, 108, 164)
- img_res = Image.fromarray(img.astype('uint8'))
- print(u'图片[' + img_path + u']处理完毕')
- img_res.save(save_path)
-
-
- # 图像矩阵处理
- def levelsDeal(img, black, white):
- if white > 255:
- white = 255
- if black < 0:
- black = 0
- if black >= white:
- black = white - 2
- img_array = np.array(img, dtype=int)
- cRate = -(white - black) / 255.0 * 0.05
- rgb_diff = img_array - black
- rgb_diff = np.maximum(rgb_diff, 0)
- img_array = rgb_diff * cRate
- img_array = np.around(img_array, 0)
- img_array = img_array.astype(int)
- return img_array
-
- if __name__ == '__main__':
- imgDeal("image/水印.png", "results/水印.png")
-
原图:
处理后: