在Python中将ppt文件转换为pptx
问题描述
是否有办法将.ppt文件转换为.pptx文件。
目标:我需要从.ppt文件中提取表格中的文本(列名为姓名、地址、联系电话、电子邮件等)。为此,我遵循以下方法:
我将.ppt文件转换为pdf,然后使用PDFminer从pdf提取数据。从pdf中提取的文本不用任何分隔符分隔。因此,很难区分表中的名称和其他字段。
我正在研究的可能解决方案:
- 将.ppt文件转换为.pptx
- 解析.pptx文件的XML以获取格式化文本
我在将文件格式从.ppt转换为.pptx的第一步就卡住了。 我找不到在Python中将.ppt文件格式转换为.pptx格式的任何解决方案。
解决方案
我已经创建了此代码,希望它能为您工作:
import win32com.client
PptApp = win32com.client.Dispatch("Powerpoint.Application")
PptApp.Visible = True
PPtPresentation = PptApp.Presentations.Open(r'D:pptsample.ppt')
PPtPresentation.SaveAs(r'D:pptfinal.pptx', 24)
PPtPresentation.close()
PptApp.Quit()
相关文章