在Python中将ppt文件转换为pptx

2022-03-11 00:00:00 python python-2.7 powerpoint

问题描述

是否有办法将.ppt文件转换为.pptx文件。

目标:我需要从.ppt文件中提取表格中的文本(列名为姓名、地址、联系电话、电子邮件等)。为此,我遵循以下方法:

我将.ppt文件转换为pdf,然后使用PDFminer从pdf提取数据。从pdf中提取的文本不用任何分隔符分隔。因此,很难区分表中的名称和其他字段。

我正在研究的可能解决方案:

  1. 将.ppt文件转换为.pptx
  2. 解析.pptx文件的XML以获取格式化文本

我在将文件格式从.ppt转换为.pptx的第一步就卡住了。 我找不到在Python中将.ppt文件格式转换为.pptx格式的任何解决方案。


解决方案

我已经创建了此代码,希望它能为您工作:

    import win32com.client
    PptApp = win32com.client.Dispatch("Powerpoint.Application")
    PptApp.Visible = True
    PPtPresentation = PptApp.Presentations.Open(r'D:pptsample.ppt')
    PPtPresentation.SaveAs(r'D:pptfinal.pptx', 24)
    PPtPresentation.close()
    PptApp.Quit()

相关文章