在python中使用制表器循环访问pdf文件

2022-03-30 00:00:00 python pdf extraction tabula

问题描述

我很难让一段代码正常工作。我想遍历文件夹中的pdf文件,提取TABULA包认为的表,将它们提取到一个数据帧中,并将特定pdf中的所有表写入一个CSV文件。

我查看了this post(以及其他几个),但我仍然无法使其正常工作。脚本似乎循环遍历文件,提取一些表,但它似乎没有遍历文件,而且我无法让它将所有数据帧写入CSV文件。该脚本只写入CSV中的最后一个。

这就是我到目前为止所拥有的。任何帮助都将不胜感激,特别是如何正确地循环文件,以及如何将一个pdf中的所有表写入一个csv文件。我被卡住了……

pdf_folder = 'C:\PDF extract\pdf\'
csv_folder = 'C:\PDF extract\csv\'  

    paths = [pdf_folder + fn for fn in os.listdir(pdf_folder) if fn.endswith('.pdf')]
    for path in paths:
        listdf = tabula.read_pdf(path, encoding = 'latin1', pages = 'all', nospreadsheet = True,multiple_tables=True)
        path = path.replace('pdf', 'csv')
        for df in listdf: (df.to_csv(path, index = False))  

解决方案

就像@Scott Hunter提到的那样,您没有使用csv_Folders

另外,我认为您正在覆盖创建的.csv文件:

for df in listdf: (df.to_csv(path, index = False))

对于for循环的每次迭代,PATH变量保持不变。

编辑: 您可能应该尝试这样做:

pdf_folder = 'C:\PDF extract\pdf\'
paths = [pdf_folder + fn for fn in os.listdir(pdf_folder) if fn.endswith('.pdf')]

for path in paths:
    listdf = tabula.read_pdf(path, encoding = 'latin1', pages = 'all', nospreadsheet = True,multiple_tables=True)
    path = path.replace('pdf', 'csv')
    df_concat = pd.concat(listdf)
    df_concat.to_csv(path, index = False)

相关文章