在Python中从Excel中获取文本框值

2022-04-07 00:00:00 python pandas excel openpyxl xlrd

问题描述

我有一个the following pattern的Excel文件(data.xlsx),我需要从该Excel文件的文本框中读取值。

我当前正在使用Pandas库,我试图获取该值,但遗憾的是找不到任何用于该目标的API。

有人知道如何做到这一点吗?

更多信息:

我的问题与Java中的this姐妹问题重复。

编辑:

我为任何想知道如何手动(即不使用pip的外部模块)在Excel文件中搜索形状(可能还有所有其他项)的人提供了一个解决方案。实际上,这很简单。请参阅我的评论。


解决方案

感谢所有的帮助,但这是我自己解决的。

我使用zipfile模块使其正常工作。显然,Excel is actually a suite that works on compressed XML files (changing the *.xlsx to *.zip reveals the contents of the file) when saving and reading from *.xlsx,所以我可以轻松地使用XML搜索所需的文本。

这是我制作的模块。通过调用Sheet('path/to/sheet.xlsx').shapes.text,您现在可以轻松地找到文本框内的文本:

import zipfile as z


class Sheet(str):
    @property
    def shapes(this):
        s = z.ZipFile(this)
        p='xl/drawings/drawing1.xml'  # shapes path, *.xlsx default
        p='drs/shapexml.xml'  # shapes path, *.xls default
        return XML(s.read(p))


class XML(object):
    def __init__(self, value):
        self.value = str(value)

    def __repr__(self):
        return repr(self.value)

    def __getitem__(self, i):
        return self.value[i]

    def tag_content(self, tag):
        return [XML(i) for i in self.value.split(tag)[1::2]]

    @property
    def text(self):
        t = self.tag_content('xdr:txBody')  # list of XML codes, each containing a seperate textboxes, messy (with extra xml that is)
        l = [i.tag_content('a:p>') for i in t]  # split into sublists by line breaks (inside the textbox), messy
        w = [[[h[1:-2] for h in i.tag_content('a:t')] if i else ['
'] for i in j] for j in l]  # clean into sublists by cell-by-cell basis (and mind empty lines)
        l = [[''.join(i) for i in j] for j in w]  #  join lines overlapping multiple cells into one sublist
        return ['
'.join(j) for j in l]  #  join sublists of lines into strings seperated by newline char

所以现在我的问题中提供的模式将输出为['comments extra'],而诸如:

的模式
  1. 这个 是

    文本 在……里面 一个 文本框 日期:

    A 工作表

  2. 和这个 是其他地方的另一个文本框

    不考虑重叠的单元格

将输出为['This is Text in a textbox on a sheet','And this is another text box somewhere else Regardless of the overlapped cells']

不客气。

相关文章