了解docx文件中的书签

2022-04-16 00:00:00 python xml docx python-docx openxml

问题描述

我正在尝试从Docx文件中提取书签，我编写了一段代码来提取一些Docx文件中的书签，但它在一些docx文件中找不到任何书签。我使用的是python-docx

我基本上是在查找w:bookmarkStart标记并转到其父标记并检索段落中的所有运行。但有些文档既没有w:bookmarkStart，也没有超级链接标签，但DOCX查看器能够识别书签。

以下是段落的XML内容，它是docx查看器中的书签，但不包含任何书签或超链接标记。

注意：我提到的代码适用于使用Google Docs创建的Docx文件。

    from docx.oxml.shared import qn
    from docx import Document

    def get_toc(self):
        doc_element = self.document.part._element
        bookmarks_list = doc_element.findall('.//' + qn('w:bookmarkStart'))
        for bookmark in bookmarks_list:
            par = bookmark.getparent()
            runs = par.findall(qn('w:r'))
            for run in runs:
                try:
                    print(' ', run.find(qn('w:t')).text, end=' ')
                except:
                    pass
            print('
','-'*50)

我是遗漏了什么，还是需要查找其他标记？

如果没有，我如何在这种情况下识别书签？

解决方案

在Open XML文档中，书签由一对匹配的w:bookmarkStart和一个w:bookmarkEnd元素定义，其中每个元素都有一个具有相同值的w:id属性。

以下是一个示例段落，其书签仅包含文本"Second"，而不包含该段落的全文(例如，"First，Second，and Third")。

<w:p>
  <w:r>
    <w:t xml:space="preserve">First, </w:t>
  </w:r>
  <w:bookmarkStart w:id="1" w:name="MyBookmarkName" />
  <w:r>
    <w:t>second</w:t>
  </w:r>
  <w:bookmarkEnd w:id="1" />
  <w:r>
    <w:t>, and third.</w:t>
  </w:r>
</w:p>

这意味着：

没有w:bookmarkStart和w:bookmarkEnd元素的书签(因此您链接的段落不包含书签)和
仅仅因为您发现w:bookmarkStart元素而检索w:p的全文是不正确的。

还有更多需要注意的事项：

一个书签可以跨越多个段落，省略包含w:bookmarkStart的w:p的一个或多个前导运行，以及包含w:bookmarkEnd的w:p的一个或多个尾随运行。
w:bookmarkStart和w:bookmarkEnd甚至可以出现在w:p元素之外，例如，作为w:body的子元素。

相关文章