R语言处理PDF软件包精选

2020-06-21 00:00:00 数据 语言 高效 统计 复旦大学

作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。

R中可以对PDF做很多操作,如关键词提取、页数统计、多PDF拆分与合并等。这里精选相关R包,以便于后续取用。

CRAN - Package pdfsearch:可以找到关键字在PDF文件中的所在行,以及上下的行的文本。如果要对PDF文件做文本分析,是一个很好的工具。

CRAN - Package staplr:对PDF文件进行合并、拆分、删除、旋转、重命名等操作。

CRAN - Package qpdf:对PDF文件进行拆分、合并和压缩。

CRAN - Package pdftools:可以对PDF中的数据进行提取,同时可以高效转格式(如JPG等图片格式)。

相关文章