小言_互联网的博客

两行代码读取pdf、docx文件

455人阅读  评论(0)

最近运行课件代码,发现pdf文件读取部分的函数失效。这里找到读取pdf文件的可运行代码,为了方便后续学习使用,我已将pdf和docx读取方法封装成pdfdocx包。

pdfdocx

只有简单的两个读取函数

  • read_pdf(file)

  • read_docx(file)

file为文件路径,函数运行后返回file文件内的文本数据。

安装

pip install pdfdocx

使用

读取pdf文件


   
  1. from pdfdocx  import read_pdf
  2. p_text = read_pdf( 'test/data.pdf')
  3. print(p_text)

Run

这是来⾃pdf⽂件内的内容

   
  1. from pdfdocx  import read_docx
  2. d_text = read_pdf( 'test/data.docx')
  3. print(d_text)

Run

这是来⾃docx⽂件内的内容

拆开pdfdocx

希望大家能安装好,如果安装或者使用失败,可以使用下面的代码作为备选方案

读取pdf


   
  1. from io  import StringIO
  2. from pdfminer.converter  import TextConverter
  3. from pdfminer.layout  import LAParams
  4. from pdfminer.pdfdocument  import PDFDocument
  5. from pdfminer.pdfinterp  import PDFResourceManager, PDFPageInterpreter
  6. from pdfminer.pdfpage  import PDFPage
  7. from pdfminer.pdfparser  import PDFParser
  8. import re
  9. def read_pdf(file):
  10.      "" "
  11.     读取pdf文件,并返回其中的文本内容
  12.     :param file: pdf文件路径
  13.     :return: docx中的文本内容
  14.     " ""
  15.     output_string = StringIO()
  16.     with open(file,  'rb') as in_file:
  17.         parser = PDFParser(in_file)
  18.         doc = PDFDocument(parser)
  19.         rsrcmgr = PDFResourceManager()
  20.         device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
  21.         interpreter = PDFPageInterpreter(rsrcmgr, device)
  22.          for page in PDFPage.create_pages(doc):
  23.             interpreter.process_page(page)
  24.     text = output_string.getvalue()
  25.      return text
  26.   

读取docx


   
  1. import docx
  2.   
  3. def read_docx(file):
  4.      "" "
  5.     读取docx文件,并返回其中的文本内容
  6.     :param file: docx文件路径
  7.     :return: docx中的文本内容
  8.     " ""
  9.     text =  ''
  10.     doc = docx.Document(file)
  11.     for para in doc.paragraphs:
  12.         text += para.text
  13.     return text

精彩回顾

中文文本分析相关资源汇总

cnsenti中文情绪情感分析库

5个小问题带你理解列表推导式

Python网络爬虫与文本数据分析

综述:文本分析在市场营销研究中的应用

LabelStudio多媒体数据标注工具[5星推荐]

如何批量下载上海证券交易所上市公司年报

Loughran&McDonald金融文本情感分析库

如何使用Python快速构建领域内情感词典

Python数据分析相关学习资源汇总帖

漂亮~pandas可以无缝衔接Bokeh

YelpDaset: 酒店管理类数据集10+G

万水千山总是情,给我点好看可好❤


转载:https://blog.csdn.net/weixin_38008864/article/details/105630519
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场