小言_互联网的博客

Python办公自动化|从Excel到Word

414人阅读  评论(0)

前言

在前几天的文章中我们讲解了如何从Word表格中提取指定数据并按照格式保存到Excel中,今天我们将再次以一位读者提出的真实需求来讲解如何使用Python从Excel中计算、整理数据并写入Word中,其实并不难,主要就是以下两步:

  • openpyxl读取Excel获取内容
  • docx读写Word文件

那我们开始吧!

需求确认

首先来看下我们需要处理的Excel部分数据,因涉及隐私已经将数据皮卡丘化

可以看到数据非常多,并且还存在重复数据。而我们要做的就是对每一列的数据按照一定的规则进行计算、整理并使用Python自动填入到Word中,大致的要求如下

上面仅是部分要求,真实需要填入word中的数据要更多!

除了对按照格式进行处理并存入Word中指定位置之外,还有一个需求:最终输出的word文件名还需要按照一定规则生成:

OK,需求分析完毕,接下来看Python如何解决!

Python实现

首先我们使用Python对该Excel进行解析


  
  1. from openpyxl import load_workbook
  2. import os
  3. # 获取桌面的路径
  4. def GetDesktopPath():
  5. return os.path.join(os.path.expanduser( "~"), 'Desktop')
  6. path = GetDesktopPath() + '/资料/' # 形成文件夹的路径便后续重复使用
  7. workbook = load_workbook(filename=path + '数据.xlsx')
  8. sheet = workbook.active # 获取当前页
  9. # 可以用代码获取数据范围,如果要批处理循环迭代也方便
  10. # 获取有数据范围
  11. print(sheet.dimensions)
  12. # A1:W10

利用openpyxl读取单元格有以下几种用法


  
  1. cells = sheet[ 'A1:A4'] # 返回A1-A4的4个单元格
  2. cells = sheet[ 'A'] # 获取A列
  3. cells = sheet[ 'A:C'] # 获取A-C列
  4. cells = sheet[ 5] # 获取第5行
  5. # 注意如果是上述用cells获取返回的是嵌套元祖
  6. for cell in cells:
  7. print(cell[ 0].value) # 遍历cells依然需要取出元祖中元素才可以获取值
  8. # 获取一个范围的所有cell
  9. # 也可以用iter_col返回列
  10. for row in sheet.iter_rows(min_row= 1, max_row= 3,min_col= 2, max_col= 4):
  11. for cell in row:
  12. print(cell.value)

明白了原理我们就可以解析获取Excel中的数据了


  
  1. # SQE
  2. SQE = sheet[ 'Q2']. value
  3. # 供应商&制造商
  4. supplier = sheet[ 'G2']. value
  5. # 采购单号
  6. C2_10 = sheet[ 'C2:C10'] # 返回cell.tuple对象
  7. # 利用列表推导式后面同理
  8. vC2_10 = [str(cell[ 0]. value) for cell in C2_10]
  9. # 用set简易去重后用,连接,填word表用
  10. order_num = ','. join( set(vC2_10))
  11. # 用set简易去重后用&连接,word文件名命名使用
  12. order_num_title = '&'. join( set(vC2_10))
  13. # 产品型号
  14. T2_10 = sheet[ 'T2:T10']
  15. vT2_10 = [str(cell[ 0]. value) for cell in T2_10]
  16. ptype = ','. join( set(vT2_10))
  17. # 产品描述
  18. P2_10 = sheet[ 'P2:P10']
  19. vP2_10 = [str(cell[ 0]. value) for cell in P2_10]
  20. info = ','. join( set(vP2_10))
  21. info_title = '&'. join( set(vP2_10))
  22. # 日期
  23. # 用datetime库获取今日时间以及相应格式化
  24. import datetime
  25. today = datetime.datetime.today()
  26. time = today.strftime( '%Y年%m月%d日')
  27. # 验货数量
  28. V2_10 = sheet[ 'V2:V10']
  29. vV2_10 = [ int(cell[ 0]. value) for cell in V2_10]
  30. total_num = sum(vV2_10) # 计算总数量
  31. # 验货箱数
  32. W2_10 = sheet[ 'W2:W10']
  33. vW2_10 = [ int(cell[ 0]. value) for cell in W2_10]
  34. box_num = sum(vW2_10)
  35. # 生成最终需要的word文件名
  36. title = f '{order_num_title}-{supplier}-{total_num}-{info_title}-{time}-验货报告'
  37. print(title)

通过上面的代码,我们就成功的从Excel中提取出来数据,这样Excel部分就结束了,接下来进行word的填表啦,由于这里我们默认读取的word是.docx格式的,实际上读者的需求是.doc格式文件,所以windows用户可以用如下代码批量转化doc,前提是安装好win32com


  
  1. # pip install pypiwin32
  2. from win32com import client
  3. docx_path = path + '模板.docx'
  4. # doc转docx的函数
  5. def doc2docx(doc_path,docx_path):
  6. word = client.Dispatch( "Word.Application")
  7. doc = word.Documents.Open(doc_path)
  8. doc.SaveAs(docx_path, 16)
  9. doc.Close()
  10. word.Quit()
  11. print( '\n doc文件已转换为docx \n')
  12. if not os.path.exists(docx_path):
  13. doc2docx(docx_path[: -1], docx_path)

不过在Mac下暂时没有好的解决策略,如果有思路欢迎交流,好了有docx格式文件后我们继续操作Word部分


  
  1. docx_path = path + '模板.docx'
  2. from docx import Document
  3. # 实例化
  4. document = Document(docx_path)
  5. # 读取word中的所有表格
  6. tables = document.tables
  7. # print(len(tables))
  8. # 15

确定好每个表格数后即可进行相应的填报操作,table的用法和openpyxl中非常类似,注意索引和原生python一样都是从0开始


  
  1. tables[ 0].cell( 1, 1). text = SQE
  2. tables[ 1].cell( 1, 1). text = supplier
  3. tables[ 1].cell( 2, 1). text = supplier
  4. tables[ 1].cell( 3, 1). text = ptype
  5. tables[ 1].cell( 4, 1). text = info
  6. tables[ 1].cell( 5, 1). text = order_num
  7. tables[ 1].cell( 7, 1). text = time

上面代码完成Word中这一部分表格

我们继续用Python填写下一个表格


  
  1. for i in range( 2, 11):
  2. tables[ 6].cell(i, 0). text = str(sheet[f 'T{i}'].value)
  3. tables[ 6].cell(i, 1). text = str(sheet[f 'P{i}'].value)
  4. tables[ 6].cell(i, 2). text = str(sheet[f 'C{i}'].value)
  5. tables[ 6].cell(i, 4). text = str(sheet[f 'V{i}'].value)
  6. tables[ 6].cell(i, 5). text = str(sheet[f 'V{i}'].value)
  7. tables[ 6].cell(i, 6). text = '0'
  8. tables[ 6].cell(i, 7). text = str(sheet[f 'W{i}'].value)
  9. tables[ 6].cell(i, 8). text = '0'
  10. tables[ 6].cell( 12, 4). text = str(total_num)
  11. tables[ 6].cell( 12, 5). text = str(total_num)
  12. tables[ 6].cell( 12, 7). text = str(box_num)

这里需要注意两个细节:

  • word写入的数据需是字符串,所以从Excel获取的数据需要用str格式化
  • 表格可能存在合并等其他情况,因此你看到的行数和列数可能不是真实的,需要用代码不断测试。

按照上面的办法,将之前从Excel中取出来的数据一一填充到Word中对应位置就大功告成!最后保存一下即可。


  
  1. document.save(path + f'{title}.docx')
  2. print( '\n文件已生成')

结束语

回顾上面的过程,其实从需求和文件格式上看,这次文件的读写解析任务较复杂,码代码和思考时间会较久,所以当我们在考虑使用Python进行办公自动化之前需要想清楚这个问题:这次需要完成的任务是否工作量很多,或者以后长期需要进行,用Python是否可以解放双手?如果不是,实际上手动就可以完成,那么就失去了自动化办公的意义!

注:本文使用的数据与源码可在公众号:早起Python内获取


转载:https://blog.csdn.net/weixin_41846769/article/details/105729205
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场