大部分人平时的工作都离不开Word的使用,很多岗位上每天工作涉及到的Word处理可能千篇一律,都是固定的模板,仅仅是修改部分信息就生成一个新的Word文件。由于Word文件本身解析起来比较复杂,本文从另一个思路来将解析的工作变得针对程序开发人员来说更简单,更加容易上手。(注:本文不提供代码)
首先我们拿下面这边Word来当例子:
上面这个申请表(当然很多类似的简历、请假条、申请单、信息表等都可以),首先第一步我们只需要对经常需要修改的部分加上一些占位符,例如这里的{姓名}和{手机},然后将这个Word文件后缀修改成.rar(.zip也可以),
下一步进行文件解压,我们就得到一个这样的文件夹。
对上述的每个文件夹点点看看,发现里面除_rels以外都是xml文件,由此我们可以了解到其实Word文件可以理解成是某很多个xml文件组合打包生成的,这里我们就在文件中找一下我们的占位符在哪里,原来相关的占位符和表格里的其他一些信息都是放在了word/document.xml这个文件里。
解析xml对于程序开发人员来说就简单多了,我们只需要对document.xml这个文件中的占位符进行相应的替换,然后对整个文件夹重新打包,最后把打包后的文件后缀修改成docx,新的Word文件就生成了。