一、导入相关的依赖包
三、实现相应的工具类
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.springframework.util.StringUtils;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
public class Wordutil {
public static void main(String[] args) throws Exception {
Wordutil wordutil=new Wordutil();
wordutil.testReadByExtractor("/xxxx/xxxx/xxxxxxxxxx.doc);
}
public void testReadByExtractor(String absolutePath) throws Exception {
InputStream is = new FileInputStream(absolutePath);
WordExtractor extractor = new WordExtractor(is);
//获取各个段落的文本,这种适合简单的文本格式
String paraTexts[] = extractor.getParagraphText();
for (int i=0; i

三、如果是表格形式的需要根据是docx版本或者是doc版本使用XWPFDocument,以及HWPFDocument进行读取相应的文件,word文档中表格的读取,如果是用模板.ftl文件导出的word,无法进行相应的读取,需要重新将文件进行另存为,然后再一次读取。
其中需要的依赖包

四、代码的实现
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.usermodel.*;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFTable;
import org.apache.poi.xwpf.usermodel.XWPFTableCell;
import org.apache.poi.xwpf.usermodel.XWPFTableRow;
import org.springframework.util.StringUtils;
import java.io.FileInputStream;
import java.util.Iterator;
import java.util.List;
/**
* word文档中表格的读取,如果是用模板.ftl文件导出的word,无法进行相应的读取,
* 需要将word文档另存为
*/
public class DocTableReadUtil {
/**
* 读取文档中表格
*/
public static String getWord(String filePath) {
String wordContent = "";
String tmpWord = "";//报告录入人: 录入时间:
try {
FileInputStream in = new FileInputStream(filePath);//载入文档
// 处理docx格式 即office2007以后版本
if (filePath.toLowerCase().endsWith("docx")) {
//word 2007 图片不会被读取, 表格中的数据会被放在字符串的最后
XWPFDocument xwpf = new XWPFDocument(in);//得到word文档的信息
Iterator


