一、.xls和.xlsx两种后缀的区别
excel文档有.xls和.xlsx两种后缀,那么这两种后缀有什么区别呢?
1.1 文件核心结构不同
xls 是一个特有的二进制格式,其核心结构是复合文档类型的结构。
xlsx 的核心结构是 XML 类型的结构,并且基于XML进行压缩(占用空间更小),所以也可以看做zip文件,将一个“.xlsx”文件的后缀改为ZIP后,用解压软件解压,可以看到里面有一个xml文件和文件的主要内容。
1.2 版本不同
xls是excel及以前版本所生成的文件格式
xlsx是excel及以后版本所生成的文件格式
(excel 之后版本可以打开上述两种格式,但是excel只能打开xls格式)
1.3 最大行列得数量不同
xls最大只有65536行、256列
xlsx可以有1048576行、16384列
二、java中对Excel文件的解析
2.1引入所需的jar包
java解析问Excel需要使用poi,在pom文件中引入下面两个poi的jar包(因为现在手中项目用的是3.15版本,我就按照这个版本来写啦。新版本4.0+的和这个版本会有一些冲突,有些方法变化了)
<dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>3.15</version></dependency><dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>3.15</version></dependency>
那么这两个jar包都是做什么用的呢?
解析.xls类型的文件需要用到HSSFWorkbook类,这个类就在poi的jar包内;
解析.xlsx类型的文件需要用到XSSFWorkbook类,这个类就在poi-ooxml的jar包内。
2.2常用的api
org.apache.poi.ss.usermodel.Workbook : 对应Excel文档;org.apache.poi.hssf.usermodel.HSSFWorkbook : 对应xls格式的Excel文档;org.apache.poi.xssf.usermodel.XSSFWorkbook : 对应xlsx格式的Excel文档;org.apache.poi.ss.usermodel.Sheet : 对应Excel文档中的一个sheet; org.apache.poi.ss.usermodel.Row : 对应一个sheet中的一行; org.apache.poi.ss.usermodel.Cell : 对应一个单元格。
2.3单元格类型介绍
cell.getCellType()可以获取单元格的类型,返回值为int,类型如下:
CELL_TYPE_NUMERIC:数值型
当type是NUMERIC的时候,又分为数字格式和日期格式。使用org.apache.poi.ss.usermodel.DateUtil.isCellDateFormatted(Cell cell),能够判断是否为日期格式。
CELL_TYPE_STRING:字符串型
cell.getRichStringCellValue():以XSSFRichTextString形式获取单元格的值。对于数字单元格,我们抛出异常。对于空白单元格,我们返回一个空字符串。对于公式单元格,如果返回字符串,则返回预先计算的值,否则返回异常。
cell.getStringCellValue():以字符串形式获取单元格的值。对于数字单元格,我们抛出异常。对于空白单元格,我们返回一个空字符串。对于不是字符串公式的FormulaCells,我们抛出异常。
CELL_TYPE_BOOLEAN:布尔型
cell.getBooleanCellValue():以布尔值形式获取单元格的值。对于字符串,数字和错误,我们抛出异常。对于空白单元格,我们返回false。
CELL_TYPE_FORMULA:公式型
cell.getCellFormula():返回单元格的公式。
CELL_TYPE_BLANK:空值型
CELL_TYPE_ERROR:错误型
2.4准备要解析的文档
第三个sheet没有值
2.5解析这个表格:ExcelUtils
这个Util主要做的是解析文档,输出单元格中的内容。
package com.xuexue.firstproject.utils;import org.apache.poi.hssf.usermodel.HSSFWorkbook;import org.apache.poi.ss.usermodel.*;import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import java.text.SimpleDateFormat;import java.util.Date;public class ExcelUtils {public static void main(String[] args) {Workbook workbook = readExcel("F:\\work\\other\\测试xls文档解析.xls");//Workbook workbook = readExcel("F:\\work\\other\\测试xlsx文档解析.xlsx");//获得sheet的数量(sheet的index是从0开始的)int sheetCount = workbook.getNumberOfSheets();System.out.println("文档一共有"+sheetCount+"个Sheet");//遍历Sheetfor(int i = 0;i < sheetCount;i++){System.out.println("开始遍历第"+i+"个sheet_________________________________________________________________________");//得到SheetSheet sheet = workbook.getSheetAt(i);//得到每个Sheet的行数,此工作表中包含的最后一行(Row的index是从0开始的)int rowCount = sheet.getLastRowNum();System.out.println("第"+i+"个sheet中一共有"+rowCount+"行");//遍历Rowfor(int j = 0 ;j <= rowCount;j++){System.out.println("开始遍历第"+j+"行~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~");//得到RowRow row = sheet.getRow(j);if(row == null){System.out.println("第"+j+"行为空,跳出本行");continue;}//得到每个Row的单元格数int cellCount = row.getLastCellNum();System.out.println("第"+i+"个sheet中的第"+j+"行有"+cellCount+"个单元格");for(int k = 0 ;k < cellCount;k++){System.out.println("开始遍历第"+k+"个单元格+++++++");Cell cell = row.getCell(k);//输出单元格里的值System.out.println(getCellFormatValue(cell));}System.out.println("第"+j+"行遍历结束");}System.out.println("第"+i+"个sheet遍历结束");}}/*** 根据文件地址,解析后缀返回不同的Workbook对象* @param filePath 文件地址* @return Excel文档对象Workbook*/public static Workbook readExcel(String filePath){if(filePath == null || filePath.equals("")){return null;}//得到文件后缀String suffix = filePath.substring(filePath.lastIndexOf("."));System.out.println(suffix);try {InputStream is = new FileInputStream(filePath);if(".xls".equals(suffix)){System.out.println("文件类型是.xls");return new HSSFWorkbook(is);}if(".xlsx".equals(suffix)){System.out.println("文件类型是.xlsx");return new XSSFWorkbook(is);}return null;} catch (FileNotFoundException e) {e.printStackTrace();System.out.println("文件没有找到");} catch (IOException e) {e.printStackTrace();System.out.println("发生io异常");}return null;}public static Object getCellFormatValue(Cell cell){Object cellValue;if(cell!=null){//判断cell类型switch(cell.getCellType()){//空值单元格case Cell.CELL_TYPE_BLANK:{System.out.println("空单元格");cellValue = "";break;}//数值型单元格 getNumericCellValue()以数字形式获取单元格的值。case Cell.CELL_TYPE_NUMERIC:{//判断cell是否为日期格式if(DateUtil.isCellDateFormatted(cell)){System.out.println("日期格式");//转换为日期格式YYYY-mm-dd//cellValue = cell.getDateCellValue();Date date = cell.getDateCellValue();SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");cellValue = dateFormat.format(date);}else{//数字System.out.println("数字格式");cellValue = cell.getNumericCellValue();}break;}//公式型单元格getCellFormula()返回单元格的公式case Cell.CELL_TYPE_FORMULA:{System.out.println("公式型");System.out.println(cell.getCellFormula());cellValue = String.valueOf(cell.getNumericCellValue());break;}//字符串单元格case Cell.CELL_TYPE_STRING:{System.out.println("字符串格式");cellValue = cell.getRichStringCellValue().getString();break;}//布尔值型单元格case Cell.CELL_TYPE_BOOLEAN:{System.out.println("布尔值");cellValue = String.valueOf(cell.getBooleanCellValue());break;}default:cellValue = "";}}else{cellValue = "";}return cellValue;}}
2.6一些其他方法简记
workbook.getNumberOfSheets():获取工作簿中的电子表格数量。返回int类型的值。workbook.getSheetAt(int index):获取给定索引处的Sheet对象。返回Sheet对象。workbook.getActiveSheetIndex():方便的方法来获取活动表。活动工作表是在Excel中查看工作簿时当前显示的工作表。“选定”工作表是一个独特的概念。sheet.getLastRowNum():获取工作表的最后一行。(从0开始)sheet.getRow(int rownum):根据传参数值获得行对象。row.getLastCellNum():获取一行中最后一个单元格。(从0开始)row.getCell(k):根据传参数值获得单元格对象。
这篇文章只是一个简单的使用,会有一些小bug,更多的内容,还要查看poi的官方网站。