参考:
/weixin_40165004/article/details/82632229
1.需求背景
因项目需求,需要提取身份证、发票(9/16更新内容)、荣誉证书上的文字信息,与相关文件进行匹配,而查阅相关资料,经过对比之后,发现用百度OCR文字识别API服务可以相应解决相关问题,识别率较好。当然,还不能够做到完全匹配,也有其中不足的地方,例如,发票中公章信息不能提取;发票周围的线圈被识别成了数字,etc。毕竟是免费的嘛,配合学校科研还是可以的。如果实在介意,百度云OCR有专门的自定义模板文字识别,自定义模板文字识别技术文档可以参考。
首先需要成为百度AI开放平台的开发者,就是要有百度AI的账号,具体参照新手指南,完成相关操作之后,就可以获取密钥如下图所示。
2.项目文件总览
其中需要的jar包分别为
Java文字识别SDK,下载地址,使用说明
解压后即可得到jar包如下所示
2.相关工具类FileUtil ,Base64Util ,HttpUtil, GsonUtils 请点击进行下载
3.相关代码
获取access_token
/**
@ Description:获取access_token代码@ author: Joy@ date:9月12日下午8:27:30
*/
package com.baidu.ai.api.auth;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import .HttpURLConnection;
import .URL;
import java.util.List;
import java.util.Map;
import org.json.JSONObject;
/**
@author Joy
/
public class AuthService {
/*
* 获取权限token
* @return 返回示例:
* {
* “access_token”: “24.460da4889caad24cccdb1fea17221975.2592000.1491995545.282335-1234567”,
* “expires_in”: 2592000
* }
*/
public static String getAuth() {
// 官网获取的 API Key 更新为你注册的
String clientId = “替换为你的百度云应用的AK”;//百度云应用的AK
// 官网获取的 Secret Key 更新为你注册的
String clientSecret = “替换为你的百度云应用的SK”;//百度云应用的SK
return getAuth(clientId, clientSecret);
}
/*** 获取API访问token* 该token有一定的有效期,需要自行管理,当失效时需重新获取.* @param ak - 百度云官网获取的 API Key* @param sk - 百度云官网获取的 Securet Key* @return assess_token 示例:* "24.460da4889caad24cccdb1fea17221975.2592000.1491995545.282335-1234567"*/public static String getAuth(String ak, String sk) {// 获取token地址String authHost = "/oauth/2.0/token?";String getAccessTokenUrl = authHost// 1. grant_type为固定参数+ "grant_type=client_credentials"// 2. 官网获取的 API Key+ "&client_id=" + ak// 3. 官网获取的 Secret Key+ "&client_secret=" + sk;try {URL realUrl = new URL(getAccessTokenUrl);// 打开和URL之间的连接HttpURLConnection connection = (HttpURLConnection) realUrl.openConnection();connection.setRequestMethod("GET");connection.connect();// 获取所有响应头字段Map<String, List<String>> map = connection.getHeaderFields();// 遍历所有的响应头字段for (String key : map.keySet()) {System.err.println(key + "--->" + map.get(key));}// 定义 BufferedReader输入流来读取URL的响应BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));String result = "";String line;while ((line = in.readLine()) != null) {result += line;}/*** 返回结果示例*/System.err.println("result:" + result);JSONObject jsonObject = new JSONObject(result);String access_token = jsonObject.getString("access_token");return access_token;} catch (Exception e) {System.err.printf("获取token失败!");e.printStackTrace(System.err);}return null;}
}
通用识别类代码
/**
@ Description:OCR 通用识别类@ author: Joy@ date:9月12日下午8:33:34
*/
package com.baidu.ai.aip.orc;
import .URLEncoder;
import com.baidu.ai.aip.util.FileUtil;
import com.baidu.ai.aip.util.HttpUtil;
import com.baidu.ai.api.auth.AuthService;
import com.baidu.aip.util.Base64Util;
/**
@author Joy
/
public class General {
/*
* 重要提示代码中所需工具类
* FileUtil,Base64Util,HttpUtil,GsonUtils请从
* /file/658A35ABAB2D404FBF903F64D47C1F72
* /file/C8D81F3301E24D2892968F09AE1AD6E2
* /file/544D677F5D4E4F17B4122FBD60DB82B3
* /file/470B3ACCA3FE43788B5A963BF0B625F3
* 下载
/
public static void main(String[] args) {
// 通用识别url
String otherHost = “/rest/2.0/ocr/v1/general”;
// 本地图片路径
String filePath = “E:\find.png”;//#####本地文件路径#####
try {
byte[] imgData = FileUtil.readFileByBytes(filePath);
String imgStr = Base64Util.encode(imgData);
String params = URLEncoder.encode(“image”, “UTF-8”) + “=” + URLEncoder.encode(imgStr, “UTF-8”);
/*
* 线上环境access_token有过期时间, 客户端可自行缓存,过期后重新获取。
/
String accessToken = AuthService.getAuth();//#####调用鉴权接口获取的token#####
String result = HttpUtil.post(otherHost, accessToken, params);
System.out.println(result);
} catch (Exception e) {
e.printStackTrace();
}
}
}
通用识别类,包含位置高精度
/*
@ Description:含位置高精度版@ author: Joy@ date:9月12日下午8:56:35
*/
package com.baidu.ai.aip.orc;
import .URLEncoder;
import com.baidu.ai.aip.util.FileUtil;
import com.baidu.ai.aip.util.HttpUtil;
import com.baidu.ai.api.auth.AuthService;
import com.baidu.aip.util.Base64Util;
/**
@author Joy
/
public class General2 {
/*
* 重要提示代码中所需工具类
* FileUtil,Base64Util,HttpUtil,GsonUtils请从
* /file/658A35ABAB2D404FBF903F64D47C1F72
* /file/C8D81F3301E24D2892968F09AE1AD6E2
* /file/544D677F5D4E4F17B4122FBD60DB82B3
* /file/470B3ACCA3FE43788B5A963BF0B625F3
* 下载
/
public static void main(String[] args) {
// 通用识别url
String otherHost = “/rest/2.0/ocr/v1/general”;
// 本地图片路径
String filePath = “E:\find.png”;//#####本地文件路径#####
try {
byte[] imgData = FileUtil.readFileByBytes(filePath);
String imgStr = Base64Util.encode(imgData);
String params = URLEncoder.encode(“image”, “UTF-8”) + “=” + URLEncoder.encode(imgStr, “UTF-8”);
/*
* 线上环境access_token有过期时间, 客户端可自行缓存,过期后重新获取。
/
String accessToken = AuthService.getAuth();//#####调用鉴权接口获取的token#####
String result = HttpUtil.post(otherHost, accessToken, params);
System.out.println(result);
} catch (Exception e) {
e.printStackTrace();
}
}
}
身份证识别
/*
@ Description:身份证识别@ author: Joy@ date:9月12日下午8:58:42
*/
package com.baidu.ai.aip.orc;
import java.awt.Color;
import java.awt.Image;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import .URLEncoder;
import javax.imageio.ImageIO;
import javax.swing.ImageIcon;
import javax.swing.JFileChooser;
import com.baidu.ai.aip.util.FileUtil;
import com.baidu.ai.aip.util.HttpUtil;
import com.baidu.ai.api.auth.AuthService;
import com.baidu.aip.util.Base64Util;
/**
@author Joy
/
public class Idcard {
/*
* 重要提示代码中所需工具类
* FileUtil,Base64Util,HttpUtil,GsonUtils请从
* /file/658A35ABAB2D404FBF903F64D47C1F72
* /file/C8D81F3301E24D2892968F09AE1AD6E2
* /file/544D677F5D4E4F17B4122FBD60DB82B3
* /file/470B3ACCA3FE43788B5A963BF0B625F3
* 下载
*/
public static void main(String[] args) {
// 身份证识别url
String idcardIdentificate = “/rest/2.0/ocr/v1/idcard”;
// 本地图片路径
String filePath = “E://IDCard4.jpg”;//#####本地文件路径#####
//
// 彩色照片转黑白 如果需要可以使用,嗯,不用也行
//
// JFileChooser jChooser = new JFileChooser();
// 设置默认的打开目录,如果不设的话按照window的默认目录(我的文档)
// jChooser.setCurrentDirectory(new File(“E://”));
// 打开一个对话框
// int index = jChooser.showDialog(null, “打开文件”);
// if (index == JFileChooser.APPROVE_OPTION) {
// filePath = jChooser.getSelectedFile().getAbsolutePath();
// }
// Image img = new ImageIcon(filePath).getImage();
// BufferedImage bfi = new BufferedImage(img.getWidth(null),img.getHeight(null),BufferedImage.TYPE_INT_RGB);
// bfi.getGraphics().drawImage(img, 0, 0,null);
// for(int y=0;y<bfi.getHeight();y++)
// for(int x=0;x<bfi.getWidth();x++) {
// Color pixel = new Color(bfi.getRGB(x, y));
// bfi.setRGB(x, y,new Color(getGray(pixel),getGray(pixel),getGray(pixel)).getRGB());
// }
// try {
// ImageIO.write(bfi, “JPEG”, new File(“IDCard3.jpg”));
// System.out.println(“照片转黑白成功la!!!”);
// } catch (IOException e1) {
// // TODO Auto-generated catch block
// e1.printStackTrace();
// }
try {byte[] imgData = FileUtil.readFileByBytes(filePath);String imgStr = Base64Util.encode(imgData);// 识别身份证正面id_card_side=front;识别身份证背面id_card_side=back;String params = "id_card_side=front&" + URLEncoder.encode("image", "UTF-8") + "="+ URLEncoder.encode(imgStr, "UTF-8");/*** 线上环境access_token有过期时间, 客户端可自行缓存,过期后重新获取。*/String accessToken = AuthService.getAuth();//#####调用鉴权接口获取的token#####String result = HttpUtil.post(idcardIdentificate, accessToken, params);System.out.println(result);int count = 1;for (int i = 0; i < result.length();i++){System.out.print(result.charAt(i));count++;if (count%120 == 0){System.out.print("\n");}}} catch (Exception e) {e.printStackTrace();}}public static int getGray(Color pixel) {return (pixel.getRed()*30+pixel.getGreen()*60+pixel.getBlue()*10)/100;}
}
银行卡识别
/**
@ Description:银行卡识别@ author: Joy@ date:9月12日下午9:00:11
*/
package com.baidu.ai.aip.orc;
import .URLEncoder;
import com.baidu.ai.aip.util.FileUtil;
import com.baidu.ai.aip.util.HttpUtil;
import com.baidu.ai.api.auth.AuthService;
import com.baidu.aip.util.Base64Util;
/**
@author Joy
/
public class Bankcard {
/*
* 重要提示代码中所需工具类
* FileUtil,Base64Util,HttpUtil,GsonUtils请从
* /file/658A35ABAB2D404FBF903F64D47C1F72
* /file/C8D81F3301E24D2892968F09AE1AD6E2
* /file/544D677F5D4E4F17B4122FBD60DB82B3
* /file/470B3ACCA3FE43788B5A963BF0B625F3
* 下载
/
public static void main(String[] args) {
// 银行卡识别url
String bankcardIdentificate = “/rest/2.0/ocr/v1/bankcard”;
// 本地图片路径
String filePath = “E://bankCard.jpg”;//"#####本地文件路径#####"
try {
byte[] imgData = FileUtil.readFileByBytes(filePath);
String imgStr = Base64Util.encode(imgData);
String params = URLEncoder.encode(“image”, “UTF-8”) + “=” + URLEncoder.encode(imgStr, “UTF-8”);
/*
* 线上环境access_token有过期时间, 客户端可自行缓存,过期后重新获取。
*/
String accessToken = AuthService.getAuth();//"#####调用鉴权接口获取的token#####"
String result = HttpUtil.post(bankcardIdentificate, accessToken, params);
System.out.println(result);
} catch (Exception e) {
e.printStackTrace();
}
}
}
9/16更新:通用票据识别
/**
@ Description:通用票据识别@ author: Joy@ date:9月16日下午9:06:31
*/
package com.baidu.ai.aip.orc;
import .URLEncoder;
import com.baidu.ai.aip.util.FileUtil;
import com.baidu.ai.aip.util.HttpUtil;
import com.baidu.ai.api.auth.AuthService;
import com.baidu.aip.util.Base64Util;
/**
@author Joy
/
public class Receipt {
/*
* 重要提示代码中所需工具类
* FileUtil,Base64Util,HttpUtil,GsonUtils请从
* /file/658A35ABAB2D404FBF903F64D47C1F72
* /file/C8D81F3301E24D2892968F09AE1AD6E2
* /file/544D677F5D4E4F17B4122FBD60DB82B3
* /file/470B3ACCA3FE43788B5A963BF0B625F3
* 下载
/
public static void main(String[] args) {
// 通用票据识别url
String receipt = “/rest/2.0/ocr/v1/receipt”;
// 本地图片路径
String filePath = “E://FP.jpg”;//"#####本地文件路径#####"
try {
byte[] imgData = FileUtil.readFileByBytes(filePath);
String imgStr = Base64Util.encode(imgData);
String params = URLEncoder.encode(“image”, “UTF-8”) + “=” + URLEncoder.encode(imgStr, “UTF-8”);
/*
* 线上环境access_token有过期时间, 客户端可自行缓存,过期后重新获取。
*/
String accessToken = AuthService.getAuth();//"#####调用鉴权接口获取的token#####"
String result = HttpUtil.post(receipt, accessToken, params);
System.out.println(result);
} catch (Exception e) {
e.printStackTrace();
}
}
}
4.注意事项
代码测试过了的,都真实可用,其中身份证识别还有段彩色转黑白的代码,不用也行,注释了就好。使用时注意将图片的地址改成你本地的地址就好。相关包的目录项截图也都在,进行对比建包建类即可。如果识别身份证只是缺少身份证号码的话,可以参考我另一篇博客,有详细说原因,链接。其实就是百度OCR对身份证号码有个校验。通过使用百度OCR接口,使Joy深刻认识到读懂技术文档的重要性。对于其识别的准确率,可以说一般使用是足够的。如果大家有什么问题欢迎留言或者联系Joy,知无不言言无不尽。QQ:2964328861。另外,近期再尝试使用SDK方式使用百度OCR文字识别,整理好之后再发一篇博客,相应代码移步下载吧,嗯,一起进步,如能赐教将不胜感激。
Java实现百度云OCR接口识别图片文字信息(也包含身份证 银行卡识别 更新添加通用票据识别)