第一句子网 > java图片文字识别tesseract-ocr

java图片文字识别tesseract-ocr

时间：2021-06-09 01:29:50

一、安装

/tesseract-ocr/tesseract

下载安装包：tesseract-ocr-setup-4.00.00dev.exe

下载语言包： chi_sim.traineddata,eng.traineddata

二、配置

（1）配置环境变量 TESSDATA_PREFIX=D:\tools\Tesseract-OCR\tessdata

（2）配置环境变量：path中添加 D:\tools\Tesseract-OCR

（2）将语言包放在安装目录 D:\tools\Tesseract-OCR\tessdata

二、测试

测试图片如下：

1. 命令行测试

再图片目录下，打开cmd窗口

tesseract test.jpg test -l chi_sim

如果翻译英文，则执行命令：

tesseract test.jpg test -l eng

结果：生成test.txt

2. 代码测试

引入依赖

<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.4</version></dependency>

public static void main(String[] args) {String imagePath = "C:\\Users\\x\\Desktop\\img\\test.jpg";try {BufferedImage textImage = ImageIO.read(new File(imagePath));Tesseract instance = new Tesseract();//设置语言包路径instance.setDatapath("D:\\tools\\Tesseract-OCR\\tessdata");//设置训练库//设置中文识别instance.setLanguage("chi_sim");String result = instance.doOCR(textImage);System.out.println(result);} catch (Exception e) {}}

结果：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。