1.安装Pillow
pip install Pillow
2.安装tesseract-ocr
github地址: /tesseract-ocr/tesseract
windows:
The latest installer can be downloaded here: tesseract-ocr-setup-3.05.01.exe
3.安装pytesseract
pip install pytesseract
4.遇到的问题:
FileNotFoundError:[WinError 2] 系统找不到指定的文件
解决方法:
将tesseract.exe添加到环境变量PATH中,
例如:我自己安装的位置为D:\Program Files\Tesseract-OCR;默认安装的话,路径为C:\Program Files (x86)\Tesseract-OCR
注意: 为了使环境变量生效,需要关闭cmd窗口或是关闭pycharm等ide重新启动
pytesseract.pytesseract.TesseractError:(1, ‘Error opening data file \Tesseract-OCR\tessdata/eng.traineddata’)
解决办法:
将tessdata目录的上级目录所在路径(默认为tesseract-ocr安装目录)添加至TESSDATA_PREFIX环境变量中
例如:我自己安装的位置为D:\Program Files\Tesseract-OCR;默认安装的话,路径为C:\Program Files (x86)\Tesseract-OCR