使用python-tesseract获取识别单词的边界框。

12 浏览2023年5月3日

匿名的 2023年5月3日

0 Comments

我正在使用python-tesseract从图像中提取单词。这是一个用于tesseract的Python封装，而tesseract是一个OCR代码。

我正在使用以下代码获取单词：

import tesseract
api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz")
api.SetPageSegMode(tesseract.PSM_AUTO)
mImgFile = "test.jpg"
mBuffer=open(mImgFile,"rb").read()
result = tesseract.ProcessPagesBuffer(mBuffer,len(mBuffer),api)
print "result(ProcessPagesBuffer)=",result

这只返回单词，而不包含它们在图像中的位置/大小/方向（或者换句话说，包含它们的边界框）。我想知道是否有办法也获取这些信息。

提取边界框并将其保存为图像。

Tesseract OCR在检测数字方面遇到困难。

如何使用Python从图像中提取元数据？

Pytesseract: "TesseractNotFound错误：未安装Tesseract或未在您的路径中找到"，我该如何修复这个问题？

如何在Tesseract和OpenCV之间进行选择？[已关闭]

通过OCR从T恤照片中提取代码

YOLOv8获取预测的边界框

如何在最佳匹配上绘制边界框？

Pytesseract OCR多个配置选项

将PDF转换为图像，但在放大后。

OpenCV：在一个区域周围绘制一个矩形。

将Google Vision API的文本检测限制为特定区域。

低质量数字图像的OCR预处理方法是什么？

使用mss调整屏幕截图的大小，以便更好地使用pytesseract进行阅读。

将扫描的pdf转换为文本的python代码

在Python中获取TIFF图像的尺寸，而不使用附加模块。

如何使用PIL获取图片尺寸？

Microsoft计算机视觉API或Google的Cloud Vision API能否获取对象的位置？

图像识别：一个盒子和随机放置的文本

在使用python时，为单色图像中的斑点绘制矩形边界框。

使用python-tesseract获取识别单词的边界框。

0 答案