如何使用 HALCON 实现字符提取与识别：一步步教程

最新推荐文章于 2025-06-23 19:59:55 发布

原创最新推荐文章于 2025-06-23 19:59:55 发布 · 513 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #图像处理 #笔记

一、引言

在机器视觉和图像处理领域，光学字符识别（OCR）是一项非常实用的技术，广泛应用于发票识别、车牌识别、验证码处理等领域。本篇博客将通过一个具体案例，使用 HALCON 软件，详细讲解如何从图像中提取字符并进行识别。我们将一步步分析代码逻辑，并对关键步骤进行优化，帮助读者实现字符提取与识别的功能。

二、案例背景

我们需要从图像 u.bmp 中提取字符并识别其内容。图像中可能包含倾斜的文本，因此我们需要先校正图像，然后提取字符区域，最后进行 OCR 识别。以下是代码的核心步骤和对应解释：

三、代码实现

以下是实现字符提取与识别的完整代码，结合注释解释每一步的逻辑。

1. 读取图像并显示窗口

// 读取图像
read_image (Image, 'C:/Users/15783/Desktop/halcon/7.OCR字符提取/作业练习/u.bmp')
get_image_size (Image, Width, Height)
dev_open_window (0, 0, Width, Height, 'black', WindowHandle)

说明：

使用 read_image 读取图像文件。
使用 get_image_size 获取图像的宽度和高度。
打开一个窗口，便于显示中间结果。

2. 图像预处理

// 计算图像的均值图像
mean_image (Image, ImageMean, 99, 99)

// 动态阈值分割，提取暗色区域
dyn_threshold (Image, ImageMean, RegionDynThresh, 15, 'dark')

// 连接区域
connection (RegionDynThresh, ConnectedRegions)

// 根据面积筛选区域
select_shape (ConnectedRegions, SelectedRegions, 'area', 'and', 200, 65743.7)

// 对筛选区域进行膨胀操作
dilation_circle (SelectedRegions, RegionDilation, 2.5)

说明：

均值图像：通过 mean_image 计算图像的均值图像，用于动态阈值分割。
动态阈值分割：使用 dyn_threshold 提取图像中的暗色区域，这些区域可能是字符区域。
连接区域：通过 connection 将分割后的区域连通，避免区域被分割成碎片。
筛选区域：使用 select_shape 根据面积筛选区域，去除过小或过大的区域。
膨胀操作：使用 dilation_circle 对筛选后的区域进行膨胀，确保字符区域更加完整。

3. 显示中间结果

// 显示原图像和提取的区域
dev_display (Image)
dev_set_colored (6)
dev_set_draw ('fill')
dev_display (RegionDilation)

说明：

原图像显示：显示原图像，便于与处理后的结果对比。
提取区域显示：显示经过膨胀操作后的字符区域，确认区域提取是否准确。

4. 区域排序与 OCR 识别

// 对区域进行排序
sort_region (RegionDilation, SortedRegions, 'character', 'true', 'row')

// 加载 OCR 模型
read_ocr_class_mlp ('Industrial_0-9A-Z_NoRej.omc', OCRHandle)

// 进行 OCR 识别
do_ocr_multi_class_mlp (SortedRegions, Image, OCRHandle, Class, Confidence)

// 清理 OCR 模型资源
clear_ocr_class_mlp (OCRHandle)

说明：

排序区域：使用 sort_region 对提取的字符区域进行排序，确保识别时的顺序正确。这里使用了 'character' 作为排序依据，表示按字符顺序排序。
加载 OCR 模型：加载预先训练好的 OCR 模型 Industrial_0-9A-Z_NoRej.omc，该模型用于识别数字和大写字母。
OCR 识别：使用 do_ocr_multi_class_mlp 对排序后的区域进行识别，并获取每个字符的类别和置信度。
清理资源：使用 clear_ocr_class_mlp 清理 OCR 模型的资源，释放内存。

5. 处理识别结果

// 处理识别结果
tuple_regexp_replace (sum(Class), '0', '0', Result)

说明：

识别结果拼接：使用 sum(Class) 将 OCR 识别的结果拼接成一个字符串。
处理噪声：如果识别结果中包含噪声（如误识别的字符），可以使用 tuple_regexp_replace 进行清理。

6. 显示最终结果

// 显示最终识别结果
disp_message (WindowHandle, '获得的结果是' + Result, 'window', 12, 12, 'black', 'true')

说明：

使用 disp_message 在打开的窗口中显示最终识别结果。

四、总结

通过上述步骤，我们可以从图像中提取字符并进行识别。以下是整个流程的总结：

读取图像并进行预处理（均值图像、动态阈值分割、区域连接和筛选）。
对提取的字符区域进行排序。
使用 OCR 模型对排序后的区域进行识别。
处理识别结果并输出最终结果。

通过合理调整参数和优化步骤，我们可以提高字符提取与识别的准确性和效率。希望这篇博客对您有所帮助！如果有任何问题，欢迎继续交流。

五、完整代码

以下是完整代码供参考：

// 读取图像
read_image (Image, 'C:/Users/15783/Desktop/halcon/7.OCR字符提取/作业练习/u.bmp')
get_image_size (Image, Width, Height)
dev_open_window (0, 0, Width, Height, 'black', WindowHandle)

// 计算图像的均值图像
mean_image (Image, ImageMean, 99, 99)

// 动态阈值分割，提取暗色区域
dyn_threshold (Image, ImageMean, RegionDynThresh, 15, 'dark')

// 连接区域
connection (RegionDynThresh, ConnectedRegions)

// 根据面积筛选区域
select_shape (ConnectedRegions, SelectedRegions, 'area', 'and', 200, 65743.7)

// 对筛选区域进行膨胀操作
dilation_circle (SelectedRegions, RegionDilation, 2.5)

// 显示原图像和提取的区域
dev_display (Image)
dev_set_colored (6)
dev_set_draw ('fill')
dev_display (RegionDilation)

// 对区域进行排序
sort_region (RegionDilation, SortedRegions, 'character', 'true', 'row')

// 加载 OCR 模型
read_ocr_class_mlp ('Industrial_0-9A-Z_NoRej.omc', OCRHandle)

// 进行 OCR 识别
do_ocr_multi_class_mlp (SortedRegions, Image, OCRHandle, Class, Confidence)

// 清理 OCR 模型资源
clear_ocr_class_mlp (OCRHandle)

// 处理识别结果
tuple_regexp_replace (sum(Class), '0', '0', Result)

// 显示最终识别结果
disp_message (WindowHandle, '获得的结果是' + Result, 'window', 12, 12, 'black', 'true')