java图像识别

本文讲述了作者在软件杯项目中使用Java进行工商图片文字提取的实践,重点介绍了如何利用Tesseract-OCR和tess4j框架处理图像,包括预处理、词库训练以提高识别速度和准确率。通过分享经验,强调了程序员需要掌握AI和大数据技术的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今年软件杯有一个项目是工商图片文字提取。大致的要求就是将天猫给的50张样例图片中的企业名称和注册号提取出来。速度和准确率是这个项目的关键。
我觉得软件杯历年的项目都挺有难度的,很有挑战性。近几年由于人工智能和大数据的飞速发展,项目命题也偏向这方面而不是传统项目了。所以对于程序员来说,除了了解传统项目知识(比如java web三大框架),还要与时俱进,自主学习大数据和人工智能的前沿知识,我认为现在及时转型对个人发展是非常重要的。这可能决定未来的走向,因为在不远的将来,AI和大数据将是主流。
工商图片文字提取涉及到计算机视觉处理,也就是图像识别。本来是想用python写的,会方便点,但是那时候看项目的语言要求,好像不能使用python,只能用java写咯。java图像处理这方面还真不如python。由于底层涉及太多的像素处理等等,我用的是Tesseract-OCR,tess4j这个谷歌的开源框架,识别文字挺好的。能识别一些常用的文字,底层代码都是C++写的,然后用java封装起来,写好方法供上层调用。
这个框架自行百度下载然后配置好就ok了,下面看看我的maven项目结构。
项目结构
有个特别重要的是tessdata文件夹中要放一些词库,比如英文词库eng.traineddata,中文词库chi_sim.traineddata(要自行下载)等等。如果你想提高这套框架识别的速度和准确率的话,可以去训练对应词库,然后加入到tessdata文件夹下,这样对特定的文字群将会有更好的识别效果。以前是接近0.9秒一张,训练词库以后可以达到0.1秒左右。
另外在识别图片之前,还需要对一些难点图片进行特殊处理,比如翻转,放大缩小,去水印(二值化),灰度处理,图片截取等等,这样预处理对后面的识别有很大的帮助。
总代码:

package Test;

import com.recognition.software.jdeskew.ImageDeskew;
import net.sourceforge.tess4j.ITessAPI;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.Word;
import net.sourceforge.tess4j.util.ImageHelper;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.util.Date;
import java.util.List;

    public class Test {
    static final double MINIMUM_DESKEW_THRESHOLD = 0.05d;
    static ITesseract instance;
    public static void main(String[] args) throws Exception{
        Date data1=new Date();
          //testEn();
         testZh();
        //Wordbyword_extraction();
        Date data2=new Date();
        System.out.println((data2.getTime()-data1.getTime())/1000);
    }

    //使用英文字库 - 识别图片
    public static void testEn() throws 
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值