导读
2023年以ChatGPT为代表的大语言模型横空出世,它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力,为人工智能技术的发展开辟了新的可能性。同时,人工智能技术正在进入各种应用领域,在智慧城市、智能制造、智慧医疗、智慧农业等领域发挥着重要作用。
柴火创客2024年将依托母公司Seeed矽递科技在人工智能领域的创新硬件,与全球创客爱好者共建“模型仓”,通过“SenseCraft AI”平台可以让使用者快速部署应用体验人工智能技术!
本期介绍:模型案例:| 苹果检测模型!
Vision Transformer
Vision Transformer(ViT)是一种基于Transformer架构的图像处理模型,最初由Google Research在2020年提出。与传统的卷积神经网络(CNN)不同,ViT利用自注意力机制来处理图像数据,取得了非常好的性能。
主要特点
模型架构:
ViT将输入图像分成固定大小的块(patch)。每个块被展平,并通过线性映射转换成固定维度的嵌入向量。
这些嵌入向量与位置编码结合后,作为序列输入送入Transformer的编码器。
自注意力机制:
ViT使用自注意力机制来捕捉图像块之间的关系。通过这种方式,模型能够在全局范围内学习到更丰富的上下文信息。
训练和性能:
ViT在大规模数据集(例如ImageNet)上进行了预训练,然后可以微调以适应具体的任务。它在图像分类任务上表现出色,且在特定的数据集上超越了许多传统的CNN架构。
模型架构
输入准备:
输入图像被分割成不重叠的块。然后将每个面片展平并线性嵌入到向量空间中。添加位置嵌入以保留空间信息。
Transformer编码器:
该模型由多个Transformer编码器层组成,每个编码器层包含:
-多头自注意力:该机制计算所有补丁对之间的注意力分数,允许模型学习关系,而不-管图像中的距离如何。
-前馈神经网络:每个注意力输出都通过前馈网络(具有激活功能)来增强学习能力。
-层归一化和残差连接:这些用于稳定训练和提高收敛性。
分类头:
在通过编码器层之后,一个特殊的token(通常称为类token)用于最终分类。对应于该token的输出被馈送到分类器(通常是全连接层)以产生最终预测。
苹果检测模型
该 AI 模型利用先进的 Swift yolo 算法,专注于苹果识别,可以准确检测和标记实时视频流中的苹果。它特别适用于 Seeed Studio Grove Vision AI (V2) 设备,提供高兼容性和稳定性。
苹果识别场景应用
农业监测与管理
- 水果成熟度评估:通过图像识别,判断苹果的成熟度,帮助农民选择最佳采收时机,提高产量和质量。
- 病虫害监测:利用模型检测苹果树及果实的病虫害情况,及时采取防治措施,减少损失。
- 作物健康监测:监控苹果树的整体生长状态,包括叶片健康、颜色变化等,以便做出相应的施肥和灌溉调整。
质量控制与分拣
- 智能分拣系统:在包装过程中,利用视觉检测模型对不同质量的苹果进行分拣,确保只有合格的产品进入市场。
- 表面缺陷检测:识别苹果表面是否存在缺陷,如斑点、伤痕、瑕疵等,从而提高出货质量和消费者满意度。
零售与消费体验
- 智能购物助手:应用于移动应用或智能硬件,消费者通过扫描苹果的图像,可以获取多种信息,如营养成分、种类、产地等。
- 自动结账系统:在无人超市等场景中,利用图像识别进行快速结账,提升购物效率。
科研与开发
- 科学研究:通过数据集构建与分析,深入研究苹果的生长特性、遗传变异和育种方向,为新品种开发提供数据支持。
- 农业机器人:在智能农业中,结合深度学习与机器人技术,实现精准农业,机器人可以自主识别并采摘成熟的苹果。
在Grove - Vision AI V2模块上部署此模型
- 打开SenseCraft AI平台,如果第一次使用请先注册一个会员账号,还可以设置语言为中文。
平台地址:https://sensecraft.seeed.cc/ai/#/model
2、在顶部单击【预训练模型】菜单,在公共AI模型列表9中找到【苹果检测】模型,单击此模型图片,如下图所示。
3、进入【苹果检测】模型介绍页面,单击右侧的“部署模型”按钮,如下图所示。
- 进入部署苹果检测模型页面,按提示步骤先连接摄像头,再连接设备到电脑USB接口上,最后单击【连接设备】按钮,如下图所示。
5、弹出部署模型窗口,单击“确定”按钮,如下图所示。
6、弹出连接到串行端口窗口,选择端口号后单击“连接”按钮,如下图所示。
7、开始进行模型部署、固件下载、设备重启等过程,完成后在预览中即可看到当前摄像头视频内容,将摄像头对准苹果的图片查看预测效果,如下图所示。
预测效果视频演示
模型案例-苹果检测识别模型
Grove Al视觉模块 V2套装介绍
Grove Al视觉模块 V2
OV5647-62摄像头
Grove - Vision Al Module V2是一款拇指大小的人工智能视觉模块, 配备Himax WiseEye2 HX6538处理器, 该处理器采用 ArmCortex-M55双核架构。
它具有标准的CSI接口, 并与树莓派相机兼容。它有一个内置的数字麦克风和SD卡插槽。它非常适用于各种嵌入式视觉项目。
有了SenseCraft Al算法平台, 经过训练的ML模型可以部署到传感器, 而不需要编码。它兼容XIAO系列和Arduino生态系统, 是各种物体检测应用的理想选择。
主要硬件配置
- 板卡基于WiseEye2 HX6538处理器, 采用双核ARM Cortex-M55架构
- 配备集成Arm Ethos-U55微神经网络加速单元, 兼容的树莓派相机
- 板载PDM麦克风, SD卡插槽, Type-C, Grove接口, 丰富的外设支持样机开发
- Seeed Studio XIAO的可扩展性, SenseCraft Al的现成AI模型用于无代码部署。
- 支持各种有效的模型, 包括MobilenetV1、MobilenetV2、 Eficientnet-Lite、Yolov5和Yolov8.
写在最后
SenseCraft-AI平台的模型仓数量还很少,但是好消息是它支持自定义模型上传并输出推理结果,平台会逐渐增加模型仓的数量,敬请关注!