目录
用户说:“小智小智,打开客厅的灯!”
第1棒:用户 → 智能设备(ESP32)
你的操作:
像叫朋友名字一样喊出指令(带“小智小智”唤醒词)
设备动作:
麦克风(耳朵)听到声音 → 亮起💡蓝灯(表示“我听到啦!”)
录音压缩:
把你说的话压成“语音小包裹”(像微信发语音前转圈圈)
关键支撑:
WiFi网络(像高速公路,让包裹快速出发)
第2棒:智能设备 → 云端服务器
传输过程:
“语音包裹”通过WiFi送到云端(像快递员送包裹到中转站)
协议转换:
设备说方言(如Opus编码),服务器翻译成普通话(通用数据格式)
风险应对:
网络卡顿时,设备会自动重发包裹(最多3次)
第3棒:云端大脑的智能接力
ASR(语音翻译官):
拆开语音包裹 → 把声音变成文字(“打开客厅灯”)
就像手机语音输入法
大模型(智能管家):
结合上下文:查看设备能力表(客厅灯支持“开/关”)
生成指令:把“打开客厅灯”翻译成机器语言(Light.on)
就像餐厅服务员听懂“来杯水”后下单
TTS(语音合成师):
把“好的”变成语音包,准备发回设备
第4棒:云端 → 设备 → 真实动作
设备收到指令包:
解析指令 → 找到“客厅灯开关”(像读懂短信)
硬件执行:
GPIO电子开关:给灯线通电(像按下遥控器开关)
多模态反馈:
-
-
播放“灯已打开”(TTS语音包)
-
屏幕显示💡图标
-
真实客厅灯亮起!
-
作者简介
卫朋《硬件产品经理》作者,人人都是产品经理受邀专栏作家,CSDN认证博客专家、嵌入式领域优质创作者,阿里云开发者社区专家博主。