农业机器人,需要听觉和嗅觉吗?
一株缺水的番茄在尖叫,一头染病的猪在咳嗽,一颗熟透的榴莲在散发气味,一池鱼在浑水里咀嚼——农业从不只有作物。而这些信号,摄像头几乎全都接收不到。农 · 牧 · 圃 · 渔 | 感知科学 | 具身智能在人类身上,气味和声音通往记忆与情绪的路径,比视觉更短、更古老。嗅觉信号几乎绕过了大脑的中继站丘脑,一两个突触就接通了情绪与记忆中枢;一缕气味、一声异响,能在我们尚未"看清"任何东西之前,就告诉我们此刻是安全还是危险。视觉负责"那是什么、在哪里",而听觉与嗅觉,往往负责"它现在怎么样"。这条来自神经科学的线索,恰好可以拿来反问今天的农业机器人。我们给它们装上了越来越强的"眼睛",却几乎让它们对整片农场的声音与气息既聋且无嗅。而所谓"农场",远不止一畦庄稼——它还是猪舍、果园、鱼塘。把这四类场景并排来看,你会发现:很多时候,听觉与嗅觉不是视觉的补充,而本就该是主感官。过去十年的农业机器人,几乎是一部"视觉进化史":从立体相机、多光谱与高光谱成像,到激光雷达与高精度定位。视觉之所以成为主角,是因为它信息密度高、与人类认知同构,也最容易借力近年突飞猛进的计算机视觉。但光学传感有两重难以回避的局限。其一是物理脆弱性——它对云层、阴影、逆光高度敏感;到了水下,浑浊与光线衰减更会让成像几近失效。其二也更根本:视觉读取的是"表面"与"此刻"。摄像头看得见叶片的颜色、果实的轮廓,却看不见树干里啃食的幼虫、尚未显症的病害在体内积累的化学变化,也听不见一头牲畜呼吸的异常。当萎蔫、当病灶肉眼可见时,胁迫往往早已发生多日。农场从不沉默,也并非无味。真正的问题,是我们的机器是否又聋又失嗅。2023 年,特拉维夫大学团队在《Cell》上给出一个颠覆直觉的结论:植物会发声。番茄与烟草被记录到持续发出类似爆裂的超声脉冲,频率高达数十千赫,远在人耳之外;关键是这些声音携带信息——植株在干旱或受伤胁迫下发声显著增多,机器学习仅凭声音就能区分胁迫类型。一片看似宁静的田野,其实在我们听不见的频段里相当喧闹。这意味着,携带超声麦克风的机器人,原则上能在萎蔫"显形"之前,就听见作物的口渴。声音还能穿透视觉到不了的地方。储粮里的米象幼虫钻入谷粒内部取食,肉眼无从察觉,直到成虫破壳;蛀干害虫如红棕象甲在树干木质部下啃咬纤维,留下可被高灵敏传感器捕获的振动。借助 MFCC 特征与深度模型(如 BorerNet、TreeVibes 实时系统),机器已能从噪声中识别特定害虫——这是少数能"看穿"谷粒与树干的手段。而气味泄露的是化学与代谢。植物遭受病虫害时,会改变释放的挥发性有机物(VOCs)组合,这套"气味指纹"的变化常发生在任何可见症状之前。模仿动物嗅觉的电子鼻能捕捉它:在油棕上检出灵芝菌相关挥发标志,在番茄上锁定蚜虫侵染的芳樟醇、香芹醇等生物标志物——无损、快速,比实验室的气相色谱-质谱更适合田间早期预警。到了畜禽这里,听觉根本不是"附加项"——动物本就以声音生活。它们用叫声交流、用咳嗽暴露病情。于是"听诊"成了精准畜牧最成熟的方向之一:基于麦克风的猪咳监测系统,能客观刻画呼吸模式的偏离,并与蓝耳病(PRRSV)等感染明确关联;用声音加机器学习识别猪的消耗性疾病,准确率可达九成以上;对呼噜、尖叫、咳嗽的分类平均识别率超过九成。在牛上,犊牛咳嗽探测的特异度高达约 99%,且与牛呼吸道病(BRDC)、乃至屠宰时的肺部病变高度相关。它们听见的世界比我们以为的更宽 猪的听觉范围约为 42 Hz 至 40.5 kHz,能听到许多超出常规录音设备频段的声音。这提醒我们:用人类的"耳朵标准"去给畜舍布设传感器,可能从一开始就漏掉了动物真正在意、也真正在发出的那部分信号。麦克风的好处在于非侵入、可 7×24 小时连续工作,且不会惊扰动物。气味则同时关乎健康与福利。畜舍里的氨气是头号有害气体——浓度过高会刺激呼吸道、拖慢肉鸡增重,业界建议上限约 25 ppm。仿照鼻腔结构设计的电子鼻,能实时、廉价地监测氨浓度;更进一步,它还能从挥发物上区分健康肉鸡与患肠道病(如球虫病)的个体,并用于诊断牛的某些细菌感染。畜舍的气味,本身就是一份连续的健康报告。在果蔬采后领域,嗅觉几乎是天然的主感官——因为"成熟度"本身就是一组随时间变化的挥发性香气分子。果实在成熟与衰败中不断改写自己的气味谱,而这恰是电子鼻的拿手好戏:对采后猕猴桃成熟阶段的判别,准确率可达 100%、交叉验证约 99.4%;木瓜、芒果、浆果、番茄的成熟分级也已被验证。比起破坏性的硬度计与滴定法,闻一闻,既无损又快速。它还能闻出"还没烂的烂":在采后病害尚处无症状阶段就预警,对腐烂发生的预测准确率可达九成。一项榴莲研究甚至同时用电子鼻判别粉蚧侵染与成熟度,并明确提出下一步要把这套嗅觉搭载到机器人平台上,用于农场与仓储的规模化巡检——这正是"会嗅的农业机器人"最具体的雏形之一。当然,声音也没有缺席:隔着西瓜判生熟的古老经验,正被敲击声学系统化。水产或许是这场讨论里最有力的例证。水下,视觉常常直接失效:浑浊与光线衰减让画面模糊,高密度养殖又带来严重遮挡,鱼群的健康、饱食与应激状态因此隐而不显。而声音恰好相反——它能在水中远距离传播、几乎不衰减。于是被动声学监测(PAM)成了主角:用水听器记录声音,再交给 AI 解析。听鱼吃饭 已知约 3.5 万种鱼里,有近千种会发声。摄食时的咀嚼与吞咽声尤其有用——大菱鲆进食声集中在 7–10 kHz、约 15–20 dB,强度随摄食烈度变化。研究者把声音转成梅尔频谱图,用 CNN、Swin Transformer 等模型量化"鱼群吃得多不多",据此精准投喂,减少饲料浪费与水体污染。同一套水听器还能顺带听出水泵、增氧机的故障——连设备的"健康"也一并照看了。在这里,听觉不再是视觉的备份,而是被环境逼成的首选。最稳妥的做法,往往是把声学与有限的水下视觉融合起来,互相补位——这也自然引出了全文的落点。回答"是什么、在哪里"——形状、颜色、几何、位置。强于表面与当下,弱于内部、化学与隐蔽,且在暗光、浑水中迅速退化。回答"正在发生什么"——密封内部的活动、实时的行为与求救。谷粒里的幼虫、咳嗽的猪、浑水中咀嚼的鱼,都靠它被听见。回答"它现在怎么样"——化学、代谢、成熟与健康。尚未显症的病害、刚好的成熟度、超标的氨气,都写在气味里。这与人脑的感官分工惊人呼应:视觉走层级繁复、高度认知化的皮层通路,而嗅觉与情绪、记忆中枢几乎直连,声音又最擅长承载实时状态。摄像头读的是农场的"表面",耳朵与鼻子读的,才是它的"状态"。一个只会看的机器人,是在用单一通道,去理解一个在多个频段同时广播的世界。Toward Embodied Perception答案因此不是"再造一只更强的眼睛"。机器人感知研究的共识是:任何单一模态都不充分。前沿方向在于多传感器融合——把视觉、声学、嗅觉与温湿度、水质等信息,经卡尔曼滤波、贝叶斯推断、深度网络整合为统一判断。在猪咳识别里,声学加视觉的融合已把准确率推到约 96%;在鱼群摄食识别里,音视频互补同样显著更稳。各通道在彼此失灵处补位:光照恶劣时声与嗅顶上,表面无异常时化学与振动早已报警。这正是"具身智能"对农业的真正许诺——不是一台装满传感器的车,而是一个像生物那样、把多种感觉编织进同一决策回路的感知整体。生物的感官从不孤立工作;田、牧、圃、渔之间,机器人的未来也理应如此。所以,农业机器人需要听觉和嗅觉吗?更准确的问法是:在一个庄稼会尖叫、牲畜会咳嗽、果实会飘香、鱼群会咀嚼的世界里,我们还要不要继续制造又聋又失嗅的机器。农场从不沉默,也并非无味——欠缺感官的,从来是我们的机器,而不是这片土地、这群生灵。· Khait 等,植物胁迫发声研究,Cell(2023) · 储粮与蛀干害虫声学探测综述,Insects / Forests(MDPI, 2021–2024) · 植物病虫害电子鼻与 VOCs 检测综述,MDPI / PMC(2017–2023) · 猪/牛咳嗽与发声的声学监测综述,J. Anim. Sci. Technol. 等(2024–2026) · 畜禽舍氨气与肠道病电子鼻监测研究,PMC / IEEE(2021–2024) · 采后果蔬电子鼻成熟与病害检测综述,Wiley / Sensors / ACS(2015–2024) · 水产被动声学监测与摄食行为识别,Fraunhofer IDMT / arXiv(2022–2025) · 农业机器人多传感器融合综述,Frontiers / Agronomy(2024–2025)本文为科普性综述,数据均来自公开发表文献,具体数值与适用条件请以原始论文为准。