语言是人类交流和思维呈现最为重要的符号系统,是推动人类文明的重要力量,那么机器能否用语言进行交互,表达自己的所见、所听、所想,成为真正的智能机器人呢?近日,西北工业大学光电与智能研究院李学龙教授和同事们在机器交互方面取得创新进展:基于国产大模型,研发了 “群聊式”无人机控制框架,给每架无人机装上了大脑,让无人机集群在语言沟通中动态协同,实现了开放环境下“人机”和“多机”的对话交互,打破人类和机器的交互壁垒,进一步拓展了临地安防的应用场景。
大模型具有出色的泛化能力,这使得它们成为实现“通用人工智能”的希望之光。然而,光是阅读大量的书籍远不如亲身实践来得有效。在开放的环境中,大模型需要真实地融入物理世界,才能真正理解复杂的任务并解决实际问题
近日,李学龙教授团队在开放环境中的自主无人机集群方面开展了创新研究,让大模型插上翅膀,飞入我们的现实生活中。
受人类的认知模式启发,团队将认知形成的高度自主性凝练为“思维计算—实体控制—环境感知”的三元交互,建立了“书生浦语”开源大模型驱动的自主无人机“群聊式”控制框架,实现了开放环境和复杂任务中的智能交互、主动感知和自主控制,提高了无人机任务执行的自主性。
总体而言,类人对话交互、主动环境感知、自主实体控制,是自主无人机集群的主要能力。
- 类人对话交互
图一 无人机群聊沟通
探索人类用户与无人机的交互方式,让无人机理解复杂任务中的用户需求,是实现自主无人机的前提条件。
针对此,团队提出“群聊式”对话交互方法,将声音、图像和无人机自身状态等多种信息,通过大模型转换为自然语言的对话形式,实现了用户与无人机,以及无人机与无人机之间自主和直观的交互方式。同时,团队设计了一套高效的实时反馈机制,使得无人机能够在任务执行的关键节点通过对话报告自身状态、寻求用户确认,大大提高了复杂任务执行的稳定性和安全性。
2. 主动环境感知
图二 主动发现并靠近目标
图三 动态环境避障
在飞行过程中,无人机主动感知外部环境,实时调整任务规划,是完成复杂任务的关键环节。
针对此,团队设计了任务引导的主动感知机制,提出了多传感器融合的低空搜索、动态避障和视觉定位算法。在实际任务执行中,根据感知信息和任务目标,动态调整无人机飞行路径和观测位姿,尝试从不同角度和位置感知周围世界,逐渐降低环境中的不确定性,实现高效的信息采集和任务执行。
3. 自主控制
图四 自主目标抓取
图五 异构无人机集群协同控制
探索复合智能体形态,增强复杂任务处理能力,是大模型时代新型智能体的研究重点。
针对此,团队依托无人机平台设计了夹爪等末端执行器,将传统无人机拓展为“飞行机器人”,长出“手”来,具备抓取能力。同时,构建了异构无人机集群协同控制机制,结合环境感知反馈,实时调整无人机编队的飞行状态,使集群分工执行区域搜索、目标定位和抓取等任务。
大模型自主无人机集群是团队将生物智能 “思维计算—实体控制—环境感知”的三元交互模式应用于自主智能体的一次成功尝试,依托大语言模型、无人机平台和多种传感器,实现对话交互、主动感知和自主控制,对安防巡检、灾害救援、空中物流等临地安防场景下的应用具有重要意义。
拓展阅读:李学龙, 临地安防(Vicinagearth security), 中国计算机学会通讯, 18(11), 44-52, 2022.
全文下载:
https://dl.ccf.org.cn/article/articleDetail.html?type=xhtx_thesis&_ack=1&id=6219452051015680
以上是无人机变聪明了!李学龙团队创造机器说话的新纪元的详细内容。更多信息请关注PHP中文网其他相关文章!

介绍 在Andrej Karpathy的病毒推文“英语已成为新的编程语言”之后,这是X上的另一条趋势推文,说:“未来像选项卡”。

civitai:通过AI驱动的图像产生释放您的创造力 想象一下一个平台,您的艺术创意只需单击几下即可实现 - 一个空间,您可以在其中微调尖头AI模型以创建令人惊叹的个性化图像。

本指南将引导您了解模型2的内容,其工作原理以及如何利用图片和视频中的部分对象。它在破碎的OB中提供了最先进的执行和适应性

本周的AI景观取得了重大进步,领先的公司揭示了尖端的模型和工具。 关键亮点包括AI21实验室的Jamba 1.5发布,Anthropicai对Claude 3的增强和Bindu Reddy的介绍

介绍 坐在桌面前,远离您,是您自己的私人助手,她知道您的声音,回答您的问题,甚至领先于您。这是亚历克萨(Amazon Alexa)的美丽,SM

解锁大型语言模型(LLMS)的力量:10个免费资源 踏上进入大语模型(LLM)世界的旅程,这是智能聊天机器人和高级数据分析背后的推动力。 该综合指南揭开了十个FR

介绍 评估机器学习模型不仅是最后一步,而且是成功的基石。想象一下,建立一个高精度使其眼花azz乱的尖端模型,只是发现它在现实下崩溃了

探索图像到文本模型的力量:Trocr和Zhen乳胶OCR AI的世界充满了语言模型及其在虚拟协助和内容创建中的应用。 但是,图像到文本转换的领域,由光学驱动


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

WebStorm Mac版
好用的JavaScript开发工具

记事本++7.3.1
好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。