搜索
首页科技周边人工智能西工大推出创新无人机控制框架:实现群聊式交互、主动感知环境、自主控制无人机

超强的泛化能力,让大模型成为「通用人工智能」的一缕曙光。

然而,读万卷书,不如行万里路,在开放环境中,大模型需要真正地「走」进物理世界,才能切实地理解复杂任务、解决实际问题。

最近,李学龙教授的团队进行了关于开放环境中自主无人机集群的创新研究。他们利用国产大型模型成功实现了在开放环境中的人机和多机对话交互,打破了人类与机器之间的交互壁垒。这一研究进一步扩展了临地安防的应用场景,让大型无人机在现实生活中翱翔

受到人类认知模式的启发,我们的团队将高度自主的认知过程归纳为「思维计算—实体控制—环境感知」的三元交互,并建立了基于「书生·浦语」开源大模型驱动的自主无人机「群聊式」控制框架。我们为每架无人机搭载了智能大脑,使得无人机群体能够通过语言沟通动态协同,实现在开放环境和复杂任务中的智能交互、主动感知和自主控制。这一举措提高了无人机任务执行的自主性

总的来说,自主无人机集群的主要能力包括类人对话交互、主动环境感知和自主实体控制

类人对话交互

西工大推出创新无人机控制框架:实现群聊式交互、主动感知环境、自主控制无人机图1 无人机群聊沟通

探索人类用户与无人机的交互方式,让无人机理解复杂任务中的用户需求,是实现自主无人机的前提条件。

针对此,团队提出「群聊式」对话交互方法,将声音、图像和无人机自身状态等多种信息,通过大模型转换为自然语言的对话形式,实现了用户与无人机,以及无人机与无人机之间自主和直观的交互方式。

为了提高复杂任务的执行稳定性和安全性,团队设计了一套高效的实时反馈机制。这个机制使得无人机能够在任务执行的关键节点通过对话报告自身状态,并寻求用户确认。同时,这套机制还能够大大提高任务执行的效率

主动环境感知

西工大推出创新无人机控制框架:实现群聊式交互、主动感知环境、自主控制无人机图2 主动发现并靠近目标

西工大推出创新无人机控制框架:实现群聊式交互、主动感知环境、自主控制无人机图3 动态环境避障

在飞行过程中,无人机主动感知外部环境,实时调整任务规划,是完成复杂任务的关键环节。

为了应对这个问题,团队开发了一种任务引导的主动感知机制,并提出了多传感器融合的低空搜索、动态避障和视觉定位算法

在实际任务执行过程中,根据感知信息和任务目标,我们可以动态调整无人机的飞行路径和观测位姿。我们可以尝试从不同的角度和位置感知周围的世界,逐渐降低环境中的不确定性,以实现高效的信息采集和任务执行

自主控制

西工大推出创新无人机控制框架:实现群聊式交互、主动感知环境、自主控制无人机图4 自主目标抓取

西工大推出创新无人机控制框架:实现群聊式交互、主动感知环境、自主控制无人机图5 异构无人机集群协同控制

重点研究是探索复合智能体形态,以增强其处理复杂任务的能力。在大模型时代,这是新型智能体的一个关键领域

为了解决这个问题,研发团队利用无人机平台设计了夹爪等末端执行器,将传统的无人机升级为“飞行机器人”,赋予其抓取能力

同时,还建立了异构无人机集群协同控制机制,并结合环境感知反馈,实时调整无人机编队的飞行状态,以便让集群能够分工合作,执行区域搜索、目标定位和抓取等任务

团队成功尝试将生物智能的「思维计算—实体控制—环境感知」三元交互模式应用于自主智能体中,形成了大型自主无人机集群。这种集群利用大型语言模型、无人机平台与多种传感器,实现了对话交互、主动感知和自主控制。该技术对于安防巡检、灾害救援、空中物流等临地安防场景下的应用具有重要意义

参考文献:李学龙, 临地安防(Vicinagearth security), 中国计算机学会通讯, 18(11), 44-52, 2022年

以上是西工大推出创新无人机控制框架:实现群聊式交互、主动感知环境、自主控制无人机的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
让我们跳舞:结构化运动以微调我们的人类神经网让我们跳舞:结构化运动以微调我们的人类神经网Apr 27, 2025 am 11:09 AM

科学家已经广泛研究了人类和更简单的神经网络(如秀丽隐杆线虫中的神经网络),以了解其功能。 但是,出现了一个关键问题:我们如何使自己的神经网络与新颖的AI一起有效地工作

新的Google泄漏揭示了双子AI的订阅更改新的Google泄漏揭示了双子AI的订阅更改Apr 27, 2025 am 11:08 AM

Google的双子座高级:新的订阅层即将到来 目前,访问Gemini Advanced需要$ 19.99/月Google One AI高级计划。 但是,Android Authority报告暗示了即将发生的变化。 最新的Google P中的代码

数据分析加速度如何求解AI的隐藏瓶颈数据分析加速度如何求解AI的隐藏瓶颈Apr 27, 2025 am 11:07 AM

尽管围绕高级AI功能炒作,但企业AI部署中潜伏的巨大挑战:数据处理瓶颈。首席执行官庆祝AI的进步时,工程师努力应对缓慢的查询时间,管道超载,一个

Markitdown MCP可以将任何文档转换为Markdowns!Markitdown MCP可以将任何文档转换为Markdowns!Apr 27, 2025 am 09:47 AM

处理文档不再只是在您的AI项目中打开文件,而是将混乱变成清晰度。诸如PDF,PowerPoints和Word之类的文档以各种形状和大小淹没了我们的工作流程。检索结构化

如何使用Google ADK进行建筑代理? - 分析Vidhya如何使用Google ADK进行建筑代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理开发套件(ADK)的力量创建具有现实世界功能的智能代理!该教程通过使用ADK来构建对话代理,并支持Gemini和GPT等各种语言模型。 w

在LLM上使用SLM进行有效解决问题-Analytics Vidhya在LLM上使用SLM进行有效解决问题-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型语言模型 (SLM) 专为效率而设计。在资源匮乏、实时性和隐私敏感的环境中,它们比大型语言模型 (LLM) 更胜一筹。 最适合专注型任务,尤其是在领域特异性、控制性和可解释性比通用知识或创造力更重要的情况下。 SLM 并非 LLMs 的替代品,但在精度、速度和成本效益至关重要时,它们是理想之选。 技术帮助我们用更少的资源取得更多成就。它一直是推动者,而非驱动者。从蒸汽机时代到互联网泡沫时期,技术的威力在于它帮助我们解决问题的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何将Google Gemini模型用于计算机视觉任务? - 分析Vidhya如何将Google Gemini模型用于计算机视觉任务? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google双子座的力量用于计算机视觉:综合指南 领先的AI聊天机器人Google Gemini扩展了其功能,超越了对话,以涵盖强大的计算机视觉功能。 本指南详细说明了如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Apr 27, 2025 am 09:20 AM

2025年的AI景观正在充满活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到来。 这些尖端的车型分开了几周,具有可比的高级功能和令人印象深刻的基准分数。这个深入的比较

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具