日期:2024-11-29 15:38
讨论设计方案。华理供图
我们提出了多模态大模型技术,通过融合图像、语音、文本等多模态信息,提升机器人的场景理解和任务规划能力。团队成员叶杭博说,人的大脑就像是一个超级计算机,可以通过看、听、摸来学习新事物,多模态大模型也是这样。比如,想让多模态大模型了解核电站是怎么工作的,就可以给它看核电站的照片,听核电站的声音,读关于核电站的文章等,这样,它就能渐渐学会核电站的知识,像一个小孩子慢慢长大。
有了会思考的智慧大脑,如何让机器人行动自如?该团队通过构建4D语义地图,同时基于深度强化学习的运动控制技术