上海人工智能实验室开源了InternVLA-A1,一个视觉-语言-动作的统一模型,能够在自然语言提示下执行任务,如"把桌上的笔放进笔筒",无需预设坐标,解决了传统感知与行动间的信息丢失问题,支持多模态感知和理解