上证报中国证券网讯进入2025年,多模态模型正在迈向舞台中央。究其原因,多模态大模型通过更广泛、更深度的信息交互与整合,能够为用户提供更完整的场景价值。
同时,深度推理能力也正成为大模型技术的核心焦点。不过,作为打造可处理复杂任务的智能体、让大模型切入高价值业务场景的关键技术基础,业界对其的关注主要在数理求解等纯文本推理任务上。如果要实现推理能力在更广泛场景的落地,就需要多模态和推理的紧密结合。
4月10日,商汤科技发布了“商汤日日新SenseNova V6”多模态融合大模型,具备最长64K思维链、数理分析、多模态深度推理、全局记忆等能力,支持10分钟的视频推理及深度推理。
此外,傅利叶GRx通用人形机器人与商汤SenseNovaV6 Omni正式开展了合作。通过给机器人装上大脑、眼睛、耳朵和嘴巴,有效提升了其在复杂场景中的理解能力,并且再次验证了搭载具备多模态能力的模型将会是具身智能未来的发展方向。
商汤发布新基础模型
据介绍,SenseNova V6包含旗舰版的基座模型——SenseNova V6 PRO,与性价比更高的SenseNova V6 Turbo。
其中,SenseNova V6 Pro采用6200亿参数的混合专家架构,实现文本、图像和视频的原生融合,在纯文本和多模态任务上都表现出优秀的综合性能。在此基础上,通过多模态长思维链训练和多模态增强学习,形成具备突出的多模态推理能力的SenseNova V6 Reasoner Pro。
SenseNova V6 Turbo则是面向一些需要更快的响应或更低成本的场景,以此为基础,发展出了SenseNova V6 Video视频理解模型与SenseNova V6 Omni轻量级全模态交互模型。前者不仅可以理解总结视频内容,还能在此基础上进行深入分析和推理。后者则能深度融合语言、语音和视频,提供极致的实时交互体验。
商汤科技联合创始人林达华向记者表示,SenseNova V6具备强推理的突出的能力,在慢思考和多模态推理方面对标Open AI o1和Gemini 2.0 Tinking。在长记忆方面,SenseNova V6突破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。“我们会在年内做到可将一小时时长的视频放进输入窗口进行分析。”林达华补充道。
在发布会的演示环节,商汤科技董事长兼CEO徐立还展示了SenseNova V6的数学解题、点读翻译、文旅讲解、绘本讲解等多种实时交互能力。这表明SenseNova V6具备处理复杂信息和解决复杂问题的能力,可融入真实的业务应用。同时,模型能以更有亲和力的方式与人交互,让人感受到和模型交流的良好体验,愿意和模型持续交流。“这是大模型在商业应用上的两个关键价值。”徐立表示。
多模态能力赋能具身智能
值得注意的是,4月10日,傅利叶GRx通用人形机器人与商汤SenseNova V6 Omni正式开展了合作,将傅利叶的机器人硬件本体技术与商汤多模态融合模型的深度思考能力相结合。
SenseNova V6 Omni可对图像、视频、语音、文本等多种信息进行深度融合与推理,有效提升傅利叶GRx在复杂场景中的理解能力,包括精准的上下文语义分析、意图推理及对人类情感的细致感知与回应。
傅里叶相关负责人向记者表示:“通过此次合作,傅利叶GRx实现了更生动、更智能的人机互动体验,显著增强了其在导览咨询、医疗康复、教育培训等多样化应用场景中的表现。伴随大模型技术的进步与演进,GRx也将持续优化机器人本体能力,更好地适应复杂环境,完成更多元任务的能力,加速人形机器人更广泛地融入日常生活,为用户提供智能化、个性化和多元化的服务体验。”
从模型端来看,SenseNova V6 Omni好比给机器人装上大脑、眼睛、耳朵和嘴巴。
SenseNova V6 Omni相关负责人向记者表示,在强大视觉识别与深度理解能力的支持下,机器人能够敏锐感知细节,准确洞察用户的需求与情绪。同时,其灵活的推理与自然的语言交互能力,更让机器人在各种场景中展现出丰富而生动的交流方式,让用户感受到更加真实、亲切的互动体验。而基于强大的理解与推理能力,机器人在输出语音的同时,还能同步生成与语义相匹配的动作,实现语言与行为的协调统一。无论是讲解内容时的手势表达,还是情绪反应中的肢体动作,机器人都能做到“言行一致”,带来更具沉浸感和表达力的交互体验。
“搭载具备多模态能力的模型将会是具身智能未来的发展方向。”上述负责人称。
同日,商汤科技还发布了商汤大装置SenseCore 2.0,以更灵活、敏捷、可靠的特性赋能企业,推动AI基础设施与应用开发及行业需求深度融合。
商汤科技宣布将发放“1亿代金券”,专项支持行业伙伴协同并进,加速产业智能化升级,共创AI新高度。
据悉,该计划聚焦具身智能、AIGC等多个前沿领域,通过多维度的精准扶持,为企业提供从专家咨询到模型训练、推理验证的全流程AI服务支持,打造“高效率、低成本、端到端”的一站式赋能方案。这一计划还将降低企业智能化转型门槛,助力合作伙伴乘AI东风,加速大模型技术在泛互联网等行业的规模化落地。