卓世科技具身智能大脑Tri-Core：从“端到端”到“三核协同”的架构演进_科技_行业

首页>>行业>>科技>> 正文

入驻财经号发表文章

精华推荐财经号

试探4150点上方阻力区周末能否迎来长阳突袭

2个事件结束影响行情走向午后止跌回稳盯紧两信号

箱体结构下跌是低吸机会风电设备与煤炭开采大涨

徐小明天赢居寒江钓客洛阳上官幽兰行天下

老孙头谈股秦国安龍哥论市蒋律股海潜蛟

山东虎子牛家庄孔明看市 A炼金师先知窝窝

灵枝旗帜先明短线高手牛传千股龙头1988

鸿牛短线王律动天成海西一狼五域论湛

狗蛋李博文波段龙一股市猎枪涨停板老黄

MORE图说财经

卓世科技具身智能大脑Tri-Core：从“端到端”到“三核协同”的架构演进

2026-03-13 12:38:57 来源:IT新闻网

在具身智能的落地进程中，行业长期受困于泛化能力与控制精度的权衡。传统的控制论方法精度高但缺乏语义理解，而基于大模型的端到端方案虽然具备了一定的效果，却往往受限于推理延迟，难以应对物理世界的瞬态变化。卓世科技构建了行业首个集成直觉(System 1)、逻辑(System 2)、共情(System 3)的“三核协同”具身大脑解决方案Tri-Core。本文将从架构设计、核心算法实现及数据训练策略三个维度进行深度解析。

一、架构总览：三核闭环

相比于目前主流的单一VLA(Vision-Language-Action)模型架构，我们采用了类脑的模块化设计，受认知心理学中双系统理论的启发，并构建了以下三核协同的层次化的系统：

●System 1 (小脑): 基于VLA的反应式控制，负责实时生成高频率动作。

●System 2 (大脑): 基于VLM的长程规划，负责因果推演和复杂任务拆解。

●System 3 (共情系统): 负责情感计算与伦理安全，赋予系统“拟人化”的思考。

这种架构的核心优势在于异步计算，即System 1在边缘侧高频运行以保证实时性，而System 2在云端或高算力单元低频运行以保证逻辑正确性以及深度推理。

二、System 1：基于流匹配的VLA模型

System 1的定位是“小脑”，负责动作的执行，其核心指标是响应速度与鲁棒性。

该VLA模型采用了Mixture-of-Transformers (MoT) 架构，将视觉语言模型(VLM)和动作专家(Action Expert)统一建模。

动作专家：早期的VLA模型(如 RT-2)通常采用离散化的Token进行自回归生成。然而，这种方式在处理连续的人型臂动作时，往往会出现动作不平滑的问题，且推理速度较慢。我们在 System 1 的动作专家中引入了 Flow Matching(流匹配) 生成范式。不同于扩散模型需要繁琐的去噪步数，Flow Matching 通过学习从高斯噪声到目标动作分布的向量场，能够以更少的推理步数生成高质量的连续动作轨迹。

视觉专家：System 1的小尺寸VLM由System 2的大尺寸VLM通过知识蒸馏获得。

训练策略：为了使得VLA模型获得足够的泛化能力，我们进行了2阶段的训练

(1)Stage 1: 跨具身预训练。这一阶段使用开源具身数据集，包含多种形态机器人的数据。虽然这些数据对应的动作空间不一致，但能极大提升模型的泛化认知能力。

(2)Stage 2: 单一具身后训练。这一阶段使用目标机型的任务导向数据，针对特定的垂直场景进行微调，进一步强化模型在目标机型上的稳定性和准确性。

三、System 2：具备物理世界能力的逻辑规划器

System 2是基于璇玑玉衡大模型构建的“大脑皮层”，是一个大尺寸的视觉语言模型(VLM)。它的核心任务是将用户的自然语言指令以及捕捉的视觉图像转化为System 1可执行的原子动作序列。

为了使其具备物理世界能力，我们在通用多模态理解、具身规划、空间感知等数据集上进行多阶段微调。

此外，为了提升“大脑”的思考能力，我们并未直接让System 2输出指令，而是强制其进行隐空间模拟。在执行不可逆操作(如“打碎鸡蛋”)前，System 2会基于物理常识预测后果。

例如，面对“清理桌面”的指令，System 2 会构建如下思维链：

识别物体(水杯, 书) -> 判定物理约束(书在水杯下) -> 预测风险(直接抽书导致水杯倾倒) -> 生成修正计划(先移开水杯，再拿书)。

这种具备物理一致性的推理能力，是目前通用大模型所不具备的。

四、System 3：情感中枢

这是卓世科技架构中最为独特的一环。在传统的机器人学中，人机交互通常是基于规则的硬编码。而我们将其提升到了模型层面。

System 3是一个并行的轻量级多模态模型，负责多模态情感感知，它实时处理视觉(面部微表情、姿态)和音频(语调、语速)信号。

通过对这些非语义信息的分析，系统能够计算用户的情感状态向量，如[焦虑, 放松, 愤怒, 快乐]。从而影响System 2的推理决策。

此外，System 3还充当了伦理安全过滤器的作用，它拥有比System 2更高的中断权限。一旦 System 2 的规划路径触犯了预设的伦理边界(如检测到路径上存在生物体且存在碰撞风险)，System 3 会直接在底层熔断控制信号，确保绝对安全。

五、Benchmark

在具身行业权威基准测试SimplerEnv和LIBERO中，卓世具身大脑Tri-Core均取得了SOTA水平，超过了π0、英伟达GROOT N1.5等前沿模型。

基准测试介绍：SimplerEnv 是一个专为评估机器人真机策略而设计的闭环仿真环境，旨在解决“Sim-to-Real(仿真到真机)”和“Real-to-Sim(真机到仿真)”之间的鸿沟。LIBERO是专为终身学习和知识迁移而设计的基准测试集。

六、结语

卓世科技具身智能大脑的研发初衷，是试图回答一个核心问题：如何让AI不仅具备“智能”，更具备“本能”与“人性”。

通过System 1的极致快思考、System 2的深度慢思考以及System 3的价值对齐，我们正在重新定义智能体与物理世界的交互方式。这不仅仅是算法的创新，更是系统工程的突破。

探索永无止境。未来，卓世科技将进一步加快具身大脑的迭代进程，坚定不移地加大对 VLA 模型与世界模型的研发投入。我们将持续深化模型对复杂物理规律的理解与泛化，引领具身智能迈向更加通用、智能与安全的新纪元。

MORE图说财经

卓世科技具身智能大脑Tri-Core：从“端到端”到“三核协同”的架构演进

热门搜索

为您推荐