登录客服
使用财视扫码登陆 中金二维码

下次自动登录

登录
忘记密码?立即注册

其它账号登录:新浪QQ微信

手机网
首页>>行业>>科技>>  正文
精华推荐 财经号
博客 直播

周五早间股市信息华为昇腾概念股精选

热点精选:石油化工+风电+算力+旅游

海西一狼:技术小洗盘时间及空间分析 !

股市早8点丨A股能不能1股拆成10股?

试探4150点上方阻力区周末能否迎来长阳突袭

2个事件结束影响行情走向午后止跌回稳盯紧两信号

箱体结构 下跌是低吸机会风电设备与煤炭开采大涨

  • 徐小明 天赢居 寒江钓客 洛阳上官 幽兰行天下
  • 老孙头谈股 秦国安 龍哥论市 蒋律 股海潜蛟
  • 山东虎子 牛家庄 孔明看市 A炼金师 先知窝窝
  • 灵枝 旗帜先明 短线高手 牛传千股 龙头1988
  • 鸿牛 短线王 律动天成 海西一狼 五域论湛
  • 狗蛋 李博文 波段龙一 股市猎枪 涨停板老黄
  • MORE图说财经

    卓世科技具身智能大脑Tri-Core:从“端到端”到“三核协同”的架构演进

    2026-03-13 12:38:57 来源:IT新闻网
      

    在具身智能的落地进程中,行业长期受困于泛化能力与控制精度的权衡。传统的控制论方法精度高但缺乏语义理解,而基于大模型的端到端方案虽然具备了一定的效果,却往往受限于推理延迟,难以应对物理世界的瞬态变化。卓世科技构建了行业首个集成直觉(System 1)、逻辑(System 2)、共情(System 3)的“三核协同”具身大脑解决方案Tri-Core。本文将从架构设计、核心算法实现及数据训练策略三个维度进行深度解析。

      

           

    一、架构总览:三核闭环

      

    相比于目前主流的单一VLA(Vision-Language-Action)模型架构,我们采用了类脑的模块化设计,受认知心理学中双系统理论的启发,并构建了以下三核协同的层次化的系统:

      

    ●System 1 (小脑): 基于VLA的反应式控制,负责实时生成高频率动作。

      

    ●System 2 (大脑): 基于VLM的长程规划,负责因果推演和复杂任务拆解。

      

    ●System 3 (共情系统): 负责情感计算与伦理安全,赋予系统“拟人化”的思考。

      

    这种架构的核心优势在于异步计算,即System 1在边缘侧高频运行以保证实时性,而System 2在云端或高算力单元低频运行以保证逻辑正确性以及深度推理。

      

    二、System 1:基于流匹配的VLA模型

      

    System 1的定位是“小脑”,负责动作的执行,其核心指标是响应速度与鲁棒性。

      

    该VLA模型采用了Mixture-of-Transformers (MoT) 架构,将视觉语言模型(VLM)和动作专家(Action Expert)统一建模。

      

    动作专家:早期的VLA模型(如 RT-2)通常采用离散化的Token进行自回归生成。然而,这种方式在处理连续的人型臂动作时,往往会出现动作不平滑的问题,且推理速度较慢。我们在 System 1 的动作专家中引入了 Flow Matching(流匹配) 生成范式。不同于扩散模型需要繁琐的去噪步数,Flow Matching 通过学习从高斯噪声到目标动作分布的向量场,能够以更少的推理步数生成高质量的连续动作轨迹。

      

    视觉专家:System 1的小尺寸VLM由System 2的大尺寸VLM通过知识蒸馏获得。

      

    训练策略:为了使得VLA模型获得足够的泛化能力,我们进行了2阶段的训练

      

    (1)Stage 1: 跨具身预训练。这一阶段使用开源具身数据集,包含多种形态机器人的数据。虽然这些数据对应的动作空间不一致,但能极大提升模型的泛化认知能力。

      

    (2)Stage 2: 单一具身后训练。这一阶段使用目标机型的任务导向数据,针对特定的垂直场景进行微调,进一步强化模型在目标机型上的稳定性和准确性。

      

    三、System 2:具备物理世界能力的逻辑规划器

      

    System 2是基于璇玑玉衡大模型构建的“大脑皮层”,是一个大尺寸的视觉语言模型(VLM)。它的核心任务是将用户的自然语言指令以及捕捉的视觉图像转化为System 1可执行的原子动作序列。

      

    为了使其具备物理世界能力,我们在通用多模态理解、具身规划、空间感知等数据集上进行多阶段微调。

      

    此外,为了提升“大脑”的思考能力,我们并未直接让System 2输出指令,而是强制其进行隐空间模拟。在执行不可逆操作(如“打碎鸡蛋”)前,System 2会基于物理常识预测后果。

      

    例如,面对“清理桌面”的指令,System 2 会构建如下思维链:

      

    识别物体(水杯, 书) -> 判定物理约束(书在水杯下) -> 预测风险(直接抽书导致水杯倾倒) -> 生成修正计划(先移开水杯,再拿书)。

      

    这种具备物理一致性的推理能力,是目前通用大模型所不具备的。

      

    四、System 3:情感中枢

      

    这是卓世科技架构中最为独特的一环。在传统的机器人学中,人机交互通常是基于规则的硬编码。而我们将其提升到了模型层面。

      

    System 3是一个并行的轻量级多模态模型,负责多模态情感感知,它实时处理视觉(面部微表情、姿态)和音频(语调、语速)信号。

      

    通过对这些非语义信息的分析,系统能够计算用户的情感状态向量,如[焦虑, 放松, 愤怒, 快乐]。从而影响System 2的推理决策。

      

    此外,System 3还充当了伦理安全过滤器的作用,它拥有比System 2更高的中断权限。一旦 System 2 的规划路径触犯了预设的伦理边界(如检测到路径上存在生物体且存在碰撞风险),System 3 会直接在底层熔断控制信号,确保绝对安全。

      

    五、Benchmark

      

           

    在具身行业权威基准测试SimplerEnv和LIBERO中,卓世具身大脑Tri-Core均取得了SOTA水平,超过了π0、英伟达GROOT N1.5等前沿模型。

      

    基准测试介绍:SimplerEnv 是一个专为评估机器人真机策略而设计的闭环仿真环境,旨在解决“Sim-to-Real(仿真到真机)”和“Real-to-Sim(真机到仿真)”之间的鸿沟。LIBERO是专为终身学习和知识迁移而设计的基准测试集。

      

    六、结语

      

    卓世科技具身智能大脑的研发初衷,是试图回答一个核心问题:如何让AI不仅具备“智能”,更具备“本能”与“人性”。

      

    通过System 1的极致快思考、System 2的深度慢思考以及System 3的价值对齐,我们正在重新定义智能体与物理世界的交互方式。这不仅仅是算法的创新,更是系统工程的突破。

      

    探索永无止境。未来,卓世科技将进一步加快具身大脑的迭代进程,坚定不移地加大对 VLA 模型与世界模型的研发投入。我们将持续深化模型对复杂物理规律的理解与泛化,引领具身智能迈向更加通用、智能与安全的新纪元。

      

    热门搜索

    为您推荐