最强大模型的视觉能力不如 6 岁小孩

发布时间 - 2026-01-26 00:00:00    点击率:

多家研究机构最新发布的 babyvision 视觉推理基准测试结果表明,当前性能最强的多模态大模型,在视觉推理能力上依然远未达到人类儿童的认知水平。

即便是表现最优的 Gemini 3 Pro Preview,其综合得分仅勉强超过3岁儿童,与6岁儿童相比仍有约20%的明显差距,距离成年人高达94.1%的准确率更是存在巨大鸿沟。

该研究由 UniPat AI、xbench、阿里巴巴、月之暗面、阶跃星辰等多家前沿团队联合开展。数据显示,Gemini 3 Pro Preview 以49.7%的得分位居闭源模型榜首;紧随其后的是 GPT‑5.2(34.4%)与豆包 Seed‑1.8(30.2%)。

其余模型得分普遍偏低:Qwen3‑VL‑Plus 为19.2%,Grok‑4 为16.2%,Claude 4.5 Opus 仅为14.2%。在开源阵营中,Qwen3VL‑235B‑Thinking 以22.2%的成绩暂列第一,但仍未具备与主流闭源模型抗衡的实力。

研究指出,当前主流多模态大模型普遍依赖“视觉转语言”的推理范式——即先将图像编码为文本式表征,再交由语言模型完成后续逻辑推演。

这种架构在应对细粒度几何判断、空间方位关系建模、路径连续性追踪等高度依赖非语言感知能力的任务时,存在本质性局限,致使模型在「找不同」「连线匹配」「空间构型想象」「视觉规律归纳」等典型任务中频繁失效。

BabyVision 基准将视觉推理能力划分为四大核心维度:细粒度辨别、视觉追踪、空间感知与视觉模式识别。结果显示,所有参测模型在这四个方向均暴露出系统性短板。

例如,Gemini 3 Pro Preview 在拼图配对、轨迹连线及三维结构反推任务中多次给出错误响应;Qwen3‑VL‑Plus 同样未能通过视觉规律归纳类题目的检验。

研究团队进一步提炼出模型视觉推理所面临的四类根本性挑战:

  1. 非言语性微细节信息难以保真,导致模型无法识别图像间细微差异;
  2. 流形一致性缺失,使其在复杂动态路径中难以维持稳定追踪;
  3. 空间想象能力薄弱,无法从二维输入可靠构建一致的三维心理表征;
  4. 视觉模式抽象与归纳能力不足,难以从有限示例中提炼可泛化的结构规则。

为突破现有“语言中心化”视觉推理范式的瓶颈,研究提出了两条可行的技术演进路径:基于可验

证奖励信号的强化学习(RLVR)与基于生成模型的原生视觉推理。

实验表明,Qwen3‑VL‑8B‑Thinking 经 RLVR 微调后,整体准确率提升约4.8个百分点;而在 BabyVision‑Gen 的生成式推理子集测试中,NanoBanana‑Pro 以18.3%的准确率领先于 GPT‑Image‑1.5 与 Qwen‑Image‑Edit。

研究认为,未来多模态智能的发展重心,正加速从“语言驱动型理解”转向“视觉原生型推理”。诸如 Bagel 这样的统一架构,以及具备显式物理建模能力的新一代生成模型(如 Sora 2、Veo 3),已在实践中展现出在视觉空间中执行显式推理的潜力——包括绘制中间演化步骤、标注关键语义区域、生成符合物理约束的运动轨迹等。

研究团队强调,生成过程本身,或将成为一种更高阶、更本质的推理表达形式。

论文全文:https://www./link/498bf3790c922596b795a8dfa3255b56


# 编码  # ai  # gpt  # claude  # 大模型  # 阿里巴巴  # gemini  # 豆包  # qwen  # 架构  # https  # 多模  # 的是  # 构型  # 在这  # 而在  # 提出了  # 多家  # 仅为  # 使其 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: Laravel如何使用Gate和Policy进行授权?(权限控制)  Internet Explorer官网直接进入 IE浏览器在线体验版网址  企业在线网站设计制作流程,想建设一个属于自己的企业网站,该如何去做?  Laravel如何设置自定义的日志文件名_Laravel根据日期或用户ID生成动态日志【技巧】  香港服务器租用费用高吗?如何避免常见误区?  学生网站制作软件,一个12岁的学生写小说,应该去什么样的网站?  北京企业网站设计制作公司,北京铁路集团官方网站?  如何用VPS主机快速搭建个人网站?  高性能网站服务器配置指南:安全稳定与高效建站核心方案  网站建设整体流程解析,建站其实很容易!  网站制作价目表怎么做,珍爱网婚介费用多少?  LinuxCD持续部署教程_自动发布与回滚机制  专业企业网站设计制作公司,如何理解商贸企业的统一配送和分销网络建设?  Win11怎么查看显卡温度 Win11任务管理器查看GPU温度【技巧】  网站制作软件免费下载安装,有哪些免费下载的软件网站?  如何用好域名打造高点击率的自主建站?  怎么制作一个起泡网,水泡粪全漏粪育肥舍冬季氨气超过25ppm,可以有哪些措施降低舍内氨气水平?  北京网页设计制作网站有哪些,继续教育自动播放怎么设置?  如何正确选择百度移动适配建站域名?  香港服务器网站搭建教程-电商部署、配置优化与安全稳定指南  canvas 画布在主流浏览器中的尺寸限制详细介绍  装修招标网站设计制作流程,装修招标流程?  Laravel怎么在Blade中安全地输出原始HTML内容  ,在苏州找工作,上哪个网站比较好?  如何在云主机上快速搭建多站点网站?  Python文件流缓冲机制_IO性能解析【教程】  七夕网站制作视频,七夕大促活动怎么报名?  如何在腾讯云服务器快速搭建个人网站?  Windows10电脑怎么设置虚拟光驱_Win10右键装载ISO镜像文件  Laravel路由怎么定义_Laravel核心路由系统完全入门指南  Laravel任务队列怎么用_Laravel Queues异步处理任务提升应用性能  phpredis提高消息队列的实时性方法(推荐)  HTML透明颜色代码在Angular里怎么设置_Angular透明颜色使用指南【详解】  bing浏览器学术搜索入口_bing学术文献检索地址  Laravel如何使用Eloquent ORM进行数据库操作?(CRUD示例)  html5的keygen标签为什么废弃_替代方案说明【解答】  如何用PHP快速搭建CMS系统?  Laravel如何使用withoutEvents方法临时禁用模型事件  如何在香港免费服务器上快速搭建网站?  Laravel Blade模板引擎语法_Laravel Blade布局继承用法  JS碰撞运动实现方法详解  Laravel与Inertia.js怎么结合_使用Laravel和Inertia构建现代单页应用  详解ASP.NET 生成二维码实例(采用ThoughtWorks.QRCode和QrCode.Net两种方式)  如何快速查询网址的建站时间与历史轨迹?  Laravel如何实现多对多模型关联?(Eloquent教程)  Laravel如何使用Service Provider注册服务_Laravel服务提供者配置与加载  宙斯浏览器文件分类查看教程 快速筛选视频文档与图片方法  高端网站建设与定制开发一站式解决方案 中企动力  宙斯浏览器怎么屏蔽图片浏览 节省手机流量使用设置方法  如何在阿里云部署织梦网站?