↓仔课:itazs.fun/17552/
多模态大模型并非像人类一样靠生活经验和逻辑思考理解世界,而是通过技术架构将文本、图像、音频等多源信息转化为统一的机器可处理形式,再经数据训练挖掘模态间关联,结合特定机制完成认知与推理。不过这种 “理解” 目前仍存在明显局限。以下从技术实现逻辑、进阶认知方式、当前理解短板三个维度深入解析:
基础技术路径:构建统一语义空间实现跨模态解读
多模态大模型理解世界的核心前提,是打破不同信息模态的壁垒,把各类信息转化为统一的 “数字语言” 并建立关联,这一过程主要依赖三大核心模块:
模态专用编码:将现实信息转译为机器语言:不同类型的信息需通过专属编码器转换成高维向量。比如文本会经 BERT、GPT 等模块拆分为 token 后编码,像 “云朵”“下雨” 等词汇都对应独特数字序列;图像靠 ViT 模型切成 16×16 的图像块,再把 “灰色云层”“滴落的雨滴” 等视觉特征编码为向量;音频则先由 Whisper 等模型转为频谱图,进而提取 “雷声的低频特征”“雨声的持续节律” 等关键信息,这一步相当于给现实世界的各类信息编上机器能读懂的 “数字密码”。
跨模态融合:搭建不同信息的关联桥梁:编码后的各模态向量最初是独立存在的,融合机制就像 “信息会诊室”,让不同模态的信息相互呼应。常用的跨模态注意力机制是核心,比如看到一张行人撑伞的图片并接到 “写一句雨天文案” 的指令时,图像向量中的 “雨伞”“行人” 特征会与文本向量中 “雨天”“文案风格轻松” 的需求精准绑定;此外还有早期融合(输入层拼接数据)、晚期融合(输出层整合结果)等方式,分别适配不同场景下的信息关联需求。
模态解码输出:将融合信息还原为可理解内容:融合后的向量需通过解码器反向转化为人类能理解的形式。比如上述雨天场景中调用文本解码器生成 “雨丝落下时,雨伞撑起了一方小天地”;若需求是给雨天视频配背景音,就调用音频解码器生成符合雨声特征的旋律,完成从机器语义到现实信息的还原。
进阶认知能力:从关联匹配到深层推理
真正的世界理解离不开推理、逻辑分析等高级能力,多模态大模型通过特定训练和机制,正在逐步突破单纯的特征匹配,向深层认知靠拢:
多模态思维链推理:面对复杂问题时,模型会模仿人类分步思考的过程。例如分析 “为什么冬季湖面的图片中有人在冰上行走,而夏季同位置图片中是游船”,模型会先提取冬季图像的 “冰层” 视觉特征、夏季的 “水面” 特征,再结合文本中 “水结冰”“冰融化” 的常识关联,逐步推导出季节温度变化导致场景差异的结论。
复杂场景结构化解析:在图文混排的报告、带字幕的视频等场景中,模型不仅能识别单一模态内容,还能理解其深层结构。比如解析一份产品质检报告时,既能识别图片中的划痕缺陷,又能对应文本中的 “温度超标” 参数,进而关联分析出缺陷与生产条件的因果关系。
跨场景知识迁移:通过大规模多模态数据训练,模型会积累不同场景的共性规律,实现知识迁移。比如在学会识别 “人类摔倒需救助” 的图像和文本组合后,面对 “宠物狗摔倒” 的类似场景,能通过特征类比,理解这是需要关注的异常状态。
当前局限:距离真正理解世界仍有核心鸿沟
尽管多模态大模型表现出强大的跨模态能力,但 ICML 2025 的相关研究揭示,其距离人类式的世界理解还存在难以忽视的认知缺陷,所谓的 “理解” 仍有明显短板:
基础核心认知缺失:人类婴儿期就具备的物体恒存(物体被遮挡后仍存在)、空间边界、因果关系等核心认知,主流多模态大模型普遍缺乏。比如模型可能无法判断 “被书本遮住的杯子是否依然存在”,在这类简单常识任务中的表现远低于复杂的文本生成任务。
认知体系碎片化:人类的高级认知建立在基础认知的稳固框架上,但多模态大模型的高层推理能力与低层认知能力脱节。例如它可能能分析复杂的机械结构图纸,却无法准确判断 “两个堆叠的积木被推开后是否会掉落”,说明其知识体系缺乏层层递进的认知支撑,难以形成对世界的系统性理解。
依赖虚假认知捷径:很多时候模型的 “正确回答” 并非源于真正理解,而是靠数据中的表面规律投机取巧。通过 Concept Hacking 干预测试发现,若微调测试图文中的关键特征(如反转物体的因果关系),原本表现良好的模型会大幅出错。比如正常场景下能识别 “浇水让植物生长”,但反转图像中 “植物枯萎却在浇水” 的场景,模型仍可能误判为合理,暴露其并未掌握 “浇水与植物生长” 的核心因果逻辑。
综上,多模态大模型是通过 “编码 - 融合 - 解码” 的技术链路,结合大规模数据训练实现对世界的 “表层理解”,并在部分场景中展现出推理能力。但要实现类人类的、具备核心认知和系统逻辑的真正理解,还需突破基础认知注入、认知体系构建等关键难题,而非单纯依靠参数规模的扩大。未来或许需要结合认知科学理论,在预训练阶段强化物理常识、因果逻辑等核心知识,才能让模型逐步逼近对世界的本质理解。
有疑问加站长微信联系(非本文作者))
