大模型竟被一张图难倒？ChatGPT、Gemini纷纷翻车，为啥不会眯眼睛？

实在让人难以想象，日本艺术家所绘制的这幅画作，竟然使得那些庞大的模型都显得有些迷茫。这是为什么？下面，就让我来为大家揭开这个谜团

难倒大模型的画作

近期，日本艺术家北冈秋吉的作品引起了广泛关注。初看这幅画，内容显得有些模糊，不够清晰。但经过仔细观察，人们才意识到这幅画其实是蒙娜丽莎的肖像。这幅画给众多大型模型带来了挑战，例如GPT模型仅能识别出人脸，而Gemini模型则错误地认错了人。从这个现象可以看出，面对这幅画作，大型模型的表现并不尽如人意。

验证“眯眼”推论实测

为了检验这个大型模型是否真的拥有“不眯眼”的功能，网友们进行了实地测试。他们向模型发出了指令，要求其模仿“眯眼”的动作进行识别。结果，GPT识别出这是一张视觉错位图，并且准确找出了脸部的大致轮廓，但最终还是出现了误差。Gemini仅能识别出颜色条纹和侧面轮廓，而Grok却需要一张清晰的照片，整体效果并未符合预期。

国产模型表现情况

国产模型也面临了挑战。豆包在辨别出图像的画风和面部轮廓后，经过仔细思考，竟然将此人误认为是爱因斯坦。Qwen虽然留意到那是侧脸的轮廓，却依旧没能识别出具体是哪位名人。元宝和讯飞也提供了他们的判断，其中o3 - Pro在第一次尝试时就给出了准确答案。在众多模型都纷纷未能准确识别的情况下，它却成功得分。

o3 - Pro获胜原因分析

网友们对o3-Pro的成就要素展开了讨论，普遍觉得这与它的推理机制紧密相连。在Python编程环境中，o3（非Pro版本）主要承担图像旋转和对比度增强等操作，而o3-Pro在推理能力上则更为突出。尽管部分人对它是否采用了搜索算法持有疑虑，但这一猜测已被开发者亲自否定。通过推理和总结，我们得知它运用了特定的技术手段来进行识别，例如，它首先会对图像进行模糊化处理。

“偶然猜对”的情况

GPT-4o在经过三次尝试后才给出了正确的答案，这一现象让人不禁对答案的准确性产生了疑问，怀疑它可能只是出于偶然。在初次回答错误后，网友提供了线索，指出那是一幅知名的画作，这让人联想到了“海龟汤”这款游戏。此外，o4-mini-high在识别图像时，会先进行模糊处理，然后再进行识别，这也暗示了模型的识别结果可能存在一定的随机性。