大模型竟被一张图难倒?ChatGPT、Gemini纷纷翻车,为啥不会眯眼睛?

实在让人难以想象,日本艺术家所绘制的这幅画作,竟然使得那些庞大的模型都显得有些迷茫。这是为什么?下面,就让我来为大家揭开这个谜团

图片

难倒大模型的画作

图片

近期,日本艺术家北冈秋吉的作品引起了广泛关注。初看这幅画,内容显得有些模糊,不够清晰。但经过仔细观察,人们才意识到这幅画其实是蒙娜丽莎的肖像。这幅画给众多大型模型带来了挑战,例如GPT模型仅能识别出人脸,而Gemini模型则错误地认错了人。从这个现象可以看出,面对这幅画作,大型模型的表现并不尽如人意。

图片

图片

验证“眯眼”推论实测

为了检验这个大型模型是否真的拥有“不眯眼”的功能,网友们进行了实地测试。他们向模型发出了指令,要求其模仿“眯眼”的动作进行识别。结果,GPT识别出这是一张视觉错位图,并且准确找出了脸部的大致轮廓,但最终还是出现了误差。Gemini仅能识别出颜色条纹和侧面轮廓,而Grok却需要一张清晰的照片,整体效果并未符合预期。

图片

国产模型表现情况

图片

国产模型也面临了挑战。豆包在辨别出图像的画风和面部轮廓后,经过仔细思考,竟然将此人误认为是爱因斯坦。Qwen虽然留意到那是侧脸的轮廓,却依旧没能识别出具体是哪位名人。元宝和讯飞也提供了他们的判断,其中o3 - Pro在第一次尝试时就给出了准确答案。在众多模型都纷纷未能准确识别的情况下,它却成功得分。

图片

o3 - Pro获胜原因分析

图片

网友们对o3-Pro的成就要素展开了讨论,普遍觉得这与它的推理机制紧密相连。在Python编程环境中,o3(非Pro版本)主要承担图像旋转和对比度增强等操作,而o3-Pro在推理能力上则更为突出。尽管部分人对它是否采用了搜索算法持有疑虑,但这一猜测已被开发者亲自否定。通过推理和总结,我们得知它运用了特定的技术手段来进行识别,例如,它首先会对图像进行模糊化处理。

图片

“偶然猜对”的情况

GPT-4o在经过三次尝试后才给出了正确的答案,这一现象让人不禁对答案的准确性产生了疑问,怀疑它可能只是出于偶然。在初次回答错误后,网友提供了线索,指出那是一幅知名的画作,这让人联想到了“海龟汤”这款游戏。此外,o4-mini-high在识别图像时,会先进行模糊处理,然后再进行识别,这也暗示了模型的识别结果可能存在一定的随机性。

图片

模型识别能力的思考

这幅图揭示了大型模型在图像识别方面存在的一些局限性。众多模型在应对这一挑战时,效果并未达到预期,只有少数模型获得了较高的分数。这促使我们开始关注模型在推理能力及识别方法上的不同。为了应对更加复杂的图像识别挑战,模型在未来的发展中必须持续提升自身能力。

图片

大家对大模型在将来能否更有效地解决这类图像识别的挑战有何见解?欢迎在评论区发表你的看法。如果你认为这篇文章对你有所启发,请不要忘记点赞,并且分享给更多的人!

图片

图片

地址:合肥新站高新技术产业开发区三十头镇卫生院(三十头镇怀远路)合肥市瑶海区006县道三十头社区
儿童保健:0551-66336032 妇女保健:0551-66336075 预防接种:0551-66372120 办公室:0551-66336031 护理部:0551-66336020

关于站点

合肥新站高新技术产业开发区三十头镇卫生院(以下简称“三十头镇卫生院”)是合肥市新站高新区下辖的一所基层医疗卫生机构,主要承担辖区内居民的基本医疗、公共卫生服务及健康管理工作。合肥新站高新技术产业开发区三十头镇卫生院系原长丰县三十头镇卫生院区划调整而来的,始建于1952年。 现居怀远路,是合肥市城镇职工、居民、离退休老干部基本医疗保险定点机构。是安徽医科大学第一附属医院、医疗联合体成员单位。 中心机构设置合理、基础设施完善、基本设备齐全、管理运行高效,为满足辖区居民日益增长的健康服务需求而不懈努力。

搜索Search

搜索一下,你就知道。