豆包“眼睛”升级了,现在让它看看APP截图,可以直接给你生成

人参与 | 时间：2026-01-04 18:06:35

豆包“眼睛”升级了，眼睛现在让它看看APP截图，豆包可以直接给你生成代码！升级

话不多说，现让我们直接给它一个困难。直接

比如我们先随机截取一张网站的眼睛图片:

再来到火山方舟大模型广场，pick最新Doubaoo-vision-pro-32k版本：

（PS：该模型也可以在豆包APP中体验)

然后把刚才的截图“喂”给豆包，附上简单的升级Promptt：

帮我写代码，克隆这个APP。现让

只见豆包先是直接秒看到这是一个音乐APP的界面，然后又嗖嗖地敲了一下代码。眼睛

在代码功能方面，豆包包括菜单栏、升级播放列表框架、现让播放列表列表框和状态栏。直接

模拟播放列表包含了几首歌曲的信息，包括标题、艺术家、时间和喜欢。

而且这些都在不到30秒内完成的。

要实现更复杂的功能，我们也可以继续使用：

然后继续帮助我实现更复杂的音乐播放应用。

这一次，也只是耗时1分钟，在原始代码的基础上，增加了控制面板、播放按钮、更新进度条等内容。

嗯，现在开发一个APP真的成了截图。

这是豆包最新发布的新模型——豆包 · 视觉理解模型。

总的来说，它的亮点可以归结为以下三点：

更强的内容识别：支持OCR、特别是对中国传统文化的理解，如图像知识、动作情绪、位置状态等。

理解和推理增强：优化推理和问答数学、逻辑和代码的能力。

细腻的视觉描述：提供详细的图像描述，可以创建产品介绍、故事、视频脚本等多种风格内容。

更重要的是，发布即大幅降价——003元/千tokens003元/。

相当于1块钱可以处理284张图片！

但有一句话说，毕竟考验大模型“视力”这件事，不能只看单一产品。

因此，接下来，我们将组成一个挑战，看看哪个大模型的“眼睛”更好。

大模型“视力”大竞争

我们邀请的打擂台选手是OpenAI的顶流之一GPT-4o。

比试规则也很简单，就是通过不同维度的试题来看答案的效果。

Round 1：识别复杂而罕见的物体

在第一轮比赛中，我们先试一把牛刀不常见水果，请看图：

然后我们分别问两位选手:

图中是什么东西？

△上图为豆包答案；下图为GPT-4o答案(下同)。

从答案内容来看，虽然两者都答对了，但特点各不相同。

豆包视觉理解模型的答案与金铃子密切相关；GPT-4o更倾向于金铃子和苦瓜的区别。

如果比试要求与图中的物体高度相关，也许豆包·视觉理解模型的答案更好。

再来一张冷门图像，请看问题：

这是什么？

让我们来看看两位选手的回答：

他们都看到这是一个冷门乐器，但这一次，豆包·视觉理解模型明显答案更准确——乐器叫Mizmar。

不仅如此，它还讲述了它的材料、文化特征和其他信息；GPT-4o的答案只能说是一般的描述。

这一轮，豆包·视觉理解模型，Win！

Round 2：大家来找茬

与视力相比，“大家来找茬”这个游戏绝对不能错过~

请看题目：

找出10个不同点。

让我们来看看两位选手的回答：

在这一轮比赛中，问题更加明显，两名选手都没有给出正确的答案(部分正确)。

似乎人工智能玩每个人都有一定的挑战性。

Round 3：反向猜测Prompt

现在人工智能图片的生成能力可以说是完美的，但是当我们看到一部我们最喜欢的作品，却无法复制Prompt时，我们该怎么办？

是时候把这个问题交给“能看”的大模型了。

比如我们随机来一部抽象的艺术作品:

然后让豆包视觉理解模型和GPT-4o猜猜它的Prompt：

看这张图，帮我写一段Prompt，可以重生类似的作品。

为了公平起见，我们不使用豆包和ChatGPT自带的生图功能，而是将两段Prompt交给第三方Midjourney结果如下：

△上图:基于豆包的Prompt；下图:基于GPT-4o的Prompt

也许豆包视觉理解模型给出的Prompt在还原度上更接近原作。

Round 4：数学竞赛大比赛

数学题是测试大模型逻辑推理能力的好方法。

所以，我们直接去上一个AIME数学竞赛题，看看是否足以“开门”。

（AIME：美国数学邀请赛介于AMC10、AMC12和美国数学奥林匹克竞赛之间的数学竞赛。)

这个主题翻译成这样：

每天早上，Aya都会走9公里，然后呆在咖啡店里。当她以每小时S公里的恒定速度行走时，整个步行和在咖啡店停留的时间总共需要4个小时，包括在咖啡店停留的t分钟。当她以s的速度行走时以每小时2公里的速度行走时，整个过程(包括在咖啡店停留时间)需要2小时24分钟。

假设Aya是s 以每小时1/2公里的速度行走，请求她在这种情况下(包括在咖啡店停留时间)的总时间(以分钟为单位)。

这项任务的难度在于，人工智能需要先准确识别晦涩难懂的数学问题和公式，然后进行准确的推理。

接下来，让我们来看看豆包·视觉理解模型和GPT-4o的表现(查看上下滑动)：

这个话题官方给出的正解是204分钟。

但GPT-4o的结果并非如此，因此，本轮豆包·视觉理解模型大获全胜。

Round 5：日常实用任务

事实上，在日常工作、学习和生活中，仍有许多任务需要人工智能来看图片来帮助完成。

例如提取复杂表格的数据，可能会让很多人苦恼，尤其是准确性。

因此，在最后一轮中，我们将测试苹果第四季度财务报告中的一张表格：

帮我抽取整理图中的数据，用中文表达。

让我们来看看豆包·视觉理解模型的答案：

不难看出，豆包·视觉理解模型非常清楚地显示了财务报告数据以表格的形式展示出来，可以说一目了然。

但同样的需求给GPT-4o这边，虽然数据是提取出来的，但在呈现方式上却有些欠缺，依然是经典的列表：

在几轮“挑战”之后，不难看出豆袋·视觉理解模型在能力上有一定的优势。

但是“眼睛”的升级，还只是豆包大模型这次发布内容的一角。

说唱能力都提升了

是的，除了“看”，“说”和“唱”的能力也提升了。

这也与豆包大模型的三大类相对应:

大语言模型

语音大模型

视觉大模型

首先，在大语言模型方面，豆包pro通用模型与半年前相比：

综合能力提高了32%

数学能力提高了43%

专业知识提升54%

代码能力提高了58%

二是语音大模型，音乐模型豆包现在可以直接生成了完整音乐3分钟！

例如，我们在其APP中海绵音乐输入一个简单的Prompt：

三分钟的音乐，沧桑，男声，民歌，岁月的浪费。

生成三分钟音乐的难度不仅仅是简单的堆叠时间，更多的是前奏、主歌、合唱、间奏、尾奏等完整结构。

不仅如此，它还类似于视频制作，对前后的一致性提出了更高的要求。

从这个音乐片段不难听出，它确实满足了上述要求，并且仍然支持它改词的那种哦~

豆包音乐模型除了可以用Prompt生成音乐外，还支持用图片作曲了。

比如我们“喂”海绵音乐的下图:

从音乐中可以看出，人工智能在图片中认出了“黛玉葬花”的感觉，歌词和配乐充满了悲伤。

据悉，豆包音乐模式目前支持17种音乐风格、11种情绪和6种特色音乐。

最后，在视觉模型方面，除了我们刚才展示的豆包·视觉理解模型外，文生图模型豆包也迎来了升级——

现在，一句话就能搞定P图这件事：

戴上眼镜。

不仅如此，做海报也是几句话，还能生成汉字:

以汉字“量子位”为主体生成海报，充满科技感和未来感。

由此可见，这一次豆包的大模型正在“说”、“唱”、“看”三个维度确实提升了不小的实力。

不看广告只看疗效

但有一种说法，实力是一方面，站在大模型应用为王的时刻，也许好用才是真正的硬道理。

事实上，豆包在使用AI时也拿出了成绩单。

首先，从数据来看，截至12月18日，豆包大模型的日均tokens使用量已经突破4万亿大关。

其次，从实际实施情况来看，据报道，豆包大模型已在科学教育、金融、医疗、企业服务、汽车等行业工作，并与多家龙头企业达成合作。

从市场和用户对豆包的购买程度可以看出。

在这个过程中，“易落地”也是一个关键点。

不得不提的是，这次也迎来了两个升级的法宝:左手“HiAgent右手“扣子”。

例如，Hiagent提供了100多个行业应用模板和GraphRAG技术，以提高知识处理的准确性，支持多模态交互和复杂场景的需求，企业可以快速启动，而无需从零开发。

另一个例子是，纽扣拥有数百万开发者和丰富的生态系统，支持200万智能身体，覆盖智能客户服务、内容营销等场景，大大缩短了开发和部署时间。

此外，它与小程序、网页等形式兼容，支持实时语音交互和硬件集成，企业可以轻松实现人工智能能力的无缝嵌入。

总之，低门槛模板、强大的生态支持和多平台兼容性是Hiagent和纽扣快速适应企业场景、实现高效实施的关键。

那么你对豆包的众多升级更感兴趣的是哪一个呢？体验后欢迎回来交流~

来源：量子位

顶: 73踩: 169

多难兴邦网

豆包“眼睛”升级了,现在让它看看APP截图,可以直接给你生成

人参与 | 时间：2026-01-04 18:06:35

△上图为豆包答案；下图为GPT-4o答案(下同)。

△上图:基于豆包的Prompt；下图:基于GPT-4o的Prompt

评论专区

相关文章