谷歌的新型人工智能工具使用图像提示而非文本-cyberxtian的专栏

谷歌的新型人工智能工具使用图像提示而非文本

2025-07-05 21:46:05栏目：人工智能 IP属地：IP未知

作者：约翰·托菲吉（CNN）

谷歌最新的人工智能工具“Whisk”允许用户上传照片，以获得一张由人工智能生成的合成图像，即便用户无需输入任何文本来说明他们想要什么。

用户可以输入描绘主题、场景和风格的图像，然后Whisk会将所有元素合并成一张图像。

谷歌在一篇博客文章中表示，Whisk是一个用于快速获取灵感的“创意工具”，而非“传统图像编辑器”。本质上，Whisk旨在成为一项有趣的人工智能功能，而非用于完成精致专业工作的工具。

像谷歌和OpenAI这样的大型科技公司竞相推出能够展示这项炫酷新技术用途的消费产品，即便反对者警告称，人工智能发展缺乏监管会给人类带来危险。

自OpenAI在2021年首次推出其文本转图像创作工具Dall-E以来，人工智能生成艺术作品的概念已在社交媒体上风靡，并成为消费产品的一个焦点。谷歌的Whisk是一个图像转图像生成器，建立在广受欢迎的文本转图像生成器概念之上。

使用Whisk的人可以通过编辑输入内容和混合类别来“重新组合”最终图像，以生成不同的图像，如毛绒玩具、珐琅别针或贴纸。如果用户想要指导某些细节，可以添加文本，但创建图像并非必需。

“Whisk旨在让用户以新颖且有创意的方式重新组合主题、场景和风格，提供快速的视觉探索，而非像素级完美的编辑，”谷歌实验室产品管理总监托马斯·伊利奇在一份声明中表示。

谷歌的Whisk基于DeepMind开发的生成式人工智能构建，DeepMind是谷歌于2014年收购的人工智能实验室。

Whisk通过使用谷歌的核心人工智能产品Gemini（于2023年12月首次亮相），并将其与DeepMind在12月发布的最新文本转图像生成器Imagen 3相结合来工作。

当用户上传图像时，Gemini会生成一个标题，该标题会被输入到Imagen 3中。这个过程捕捉的是主题的“本质”，而非精确复制品，这使得最终图像可以重新组合，但也意味着最终产品可能与提示有所偏差。

例如，谷歌在一篇博客文章中表示，生成的图像可能与提示图像的身高、发型或肤色不同。

当谷歌在2月首次推出Gemini的文本转图像创建工具时，该公司最初遭到了反对，因为该工具生成的图像在历史准确性方面存在问题。

谷歌表示，Whisk首先在美国以谷歌实验室网站的形式提供，目前处于早期开发阶段。

OpenAI最近还发布了一款名为Sora的文本转视频生成器，凸显了消费产品领域的竞争。

韦德布什证券公司董事总经理兼高级股票分析师丹·艾夫斯告诉美国有线电视新闻网，Whisk是谷歌在人工智能和科技竞赛中的又一个“展示实力的时刻”。

“DeepMind是谷歌的一项关键资产，”艾夫斯说，并指出人工智能产品是谷歌2025年新产品“宝库”的一部分，其中还包括与三星和高通合作打造的新安卓操作系统。