与Midjourney、OpenAI 的DALL-E 3和其他竞争对手相比,Firefly 图像生成模型尤其被嘲笑为平淡无奇且存在缺陷,容易扭曲肢体和景观并错过提示中的细微差别。但 Adobe 正试图通过其第三代模型 Firefly Image 3 扭转局面,Firefly Image 3 将于本周在该公司的 Max London 会议期间发布。
该模型现已在 Photoshop(测试版)和 Adobe 的 Firefly Web 应用程序中提供,由于能够理解更长、更复杂的提示和场景,并且改进了模型,因此可以比其前身生成更“真实”的图像。照明和文本生成功能。 Adobe 表示,它应该更准确地渲染版式、图像、光栅图像和线条艺术等内容,并且“明显”更擅长描绘密集的人群和具有“详细特征”和“各种情绪和表情”的人。
无论如何,在我短暂的、不科学的测试中,图 3确实比图 2 有所进步。
我自己无法尝试图 3。但 Adobe PR 发送了模型的一些输出和提示,我设法通过网络上的图像 2 运行这些相同的提示,以获取示例来与图像 3 的输出进行比较。
Image 3 的一些改进无疑可以追溯到更大、更多样化的训练数据集。
与图像 2 和图像 1 一样,图像 3 接受了上传到Adobe Stock(Adobe 的免版税媒体库)以及版权已过期的许可和公共领域内容的训练。 Adobe Stock 一直在增长,因此可用的训练数据集也在增长。
为了避免诉讼,并将自己定位为比不加区别地训练图像的生成式 AI 供应商(例如 OpenAI、Midjourney)更“道德”的替代品,Adobe 制定了一项计划,向 Adobe Stock 贡献者支付训练数据集的费用。 (不过,我们会注意到该计划的条款相当不透明。)有争议的是,Adobe 还在人工智能生成的图像上训练 Firefly 模型,有些人认为这是一种数据清洗形式。
最近的彭博社报道显示,Adobe Stock 中人工智能生成的图像并未被排除在 Firefly 图像生成模型的训练数据之外,考虑到这些图像可能包含反刍的受版权保护的材料,这是一个令人不安的前景。 Adobe 为这种做法进行了辩护,声称人工智能生成的图像仅占其训练数据的一小部分,并经过审核过程以确保它们不会描绘商标或可识别的字符或引用艺术家的名字。
当它的手放在上面。
新的人工智能功能
除了增强的文本到图像功能之外,Image 3 还支持 Photoshop 中的多项新功能。
图 3 中的新“风格引擎”以及新的自动风格化开关使模型能够生成更广泛的颜色、背景和主体姿势。它们输入到参考图像中,该选项允许用户在图像上调整模型,他们希望未来生成的内容与该图像的颜色或色调保持一致。
三个新的生成工具——生成背景、生成相似和增强细节——利用 Image 3 对图像进行精确编辑。 (自描述性)“生成背景”用生成的背景替换背景并混合到现有图像中,而“生成相似”则提供照片的选定部分(例如,人或物体)的变化。至于增强细节,它会“微调”图像以提高锐度和清晰度。
如果这些功能听起来很熟悉,那是因为它们已经在 Firefly Web 应用程序中处于测试阶段至少一个月了(而 Midjourney 的测试时间则要长得多)。这标志着他们的 Photoshop 首次亮相——测试版。
说到网络应用程序,Adobe 并没有忽视其 AI 工具的替代途径。
为了配合 Image 3 的发布,Firefly Web 应用程序将获得“结构参考”和“样式参考”,Adobe 将其宣传为“推进创意控制”的新方法。 (两者均于三月份宣布,但现在已广泛使用。)通过结构参考,用户可以生成与参考图像“结构”相匹配的新图像,例如赛车的正面视图。风格参考本质上是风格转移的另一个名称,保留图像的内容(例如,非洲野生动物园中的大象),同时模仿目标图像的风格