苹果研究人员发布了一种新模型,让用户可以用简单的语言描述他们想要在照片中更改的内容,而无需接触照片编辑软件。
Apple与加州大学圣巴巴拉分校合作开发的MGIE模型可以通过文本提示对图像进行裁剪、调整大小、翻转和添加滤镜。
MGIE代表MLLM引导图像编辑,可应用于简单和更复杂的图像编辑任务,例如修改照片中的特定对象,使它们具有不同的形状或变得更亮。该模型融合了多模式语言模型的两种不同用途。首先,它学习如何解释用户提示。然后它“想象”编辑的样子(例如,要求照片中的天空更蓝就变成了提高图像天空部分的亮度)。
当使用MGIE编辑照片时,用户只需输入他们想要更改图片的内容即可。该论文使用了编辑意大利辣香肠披萨图像的示例。输入提示“使其更健康”会添加蔬菜配料。撒哈拉老虎的照片看起来很暗,但在告诉模型“添加更多对比度以模拟更多光线”后,图片显得更亮。
“MGIE不是简单但模糊的指导,而是得出明确的视觉感知意图并导致合理的图像编辑。我们从各个编辑方面进行了广泛的研究,并证明我们的MGIE在保持竞争效率的同时有效提高了性能。我们还相信MLLM引导的框架可以为未来的视觉和语言研究做出贡献,”研究人员在论文中表示。
据VentureBeat报道,苹果通过GitHub提供MGIE供下载,同时还发布了HuggingFaceSpaces的网络演示。该公司没有透露该模型的计划是什么,尚无法研究。
一些图像生成平台,例如OpenAI的DALL-E3,可以对通过文本输入创建的图片执行简单的照片编辑任务。大多数人都求助于Photoshop的创造者Adobe来进行图像编辑,它也有自己的AI编辑模型。其FireflyAI模型支持生成填充,可将生成的背景添加到照片中。
与微软、Meta或谷歌不同,苹果在生成人工智能领域并不是一个重要的参与者,但苹果首席执行官蒂姆库克表示,该公司希望今年在其设备中添加更多人工智能功能。去年12月,苹果研究人员发布了名为MLX的开源机器学习框架,以便更轻松地在AppleSilicon上训练人工智能模型。