中国财富新闻网

您的位置:首页 > 财经评论 >

不会PS没关系,AI拼图技术已能以假乱真

这是一份看似平平无奇的日式便当。

但你敢信,其实每一格食物都是 P 上去的,而且原图还是酱婶儿的:

直接抠图贴上去,效果一眼假

背后操作者并不是什么 PS 大佬,而是一只 AI,名字很直白:拼图扩散。

其效果惊艳了不少网友。

甚至还有 PS 爱好者直呼道:

这简直是个天赐之物…… 希望很快能在 Automatic1111中看到它。

为什么效果这么自然?

实际上,此 AI 生成的“日式便当”还有好几个生成版本 —— 都很自然有木有。

至于为啥还有多种版本?问就是因为用户还能自定义,在总体不变得太离谱的前提下,他们可以微调各种细节。

除了“日式便当”,它还有不少出色的作品。

比如,这是拿给 AI 的素材,P 图痕迹明显:

这是 AI 拼好的图,反正我愣是没看出什么 P 图痕迹:

不过,文字终究对于目标图像,最多只能起到模糊的规范作用,所以用户通常要花大量时间调整提示,还得搭配上额外的控制组件,才可以取得不错的效果。

就拿前文展示的日式便当来说:

如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”,那就既没描述哪种食物放到哪一格,也没有说明每种食物的外观。但如果非要讲清楚的话,用户恐怕得写一篇小作文了……

鉴于此,斯坦福团队决定从别的角度出发。

他们决定参考传统思路,通过拼图来生成最终图像,并由此开发出了一种新的扩散模型。

有意思的是,说白了,这种模型也算是用经典技术“拼”出来的。

首先是分层:使用基于图层的图像编辑 UI,将源图像分解成一个个 RGBA 图层,然后将这些图层排列在画布上,并把每个图层和文字提示配对。

通过分层,可以修改图像中的各种元素。

而在这种新型“拼图扩散模型”中,分层信息成了后续操作的输入。

除了分层,还搭配了现有的基于扩散的图像协调技术,提升图像视觉质量。

总而言之,该算法不仅限制了对象的某些属性的变化,同时允许属性(方向、光照、透视、遮挡)发生改变。

操作过程也很 easy,在交互编辑模式下,用户在几分钟内就能创作一幅拼贴画。

他们不仅可以自定义场景中的空间排列顺序;还能调整生成图像的各个组件。用同样的源图,可以得出不同的效果。

最右列是这个 AI 的输出结果

而在非交互式模式下,AI 也能根据拿到的小图,自动拼出一张效果自然的大图。

研究团队

最后,来说说背后的研究团队,他们是斯坦福大学计算机科学系的一群师生。

论文一作,Vishnu Sarukkai 现为斯坦福计算机科学系研究生,还是硕博连读的那种。

他的主要研究方向为:计算机图形学、计算机视觉和机器学习。

此外,论文的共同作者 Linden Li,也是斯坦福计算机科学系研究生。

在校求学期间,他曾到英伟达实习 4 个月,与英伟达深度学习研究小组合作,参与训练了增加 100M + 参数的视觉转换器模型。

论文地址:

参考链接:

栏目导读

消博会“神仙打架”:国际巨头入华抢滩新赛道,本土品牌欲出海

消博会“神仙打架”:国际巨头入华抢滩新赛道,本土品牌欲出海

作者:叶子琪

作者:周嘉宝尽管上半年本土疫情的反复让零售市场承压,但中国这片消费热土仍被所有人寄予厚望。7月25日,第二届中国国际消费品博览会在海南海口拉开帷幕。时代财经发现,上半年零售市场的低迷情绪并没有蔓延至这场规格颇高的展会中。作为此次展会主战场,...

2023年定为“消费提振年”,广州消费市场大派“红包”

2023年定为“消费提振年”,广州消费市场大派“红包”

作者:子墨

兔年第一个工作日,刷屏的除了有“开工大吉”,还有政府派发的“大红包”。1月28日,全省高质量发展大会在广州召开。紧随其后,当天下午,广州召开全市高质量发展大会。会上,广州市商务局局长洪谦透露一个重磅信息——广州将2023年定为“消费提振年”...

无人货架凉了新零售的发展新机会在哪?

无人货架凉了新零售的发展新机会在哪?

作者:张璠

摘要:正如电商概念的完善和发展经历了一个过程一样,新零售的发展同样要经历一个从萌芽到成熟的过程。从这个逻辑来看,当前出现的无人货架困境是新零售概念发展成熟的过程当中必然要经历的一个阶段。图片来源:视觉中国从某种程度上来讲,无人货架打了新零售...

华润啤酒欲牵手喜力啤酒业“利润时代”打响高端之争

华润啤酒欲牵手喜力啤酒业“利润时代”打响高端之争

作者:苏婉蓉

中新经纬客户端3月13日电(贺陈慧)积极探索并购机会的华润啤酒,正在加快对啤酒高端市场的布局。3月9日,因传华润啤酒欲收购喜力中国业务,华润啤酒发布价格和成交量异常波动的公告,公告中提到,公司及公司控股股东经常探索和进行有关潜在交易的商业和...