GAN卷土重来:10亿参数的GigaGAN效果堪比扩散模型-环球要闻

时间:2023-04-24 08:40:18 来源: 程序员客栈


【资料图】

点蓝色字关注“机器学习算法工程师”

设为星标,干货直达!

自从 DALL·E 2 之后,在图像生成方面扩散模型替代GAN成了主流方向,比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日, Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿(1B)的GAN模型:GigaGAN,其在文生图效果上接近扩散模型效果,而且推理速度更快,生成512x512大小图像只需要0.13s,生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能,比如latent插值,风格混合,以及向量运算等。

GigaGAN改进了StyleGAN架构,采用两阶段训练策略:一个是64x64的图像生成器和一个512x512的图像超分2器,其图像生成器架构如下所示(这里也是采用CLIP text encoder来引入text condition):GigaGAN在 LAION2B-en和 COYO-700M数据集上训练,其在COCO数据集上的FID达到9.09,超过stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生图能力,还可以实现可控的合成,比如风格混合,如下图所示:更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/

标签:

精彩推送

环球视点!ps找不到msvcp140.dll解决方法_ps找不到msvcp140 dll

1、解决方法一:打开QQ电脑管家,点击右上角按钮切换到经典界面。2、2、点击左下角的【电脑诊所】3、进...

来源:2023.04.21

天天热文:男子试吃花生被制止半夜偷走150斤

4月9日,湖北黄石。嫌犯男子多次到炒货店拿花生吃,老板制止后与其发生冲突。嫌疑人半夜溜进老板仓库,盗走...

来源:2023.04.21

电路中线性和非线性的区别_线性和非线性的区别

1、性质不同:1 线性编辑:指的是一种需要按时间顺序从头至尾进行编辑的节目制作方式。2、2 非线性编...

来源:2023.04.21

天天快看点丨研报掘金|国联证券:智飞生物一季报符合预期 予目标价116.2元 维持“买入”评级

格隆汇4月20日丨国联证券发研报指,智飞生物(300122 SZ)一季报实现营收111 73亿元,同比增长26%;归母净

来源:2023.04.21

外交部发言人:敦促美国等发达国家审慎评估自身经济金融政策外溢影响

新华社北京4月20日电(记者马卓言)外交部发言人汪文斌20日表示,当前国际金融风险突出,同美国等发达国...

来源:2023.04.21

如何制作假茬

你需要的东西绉纱羊毛剪刀碗灵胶清洁睫毛膏棒制作看起来像真的假茬。戏剧表演的好处是观众可以从远处观...

来源:2023.04.21

央行:截至3月末已有83个城市下调首套房贷利率下限-全球独家

中国人民银行货币政策司司长邹澜20日介绍,自去年建立首套住房贷款利率政策动态调整机制以来,截至今年3...

来源:2023.04.21

世界热点评!比济南悠久,比青岛古朴,这座低调的山东小城,乾隆都被它倾倒

一条京杭大运河的开通,催生了中国的第一条城市带,每一座城就像项链上的珍珠一样,璀璨耀眼。在齐鲁大...

来源:2023.04.21

【国际锐评】中国经济“首季报”何以超出预期|世界球精选

“一季度GDP增速高于前值和预期”“中国经济加快复苏”“中国经济开局良好”……中国官方18日发布2023年...

来源:2023.04.21

新闻快讯

X 关闭

X 关闭

新闻快讯