萧箫 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI
想不到,OpenAI刚发布DALL·E,就早已有些人在复现了。
尽管還是个半成品加工,但是大致架构早已构建好啦,一位第三方作者Philip Wang已经施工现场。
DALL·E是前几天刚发布的文本转图像互联网架构,现阶段只发布了新项目結果,乃至连官方网毕业论文都还没出。
毕业论文还没有出,就逐渐复现了
毕业论文复现的根据,来源于一位称为Yannic Kilcher的时尚博主制做的油管视频。
他在视頻中,对DALL·E的基本原理构造开展了猜想。
他表明,这种猜想并不意味着具体情况,或许DALL·E的毕业论文出去后,会颠复他的预期。
Yannic觉得,DALL·E应该是VQ-VAE模型、和类似GPT-3的語言模型的融合。
GPT-3这种語言模型,拥有 十分强劲的語言模型工作能力,能够对键入的文字说明开展非常好的分拆了解。
而VAE模型,则是一种强劲的图像形成Transformer,在训练进行后,模型会除掉伺服电机(encoder)的一部分,只留有视频解码器,用以形成图像。
将二者融合得话,就能像下面的图中的那一个小三角一样,将键入的各种各样物件,依据了解的文本,融合成具备现实意义的一幅界面。
比如,键入人、太阳光和树,模型就能輸出“太阳下,树底坐下来一个人”所勾勒的图像。
要怎么完成?
先简易剖析一下VQ-VAE的模型基本原理。
与VAE类似,这也是一个Transformer构造的模型,伺服电机对图像开展编号后,将编码数据送进隐室内空间,视频解码器再从隐室内空间中,对图像开展重新构建。
对比于VAE,VQ-VAE隐变量的每一维全是离散变量整数金额,换句话说,它的隐室内空间实际上是一个编号簿(codebook),包括获取出的各种各样空间向量信息。
在DALL·E里,这一编号簿,实质上能够等额的为一个词汇(vocabulary)。
这一词汇,专业用于储存对图像的各种各样叙述。
对键入图像开展编号时,实质上是将图像分为各种各样清晰度块。
期内,会造成各式各样的图像信息。
假定浅蓝色的方格,包括“苍穹”的叙述信息,那麼在复建时,视频解码器载入到“苍穹”信息,便会分派顶部的一系列清晰度,用于形成苍穹。
在进行VQ-VAE的训练后,模型就获得了一个仅有视频解码器能看懂的编号簿。
到时候,将由类似GPT-3的語言模型,对键入的文本开展编解码,转化成仅有编号簿才看得懂的空间向量信息。
随后,编号簿会将这种信息开展排列,先后列举每一个清晰度块应当形成的数据信息,并告知视频解码器。
视频解码器会生成这种清晰度数据信息,获得最后的图像。
为了更好地完成那样的总体目标,不仅对类似GPT-3的語言模型开展训练,还要提早对VQ-VAE模型开展预训练。
并且,还必须对二者结合后的模型开展训练。
这名作者复现的DALL·E,也是根据这一解析视频的基本原理复现的。
相关新项目自身
现阶段,DALL·E的复现新项目都还没进行,作者依然在生产加工中(WIP),但是早已有700好几个Star。
作者期待写成一个PyTorch版本号的DALL·E,如今的架构中,早已包括了VAE的训练、CLIP的训练,及其VAE和CLIP结合后的模型预训练。
除此之外,还包含DALL·E的训练、和将预训练VAE模型结合进DALL·E模型中的一部分。
所述控制模块训练进行后,就能用DALL·E来做文字生成图像了。
现阶段,作者已经开展DALL·E控制模块一部分的编码复现。
作者服务承诺,进行DALL·E的一部分后,会把CLIP模型也一起补上。
作者详细介绍
Philip Wang,本硕毕业于宾夕法尼亚大学,博士毕业于密歇根大学医科院。
他的科学研究兴趣爱好是AI(深度神经网络方位),及其健康医疗,现阶段GitHub上已有1.5k个followers。
有关DALL·E自身,解析视频时尚博主Yannic也表明,往往能获得那么好的实际效果,并 不都是由于模型设计方案。
DALL·E,极很有可能也像GPT-3一样,用了样本数巨大的数据,来对模型开展训练。
网民表明,无法想象训练这一东西常用的GPU总数,气侯又要转暖了。