首页 科技 正文

DALL E上映才两天就重新出现了?官方文件没出来的时候,大神们重新出现了代码。

萧箫 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

想不到,OpenAI刚发布DALL·E,就早已有些人在复现了。

尽管還是个半成品加工,但是大致架构早已构建好啦,一位第三方作者Philip Wang已经施工现场。

DALL·E是前几天刚发布的文本转图像互联网架构,现阶段只发布了新项目結果,乃至连官方网毕业论文都还没出。

毕业论文还没有出,就逐渐复现了

毕业论文复现的根据,来源于一位称为Yannic Kilcher的时尚博主制做的油管视频。

他在视頻中,对DALL·E的基本原理构造开展了猜想。

他表明,这种猜想并不意味着具体情况,或许DALL·E的毕业论文出去后,会颠复他的预期。

Yannic觉得,DALL·E应该是VQ-VAE模型、和类似GPT-3的語言模型的融合。

GPT-3这种語言模型,拥有 十分强劲的語言模型工作能力,能够对键入的文字说明开展非常好的分拆了解。

而VAE模型,则是一种强劲的图像形成Transformer,在训练进行后,模型会除掉伺服电机(encoder)的一部分,只留有视频解码器,用以形成图像。

将二者融合得话,就能像下面的图中的那一个小三角一样,将键入的各种各样物件,依据了解的文本,融合成具备现实意义的一幅界面。

比如,键入人、太阳光和树,模型就能輸出“太阳下,树底坐下来一个人”所勾勒的图像。

要怎么完成?

先简易剖析一下VQ-VAE的模型基本原理。

与VAE类似,这也是一个Transformer构造的模型,伺服电机对图像开展编号后,将编码数据送进隐室内空间,视频解码器再从隐室内空间中,对图像开展重新构建。

对比于VAE,VQ-VAE隐变量的每一维全是离散变量整数金额,换句话说,它的隐室内空间实际上是一个编号簿(codebook),包括获取出的各种各样空间向量信息。

在DALL·E里,这一编号簿,实质上能够等额的为一个词汇(vocabulary)。

这一词汇,专业用于储存对图像的各种各样叙述。

对键入图像开展编号时,实质上是将图像分为各种各样清晰度块。

期内,会造成各式各样的图像信息。

假定浅蓝色的方格,包括“苍穹”的叙述信息,那麼在复建时,视频解码器载入到“苍穹”信息,便会分派顶部的一系列清晰度,用于形成苍穹。

在进行VQ-VAE的训练后,模型就获得了一个仅有视频解码器能看懂的编号簿。

到时候,将由类似GPT-3的語言模型,对键入的文本开展编解码,转化成仅有编号簿才看得懂的空间向量信息。

随后,编号簿会将这种信息开展排列,先后列举每一个清晰度块应当形成的数据信息,并告知视频解码器。

视频解码器会生成这种清晰度数据信息,获得最后的图像。

为了更好地完成那样的总体目标,不仅对类似GPT-3的語言模型开展训练,还要提早对VQ-VAE模型开展预训练。

并且,还必须对二者结合后的模型开展训练。

这名作者复现的DALL·E,也是根据这一解析视频的基本原理复现的。

相关新项目自身

现阶段,DALL·E的复现新项目都还没进行,作者依然在生产加工中(WIP),但是早已有700好几个Star。

作者期待写成一个PyTorch版本号的DALL·E,如今的架构中,早已包括了VAE的训练、CLIP的训练,及其VAE和CLIP结合后的模型预训练。

除此之外,还包含DALL·E的训练、和将预训练VAE模型结合进DALL·E模型中的一部分。

所述控制模块训练进行后,就能用DALL·E来做文字生成图像了。

现阶段,作者已经开展DALL·E控制模块一部分的编码复现。

作者服务承诺,进行DALL·E的一部分后,会把CLIP模型也一起补上。

作者详细介绍

Philip Wang,本硕毕业于宾夕法尼亚大学,博士毕业于密歇根大学医科院。

他的科学研究兴趣爱好是AI(深度神经网络方位),及其健康医疗,现阶段GitHub上已有1.5k个followers。

有关DALL·E自身,解析视频时尚博主Yannic也表明,往往能获得那么好的实际效果,并 不都是由于模型设计方案。

DALL·E,极很有可能也像GPT-3一样,用了样本数巨大的数据,来对模型开展训练。

网民表明,无法想象训练这一东西常用的GPU总数,气侯又要转暖了。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.ycadmc.com/kj/2136.html