跨模态AI与生成式AI的英文简称都是AIGC,后者强调“内容生成”(Artificial Intelligence Generated Content),前者重点在于技术融合,实现“跨模态通用可控”( AI for Generalized Cross-modal Comprehension ),核心本质是“将多源异构多模态数据在统一的框架下进行语义融合和知识对齐”。在跨模态生成模型的诸多种类中,文本生成图像(Text-to-Image)模型近期受到较多关注,DALL·E系列、Midjourney都成了具有突破圈层影响力的热门应用,国内习惯上将其简称为文生图模型。文生图模型的主要任务是根据用户输入的描述性文本生成并输出与文本内容相符的图像,该描述性文本是程序环节中的“提示语”(Prompt),由用户按照不同模型的编码要求进行词语、句段的编辑。
对照行业内部最新发布的研究报告《生成式人工智能的第二幕》(Generative AI’s Act Two)来看,当前技术领域中虽然存在着监管不到位、产品功能未达预期、应用场景缺少市场契合度等问题,但它确实展现出不可忽视的创新研发热度,很多明星产品均实现迅速推广。可以预见,以文生图模型为代表的跨模态AI在接下来相当长的一段时间里,仍然将是技术研发、商业投资和社会普遍关注的热点,从中引发的好奇体验与讨论热潮更是跨越多个学科。比如,艺术学科格外关注AI技术进入创作实践后,给艺术作品造成怎样的审美范式变迁,AI作品的原创性与作者权问题应该如何区分并清晰界定,尤其是AI艺术生产过程中的人机分工、协作等问题。因此,对现有文生图模型的技术逻辑和使用范式进行梳理,既有助于把握跨模态AI艺术的未来发展路径与技术迭代方向,也能为上述问题的讨论提供新的思路。
一、文生图模型技术迭代简史
2021年1月,OpenAI推出文生图模型DALL·E,它可以根据用户输入的文本提示语自动生成符合描述的图像,还可以根据文本提示对已有图像进行风格迁移,比如将一幅猫的照片转变为素描的风格。用户注册一经开放,DALL·E的跨模态生成能力便引发了广泛关注,开启了文生图模型的研发与应用热潮。同年5月,清华大学推出CogView模型,支持以中文作为输入语言进行图片生成,在衡量生成图像真实性的FID指标上比DALL·E表现得更好。
2022年,文生图模型的发展呈井喷之势,已发布的模型不断在功能丰富性和出图质量上迭代升级,同时也有大量新公司、新模型加入赛道。4月,OpenAI继续发布DALL·E2模型。在根据文本生成图像这一基础功能之外,DALL·E2还额外加入了构图扩展(Outpainting)、局部修改(Inpainting)、生成变体(Variation)等新功能,极大优化了用户体验。紧接着,谷歌在5月发布了自己的文生图模型Imagen,强调其拥有“前所未有的逼真度和深层次的语言理解能力”。6月,谷歌又发布了另一款文生图模型Parti,它采用了与DALL·E2和Imagen不同的生成技术:DALL·E2和Imagen采用扩散模型(Diffusion Model),而Parti采用自回归模型(Autoregressive Model)。谷歌认为,同时在两种技术进路上进行探索,“为这两种强大模型的结合提供了令人兴奋的机会”。同样是在6月,创意绘图程序Midjourney正式开放公测。Midjourney为用户提供了堪称丰富的参数选项,用户能够对图像的内容主题、媒介特质、长宽比例、光线、色彩、构图、风格等方面进行自定义选择,还可以对已生成的图像进行多次风格、画幅、细节方面的调整。8月,StabilityAI发布Stable Diffusion模型。该模型同样可以实现基于文本的图像生成与调整工作,所不同的是,Stable Diffusion的代码与模型参数均已在代码托管平台Github上实现开源,无须依赖云服务访问即可被用户使用。
进入2023年,文生图模型热度不减。1月,谷歌推出Muse,采用扩散模型与自回归模型之外的第三种图像生成技术路径,拥有更精细的自然语言理解能力,能够实现更高的训练效率。6月,Midjourney更新至5.2版本,加入了拉伸(Zoom out)与平移(Pan)功能。9月,OpenAI再次发布最新文生图模型DALL·E3。除了继续对生成图像的真实性和丰富性进行提升,DALL·E3的核心升级目标是优化用户撰写提示语的体验。具体而言,DALL·E3通过接入ChatGPT,试图解决现有文生图模型对文本提示语理解力不够的缺陷,使用户无须反复调整所写文本,就能获得满意的目标图像。
从下表可以见出,文生图模型在短短三年时间里经历了高速发展,其性能核心增长点一方面体现在基础模型的迭代升级上,通过尝试新的技术架构、扩大训练数据集、微调模型参数,得到了生成图像质量更高、更具多样性、与文本提示更为贴合的模型;另一方面体现在用户体验的提升上,通过不断丰富用户可编辑项的选择范围,改善人机交互界面,缩短等待时间,将研发端的基础模型真正包装为完整的用户端技术产品。
二、跨模态理解与生成:文生图模型的技术机理
与文本生成文本模型ChatGPT不同,文本生成图像模型的核心技术点在于跨模态理解与生成能力。前者以文本作为输入,继续以文本作为输出,而后者则以文本(或图像)作为输入,以图像作为输出。这对模型提出了两方面的能力要求,首先是文本语义和图像语义之间的连接对齐,换言之,当用户输入一定的文本提示语,模型需要理解这些文本能指,知晓其应该对应于何种图像所指;其次是图像生成能力,即模型需要将上一步理解到的图像语义生成为具体的图像。上述两个环节构成了文生图技术的底层逻辑,由文本生成图像的功能实现均需建基于此。
(一)文图关联:CLIP模型
文图关联环节中,目前应用效果较好的基础模型是OpenAI于2021年1月发布的CLIP(Contrastive Language-Image Pre-training),即语言—图像对比学习预训练模型。DALL·E2和Stable Diffusion都选择使用CLIP来完成机器层面文本与图像相联系的工作。
为训练CLIP,OpenAI自建了一个庞大的数据库,其中含有四亿个从互联网获取的文本—图像对(Text-Image Pair),每一个文图对都含有一张图片以及它所对应的自然语言标题,比如一张狗的图片和“狗”这一文本。CLIP模型在进行训练时便以这些文图对作为输入基础。具体而言,CLIP含有两个编码器,分别负责将输入的文本和图像转换为向量,即将二者包含的信息和特征以数字形式表示出来,从而将二者都投射到抽象表征空间,等待下一步处理。假设有n个文图对,那么经过编码便可以得到n个文本特征与n个图像特征,它们之间可以产生n2种文图对应关系,每种对应关系可以计算得到一个相似度数值,而其中只有n种对应是正确样本,其余n2-n种皆为对应失败的错误样本。CLIP的训练目标即为最大化正确样本的相似度数值,且同时最小化错误样本的相似度数值。由此训练出的CLIP模型便成功学习到了给定文本与图像之间的联系,给CLIP输入一张图像,它便可以迅速将其链接到对应的文本描述。
这里有两点值得注意,首先,由于CLIP的文本编码器使用了自然语言处理技术,CLIP得以在自然语言和图像特征之间建立联系,这构成了文生图模型面向大众普及推广的基础。其次,图像和针对图像的文本描述之所以有建立联系的合法性,是因为二者间存在柏拉图意义上的“理式”作为逻辑中间环节。换言之,二者是由于都潜在地对应于同一个“理式”才得以被关联起来,如桌子的诸种形象和“桌子”这一文本都对应于作为理式的“桌子”。借用柏拉图对“理式”的描述,该功能可以被理解为“统摄杂多的同名的个别事物”,这对理解CLIP的训练原理亦有辅助作用。CLIP完成的工作实际上可被理解为一种经验主义的归纳推理。如果说,从诸多“桌子”个体中可以归纳出“桌子”这一理式,那么CLIP在训练环节所完成的,则是在正确样本相似度数值最大化的引导下,从超大体量的文图对中归纳出正确的文图对应关系。
CLIP是文生图模型完成模态跨越的关键所在,因为它最终决定了文生图模型所生成、输出的图像与用户输入自然语言片段之间的语义相关程度。目前学术界对文生图模型的性能衡量主要参考两种指标:一为文图匹配度,即机器能够真正理解文本语义,生成的图像需要准确呈现文本所描述对象的图像,避免出现如图1所示的情况,输入“tree bark”(树皮)却输出一棵树(tree)与一只吠叫(bark)的狗;二是图像质量,如图像逼真性与样本多样性等。文生图模型在前一项指标上的表现情况取决于CLIP模型性能的优劣。
(二)图像生成:引导扩散模型
现在,对应文本和图像的联系已经由CLIP模型建立起来,但此时这种联系还只停留在计算机编码层面,只能被计算机理解,尚不能进入人类的文化语境,还需要另一个模型来完成马诺维奇所描述的跨码(transcoding)操作,即将计算机编码转化为人类文化编码。这一跨码操作在文生图语境中具体体现为,将从文本语义链接而来的图像语义转为实际的视觉呈现。
能够提供这一环节所需的图像生成能力的模型主要可分为三类:扩散模型(Diffusion Model)、自回归模型(Autoregressive Model),以及生成对抗网络模型(Generative Adversarial Networks, GAN)。生成对抗网络模型是其中较早被应用于图像生成领域的一种,它于2014年被提出,以博弈论思想为核心,设置一个生成器与一个判别器进行较量。但是,由于GAN模型主要的优化目标在于让图片尽可能真实,同时训练过程中存在一个作为比较基准的真实数据集,因此生成的图片在多样性方面表现不佳,无法满足商业化文生图模型的创意功能要求,逐渐淡出实际应用场景。DeepMind于2016年推出的PixelCNN被认为开启了自回归生成模型的广泛应用,DALL·E、CogView、Parti均采用自回归模型完成生成任务。不过,在FID指标上表现最好的还是扩散模型, 目前面向公众开放并收获大批用户的Stable Diffusion、DALL·E2、Midjourney都选择了这一技术路径。从图2亦可得知,扩散模型是文生图领域目前的热门选择。
扩散模型的概念得自于热力学,扩散过程可以被理解为数据逐渐从有序状态转为无序状态的过程,如一滴颜料水滴入清水并逐渐扩散到整个容器。在图像生成语境中,该过程体现为原始图像逐渐被加入噪声,信息逐渐丢失,最终成为完全无序的随机噪声的过程。这也正是扩散模型训练的第一个环节,即前向扩散。在训练的第二个环节,即反向生成中,扩散模型会学习如何逆转上述噪声化过程,逐渐从随机噪声中一步步去除噪声,从而完成图像的还原,实现图像生成。一个训练完毕的扩散模型可以做到随机采样并对其进行去噪处理,重新整理散乱的信息,从而生成逼真的图像。在Midjourney和DALL·E系列中,图像由初始的模糊粗糙逐渐变得清晰可辨,用户可以清楚见证图像逐渐涌现的过程。
作为基础概念的扩散模型在2015年被首次提出,此后又有不同的科研团队或技术公司对该模型进行了多次性能提升与功能扩展。其中,最关键的一次技术突破是引导扩散(Guided Diffusion)的提出。目前存在多种引导方式,较为常见的有分类器引导扩散(Classifier Guided Diffusion)与CLIP引导扩散,前者用一个图片分类器提供引导条件,确保去噪生成的图像在类别上是正确的;后者则与上文提到的CLIP模型结合,使用CLIP获得的图像特征信息作为引导条件,此时的图像特征信息得益于CLIP的功能,可被视为已然把握到用户所输入文本的语义内容。DALL·E2选用了后者,由此,扩散模型生成逼真图像的能力,以及CLIP模型链接文本语义与图像语义的能力便得到了实质上的跨模态融合。
文生图模型的两个核心功能环节至此均已完成,跨模态生成能力也相应实现。以DALL·E2为例,用户提供的自然语言文本首先被输入CLIP模型的编码器,得到文本信息编码,该编码进一步被投射为对应的图像信息编码。接着,扩散模型便以此图像信息编码作为指导条件,对采样得到的随机噪声进行去噪处理,得到符合用户原始文本语义的图像作为输出(见图3)。
三、文生图模型中的人机协作
包括文生图模型在内的AIGC应用程序将人机协作这一崭新的创作范式带入艺术创作领域,人与机器的博弈关系成为值得关注的问题。
文生图模型目前主要作为图像生成工具被广泛使用,但在当前技术条件下,想要获得理想的图像生成效果,用户必须主动理解机器模型的思维方式,将人类思维方式向机器思维靠拢。此种情况主要出现在用户撰写提示语的过程中,其原因是人类自然语言和机器编码语言之间的对齐工作尚有改进空间。Midjourney在为用户提供的使用指南中明确提出了若干条撰写建议,告知用户如果希望获得独特的、令人满意的图像,就需要精心设计提示语。建议包括:提示语尽可能简洁、简短,避免使用一切不必要的词语、过长的描述或者诗意的短语,将基础词汇替换为更具体的高级词汇(如将“大的”/big替换为“庞大的”/gigantic)。由于Midjourney目前尚不能理解自然语言语法,一个理想的提示语应呈现为碎片式的词组罗列组合,这实际上是在要求人类去迁就机器的能力水平。Midjourney甚至为此专门提供了名为“缩短”(shorten)的内插,其功能描述为“提交长提示语,并获得使其变得更简洁的修改建议,帮助你探索Midjourney如何理解并使用文本”,试图通过向人类用户展示更多的机器思维样本,为人类思维向机器算法的倾斜提供便利。提示工程(prompt engineering)一词即被用于形容这种人类不得不将撰写提示语视作一门新技术,并特意进行习得的境况。生成式 AI 对人类本身的创造力“不仅没有如其所许诺的那样成为人的助力,反而导致负面效应,挟制了人的创制性道路”。
不过,对机器思维的靠拢亦可达成对人类思维自身的反向审视与检阅。在DALL·E2的宣传页面中,OpenAI以醒目的字样强调,DALL·E2能够帮助理解“高级AI系统如何看待和理解我们的世界”(How advanced AI systems see and understand our world)。此中的深层问题是,人类出于何种原因需要了解机器的思维方式?人类为何需要换用机器的视角对熟悉的世界进行再审视?Midjourney用户指南中提到,用户在撰写提示语时,应当对自己希望获得的图像进行尽可能全面的描述,因为“任何未提及的内容都可能让你惊讶,任何你漏掉的内容都可能被随机处理”。简言之,理想的提示语应当对图像的内容与形式进行细致规定。以人物肖像为例,内容方面如人物的性别、种族、服装、表情、景别选择、背景内容等,形式方面如图像的色调、媒介、风格等,均需在广阔的潜在选择空间中进行具体锚定,否则便会由模型进行随机匹配。然而,用户提供的文本描述往往难以做到面面俱到,事物细节、图像背景等次要因素非常容易遗漏。同时,用户的视角局限性也会导致遗漏。比如在生成肖像画时,如果用户预设输出图像中的人物种族与自身一致,从而忽略了相关规定,便有可能出现不符合预期的结果。这种心理预设与实际结果之间的落差有助于反向省察自身思维中存在的不合理预设以及注意力盲区。本雅明认为摄影机使人得以了解到视觉无意识,正如精神分析理论使人了解到本能无意识一样。他的这一论断针对电影的特写镜头与慢动作镜头而作出,因为此类拍摄手法“将以往感知外物过程中未察觉而潜伏着的东西剥离了出来并使其能加以分析”。从类似的思路出发可以发现,文生图模型借助机器视角,实际上帮助人完成了反向检视,使人了解到自身在进行跨模态信息描述时存在的思维无意识,有助于人类拓宽自身的注意力范围和感知范围。
然而,留给用户进行自我增强的时间或许已十分有限,人类在跨模态信息转换过程中表现出的能力短板可能会被机器算法抢先补齐,从而造成机器比人更理解人的境况。DALL·E3于2023年9月推出,力图解决用户输入文本与模型输出图像之间存在语义落差的技术瓶颈,再次优化了文生图模型对人类自然语言的理解力。同时发布的技术报告指出,现有的文生图模型之所以无法在提示语和图像输出之间进行良好转换,以至于倒逼用户进行自我调整,根本上是因为用于训练的数据集质量不高,与图像关联的文本描述不精准。“大规模数据集中,文图对中的文本描述通常来自人类作者,他们只关注对图像主题的简单描述,而忽略了图像中的背景细节或常识关系。”归根结底,问题源于人类自身:现有的文图对数据集中,文本一侧由人撰写,数据集由人完成创建,然而人却无法对图像进行精准的文本描述,无法完整把握图像中包含的信息。由此训练出的文生图模型自然也继承了这一缺陷,建立在文图之间的关系质量不高,信息转化效率较低。针对此问题,OpenAI的做法是单独训练一个图像标题生成器(Image Captioner),用机器替代人工完成对图像的文本描述,并以机器生成的文字端内容重构训练数据集。此后的实验结果也证实,在新的数据集上训练出的文生图模型确实表现出了更可靠的提示语跟随能力(prompt following ability),能够生成更贴合提示语的图像。文图对数据集中的图像,既包括人类艺术家创造的艺术作品,也包括各类摄影影像。此次模型升级的结果在一定程度上反映出,机器不受注意力限度与个体视角的束缚,在对图像的理解把握上展示出更优秀的能力。
由此,人机关系在文生图模型语境中便体现为:为了获得机器的协助,人类须调整自我,向机器思维靠拢,同时人在这个过程中也达成了对自身思维方式的重思。目前,限制机器性能的因素恰恰来自机器训练过程中人类参与的部分,而这一部分的占比在不断缩减。如果人机耦合状态逐渐降低人类一方的占比,人类可能被机器的自足状态排除在外。
四、文生图模型的创造力谜题
生成式AI是否具备创造力这一谜题,是包括文生图模型在内的AIGC领域目前的热门讨论话题。对于技术公司来说,推出的模型产品能够输出具备创意属性的图像,而非机械复制数据库中已有的内容,是其实现商业盈利的关键所在。人文学者在总体上坚持更为谨慎的观望与反思态度,如马诺维奇所言,创造力或许是人与AI的较量中“阻挡人工智能继续前进的最后一道障碍”。他在《人工智能美学和创造力的人类中心主义神话》一文中指出,创造力是一个尚未得到明确界定的概念。他引用维特根斯坦的《哲学研究》,意图说明在目前围绕创造力定义的讨论中,存在一种显著的心理倾向,即认为创造力只被人类所拥有。这种定义无疑不利于AI领域的讨论,人类中心主义的立场先验地阻断了对生成式AI是否具有创造力的深度思索。在此基础上,马诺维奇从正面提出,新颖性、随机性、不可预测性本身都是与创造力密切相关的,应被视作创造力的不同切面。
目前,研发人员致力于使文生图模型具有创造力,或至少达到艾伦·图灵在《计算机器与智能》中宣称的“行为主义标准”,在具体的人机互动过程中“表现”出创造力。为此,研发人员在文图关联和图像生成两个环节均加入了特殊设计。其一,在完成文图编码的内部转换时,DALL·E2并非直接挪用已有的CLIP模型,而是利用CLIP重新训练出一个Prior模型来完成这一环节。该模型以经过CLIP编码的文本特征作为输入,以CLIP编码的图像特征作为训练的基准真值(Ground Truth),对图像特征进行再次预测。其效果在于,获得与CLIP编码的图像特征类似但不完全相同的新特征。经过这样一步额外预测,生成图像的多样性得到了显著提升。这一步骤的意图和逻辑可以理解为,之所以不直接利用CLIP生成图像特征作为后续扩散模型的指导条件,是为了在一定范围里对CLIP建立起的文图关联进行松动,适度降低文图对应的准确性,换言之,通过允许模型“犯错”,允许对标准的适度偏移,以此来获得更加新奇而多样化的图像。其二,扩散模型进行图像生成的原始材料是采样得到的高斯噪声,又被称为种子(Seed)。采样过程表面上随机进行,使模型的图像生成具备多样性,事实上的采样范围则有着明确的界限规定。Midjourney的可调节参数中有一项名为“种子”,允许用户在从0到4294967295之间任意选择一个数字作为设定。若用户忽略对该项参数的设置,模型便会在所有种子数中进行随机择取,巨量的数据点位使得生成的图像具有十分可观的多样性;相反,如果用户选择了相同的种子编号,且输入了相似的文本提示语,最终生成的图像将会高度类同。
结合以上两点,模型在接收到一条文本提示语后,其生成图像的可能范围可以在空间维度上被理解为坐标系中4294967295个坐标点及周围适度距离内的空间。该空间可被视为模型进行图像生成的潜能空间。文生图模型之所以会被认为“表现”出了“创造力”,很大程度上正是得益于输出内容的多样性与新颖性。这些属性被视作创造力的重要组成部分,四十亿量级的选择空间以及适度的基准偏移无疑为此提供了技术基础。此处潜在的问题是,具体数据上限的给定使AI模型的图像创作成为有限度的、受约束的,一种文本描述对应的图像呈现在理论上可以经由枚举法得到穷尽。纵使四十亿的数据量级大大超出人类个体的理解范围,几乎可以在感性层面上被视作无限,但仍不能改变其本质层面的有限性。文生图模型的“创造力”现象是经由“量”而非“质”达成的,它是某种有限之物,虽然数量庞大,却在已有数量基础上不能展现出进一步的创生能力。这与人类创造力的预期是存在出入的,只因量级实在过于庞大,造成一种无限性源头的错觉。
面对庞大的图像生成潜能空间,人类用户提示语扮演的角色是将原本处于潜存状态的图像激发到实存状态。此操作带出了机器创造力之外的另一个创造力维度,即人类用户在进行提示语设计这一过程中所展现的创造力。潜能空间中的潜在图像质量参差不齐,使用何种提示语与参数才能激发出最符合要求、质量最高的图像,便构成了人类需要面对的全新能力考验。2023年11月27日,北京互联网法院针对全国第一例AI生成图片著作权侵权纠纷作出一审判决,判定原告在使用Stable Diffusion时的提示语设计、参数调整等活动涉及“智力投入”,构成“个性化表达”,因此依法享有模型所生成图像的著作权。另外,人才招聘市场亦涌现出大量针对“提示语工程师”的招聘需求,其职位描述一般为设计和实现有效的提示策略,以提高模型的响应质量。AI模型借助强大的信息存储与处理能力创建出广阔的潜能空间,如何从中精准地定位到目标图像并将之带入实存,就构成人机协作关系中人类一方的智力投入路径。
现有的AI生成技术或许尚未使文生图模型获得自主创造力,而且人类也不会轻易地将智能的标志赋予非人类的实体。然而,对模型“创造力模拟”机制的梳理为下一阶段的思考提供了新的契机,将注意力从智能机器有无创造力的争论转移到人机协作这一崭新的创作范式。未来的艺术创作或许不再呈现为当下人与机器的竞争较量,而是呈现为“人+机器”与“人+机器”之间的竞争较量。人与机器作为一个新的整体,成为创造力的源泉,二者在艺术创作过程中分担不同的功能,合作进行产出。
结语:合力面对不确定的未来
OpenAI在为DALL·E取名时,选择了超现实主义画家萨尔瓦多·达利(Salvador Dalí)和动画片《机器人总动员》中的机器人瓦力(WALL·E)两个名字进行融合,前者因其作画风格梦幻奇诡,仿佛是将梦境世界直接描摹下来而广为人知,后者则是家喻户晓的温暖无害机器人典型。这一名称似乎构成一种乐观的隐喻,暗示着人机协作的未来和谐图景。目前DALL·E和Midjourney在描述自身的创意性功能时也都采取了相对低调保守的用词,如“扩展人类的想象力”“为人类创造性地自我表达赋能”“放大我们的创造力潜能”等,将自身置放于服务性的工具定位,避免在描述中以机器作为创作的主体。
从研发端来看,模型的软件程序及硬件设备都被认定是人类智慧的结晶,其当下的训练与微调暂时无法完全离开程序员的把控与引导;从用户端来看,目前有权力对图像结果进行审美判断与创造力判断的依然还是人类,而非机器。与此同时,机器模型在性能完善过程中对人类工作的逐步排除也确实是不争的事实,机器达到“训练—生成—评价”自足循环的技术奇点或许不再遥不可及。当技术再度跃迁,奇点时刻到来,人类还能依靠自身的何种能力在人机协作中担负主导?人类又是否还能有立场在人机关系中保持自己评判者的一席之地?这些尚未发生的问题需要引起足够的关注与先期预判。面对充满机遇和不确定性的未来,需要有更加多元的视角与跨学科的声音加入到讨论中。
〔本文注释内容略〕
原文责任编辑:李琳