摘 要:数据逻辑在整个网络文学实践中已经底层化和结构化,在此基础之上的批评前置了数据思维,暗含了数据的蛮力。网络文学数据批评所能获得的数据十分有限。在平台的数据垄断下,身处数据牢笼的批评者借助软件进行的研究,变成了既没有全数据支撑,又需要借助有偏差的软件模型,然后根据自身的统计素养来辅助操作的数据批评。数据批评在实际运用中经常表现为简单的量化分析和解读。它存在明显的遮蔽性,需要依赖于一定的理念和阐释,提升人文思辨的力度,使文学批评在定性分析与定量分析的无缝衔接中不断前进。
关键词:网络文学;数据;数字人文;定量;文学研究实验
作者王小英,暨南大学文学院教授(广州510632)。
迅疾蔓延的
一、数据的蛮力:网文实践与数据思维的内在联姻
作品的数据不好就心虚,几乎是新媒介文艺批评中研究者常出现的情况,这是不是意味着数据已经在潜意识中对我们的研究对象进行了过滤?答案是肯定的。数据以一种意识形态的方式在整个网络文学实践中发挥作用,悄无声息而又无所不在。
数据的好处是一切都可以拿来比较,直接武断。现代社会的一种趋向就是用数据量化的方式对世界和人进行简化处理,由此构成了“量化”的、如解析几何一样的“解析社会”。“解析社会”的观照世界方式已经内化到网络文学故事世界的想象中。
为数众多的网络小说开头就介绍世界设定和规则体系的做法,貌似是受游戏的直接影响,究其根源是数据逻辑的底层化和结构化。许多作者不再用力去塑造虚构世界中的人物,而是将人物孤立出来,抛入到需要完成各种任务的数据系统。人物与世界没有互生关系,只是强制性的偶遇。刻画人物变成了展示人物的数据画像,显示人物在各个属性上的数值或等级。
不仅如此,诸多作品中主要人物的禀性气质也表现出与数据计算逻辑的一致性。网络小说中主角对周围世界进行功利性的计算,依据自己的现实利益对他人价值进行判断,从《凡人修仙传》就开始了,且比较普遍化。当然这个逻辑也不能说仅存在于虚构的小说世界里,它本身也是现实世界的一个辗转映射。而近些年网络文学中充斥的那种果敢狠绝、不纠结,同时缺乏自省的人物形象,与简单粗暴的数据逻辑不无关系。打不死的主角一言不合就开杀,主角“爽”了,对主角无用的人物,其生命如同草芥,只是工具性存在。这在网络小说中已经是一种比较普遍的伦理淡漠现象。
进入批评视野的网络文学作品,也需要有一定的数据。批评者在对作品进行评价之前,先介绍作品在排行榜上的位置和获得的各种荣誉,这几乎成了一个惯例。批评者对作品的直觉判断是排在数据判断之后的,即网络文学批评所涉的对象是先经过了平台淘汰机制筛选的。
平台淘汰机制本身就是一个数据筛选机制,带有一定程度的暴力性和排他性,“网络平台及其人工智能允许或青睐的内容可能会迅速走红;而它们贬低的,有时甚至是完全禁止的内容则可能被降为冷门并因此默默无闻。”但这里讲到的数据,有其特殊性。周冰将网络文学的数据特性分成四层,分别是材料层的0和1、地基层的数据源、应用层的平台数据和界面层的数据显示,并且认为我们现在所涉及的数据分析主要是界面层的。这种划分非常详细,而网络文学的数据淘汰机制指的是地基层、应用层和界面层的数据淘汰机制,更具体一些,指的是作品附带的点击率、收藏率,所在的排行榜和推荐位置等数据。网络文学的淘汰过程明确地依赖于数据指标,未能展示出足够人气的作品往往会逐渐被隐藏或淘汰出局。
现有的网络文学格局与平台通过数据进行的计算是分不开的。网络文学产业是按照平台的数字经济来组织文学生产的。平台对用户文学消费的理解和把握,比以往任何时代都要透彻。经济价值低的文类被视为“废品”,市场价值高的文类则被奉为“明星产品”。进入写作平台,就有各种秘籍来告诉写手如何写才能抓住读者,让自己的作品成为明星产品。带有数据属性的网络文学最歧视的就是“无用文学”,因为这种文学是互联网平台系统中的累赘,无法带来任何利益,还得为之提供数据服务。网文平台制造了大量的数据生产规则,用以搜集用户数据,制作用户画像,然后再将这个包含了性别、年龄和地域的读者画像释放给作者,让他们精准化生产。这已经不是网络文学产业的秘密,而几乎成了互联网文化产业减少失败率的安全生产法则。
回顾中国网络文学的发展历程,我们可以清晰地看到,当下网络文学的繁荣是与网络文学平台的数字经济紧密相关的。平台在网络文学发展低潮(2002—2003年)时通过VIP收费阅读雪中送炭。但网络文学类型文主导的现状,又何尝不是这种支持带来的文学等级分类?能盈利的小说被划成上百种类型,而散文和诗歌被忽略,或者只被简单归为一种。这种情形是数据及其背后的市场和资本诱发的不平等后果。
数字时代不仅是一个出现海量文学作品的时代,也是一个制造批评焦虑的时代。面对如此庞大的研究对象,很多学者希冀通过数字人文来弥补未能阅读大量文本的缺憾,并从莫莱蒂(Franco Moretti)的“远读”中找到了一些灵感。这种愿望,我们可以理解为期望借助数据化分析来达到对文学的宏观把握。因此,网络文学数据批评的出场与网络文学的评价焦虑关联在一起。网络文学批评的学院派意识到了网络文学的重要性,但又很难像对待传统文学那样通过批评深度介入,既有的批评大部分限于自说自话的状态。作家作品批评只限于少数个体和作品。批评与创作处于割裂的状态。
在此情况下,既然网络文学有数据属性,不如干脆引入数据批评。考虑到网络文学比传统文学的体量大太多,引入数据批评确实是一个很省力的方式。但数据批评所需要的数据不仅量大,而且要丰富多样。因为我们所需要的网络文学数据并非材料层作为二进制机器语言的数据,而是诸多其他层面的数据。因此,网络文学数据批评面临的最大挑战是:我们需要的数据能获取到何种程度,以及如何将这些数据有效应用于文学批评。而要回答这些问题,则需要考察数据与互联网平台的关系。
二、数据的平台控制与基于模型的批评
于网络文学平台而言,一般数据囊括了作品、网页图片、点击、评论等所有信息。信息和数据是一体两面的关系。信息面是一般人可以辨别的,底层数据则是极少数的专业人士才可以识别的。考虑到在数字化时代,所有的信息都以数据的方式存储,我们完全可以说网络文学的底层就是数据,欣赏文学作品也是在欣赏以数据形式存储的信息。但这种理解方式也适用于任何数字化的文学批评、网络投票、视频观看、购物行为等差异巨大的活动。因此,网络文学数据批评所需的并非这种通约化的二进制数据,而是服务于文学审美、鉴赏、批评等信息层面的、能够被看懂的数据。简言之,包括三个方面:作为数据源的作品、用户点击、评论;平台公司后台搭建的各种特性的数据库;用户可以直接看到的被显示到界面的信息。而这三个方面具体数据背后都是一般数据。
互联网平台商业模式和生态中最核心的要素就是数据。数据于平台而言,是一种资源。平台生产占有数据的主要目标在于制造经济价值。数据是被平台占有的,虽然占有的合法性有待考量,但在制造和发掘用户数据方面平台的作用至关重要。
在数据生产上,永远是小平台比不过大平台,大平台的马太效应、边际效应都可以让小平台黯然失色。所以我们比较容易看到起点这种大平台的数据,却不太容易看到豆瓣读书这样的小平台的数据。在数据所有权上,用户的数据很少独属于用户,而是被一个所谓的看不见的“后台”所知悉。小用户想与大平台竞争,变得越来越难,平台资本的力量变得无所不能,而其中的法宝就在于数据。生产数据、使用数据来盈利不只是免费阅读的经济支柱,而且成为平台的权力。而这些大平台在各个方面的优势,又容易让那些风格特征迥异的、小平台上的网络文学陷入无法出头的境况。
网络空间的一般数据是被平台占有的,因为它们被占有并能从中获利,所以成为数字资本。数字资本是继产业资本、金融资本之后“第三种起支配性作用的资本样态”,且在三种资本中居于塔尖位置,是数字资本家能够呼风唤雨的底气。这种资本属于商业机密,是文学批评和任何文化活动都难以获得的。数字资本意味着数据里面可能包含着一种权力关系和剥削关系,数据拥有点石成金的魔力。我们看到的只是平台方愿意展示出来的数据,外显为文学作品、点击量、页面、榜单等信息。平台方所有的权力都源于其所拥有的数据资源。故而,批评家想以文学批评的名义拥有完全数据,于平台而言就属于抢占资本,必然会受到诸多阻挠和限制。
平台垄断和数据资本化导致网络文学批评者只能获得有限的数据。批评者虽然可以“扒”数据,但因为权限和能力的局限,数据完整性会在相当程度上受到限制。由此,批评者看到的数据本身就是“以偏概全”的。我们当然可以设想平台出于社会责任的考虑将数据释放给相关部门和研究者,但同样需要考虑平台出于各种原因并没有储存全样本数据,或者出于各种考虑只释放了部分数据。基于这种情形的普遍性,我们看到的网络文学的数据必然是不完全数据。这点在实际的网络文学数据批评实践中已经表现得十分明显,譬如采用“一叶故事荟”来看“升级文”的吉云飞,就坦诚因选取的14部小说不及“升级文”的万分之一、实验条件不足,“本次实验注定仍只是一次操练”。以万分之一来代表“升级文”,无论如何都谈不上全面客观,也并未解决网络小说阅读量大的难题。
不仅如此,批评者本身也处在数据牢笼中,其数据痕迹也是可以被跟踪计算的。于是,网络文学数据批评变成了身处数据牢笼中的批评者依据有限数据进行的批评,有非常大的局限性,也比较容易被平台诱导。
通过软件模型进行的分析,数据一般来自批评者的选择或者爬取,而在这个过程中不当的数据操纵很容易发生。数据重复、缺失、错误、不规范、不一致等情况都会发生,而分析者需要投入相当的时间和精力进行数据清洗,在清洗过程中软件操作者很容易就可以通过“校准”得到自己想要的数据。不规范操作得到的数据是“脏数据”。“脏数据”可能是出自客观原因,也完全有可能是为了达到自己想要的目标而进行人为干预造成的。样本数量和过程在相当大程度上决定了结果。貌似客观的分析工具,不仅已经预设了模型偏差、算法偏见,而且在使用过程中也随处可见人为操控的痕迹。
在平台的数据垄断下,身处数据牢笼的批评者借助软件进行的网络文学研究,变成了一个既没有全数据支撑,又需要借助有偏差的软件模型,然后根据自身的统计素养来辅助操作的数据批评。这种到处都是漏洞的数据批评,其批评结果不仅缺乏客观性,而且也缺乏可重复性,经常是一次性的文学研究实验。不过,为什么还有这么多人迷恋数据化的批评?假使数据化批评中的人工操作规范,是否就意味着这种批评的正当性呢?这要求我们对数据批评进行哲学思考,辨清其盲区,并在此基础上探索网络文学批评采用数据化方法进行突围的原则和可能路径。
三、道术相合:数据批评的遮蔽与去蔽
大至世界文学体系,小至网络类型文学体系,都是存在等级差异的不平等体系。中心与边缘有差别,但其相互位置又变动不居,这是文学史演变中的常见现象。不能穷尽文本不仅是数字时代批评家的困难,也是历代文学批评家都要面对的状况。这一正常的状况,只有在对透明社会的渴慕下才会成为一个需要解决并相信能够解决的问题。因为我们有内在追求确定性的焦虑和对数据主义客观透明的信仰。
数据主义是认为一切都可以通过数据来理解和表达的哲学世界观。它依靠大数据、全数据来揭示事物和现象背后的模式和规律,减少我们的认知偏差。借助大数据,智能算法意图制造一个“全息”的认知上的精准图像,而以此形成数据主义的新信仰。数据主义对数据重要性的强调演变成了数据至上的思潮。但假使我们从事批评可以获得所有数据,那么是否可以进行客观公允的数据批评呢?从具有超强算力和大数据支持的AI阅读来看,同样不可能。AI阅读将所有的作品都平等地视为数据,可是根据数据进行的学习,不是建立在对内容深度理解之上的,而是根据符号相关性而非因果性进行的浅学习。
数据主义有一些盲区,它容易忽视那些不易量化的人类经验和社会现象。第一,数据揭示的是事物存在的相关的、隐秘的关系,回答“是这样的”相关概率关系,而不是“为什么这样”的因果关系,因果关系需要人来诠释;第二,数据产生于具体的语境中,作为事物某种特色的量度,脱离语境来解读就会产生误读,而如何保留其原生语境是个难题;第三,数据会排除情绪和情感的意向性,减少主观偏差,但其权威性并非绝对,容易忽略偶然性的价值。
网络文学研究中对数据分析模式的探索,对数据批评的呼唤,是为了减少我们对网络文学的认识偏差,是数据主义的表现。与数据主义存在的盲区相一致,数据化的文学批评也存在明显的遮蔽性,主要表现在以下几个方面。
一是网络文学单纯依据数据的诠释会相当贫乏。贫乏的本身源于数据认知的碎片化,仅仅展现原始的相关关系,而不能诠定概念。大数据、全数据引导的认知是一种叠加的产物,无法终结,也是一种无知。因此,我们也很容易发现,用软件对文学作品进行数据分析得出来的结论,几乎是一个没有灵魂的常识,不如定性分析和理论分析来得深入。原因在于定性分析的推论和理论都有一种整合性,这与精神具有的整合性是一致的。所以,我们可以看到即便以某一年的749部网络小说为考察对象,得出来的结论也比较简单,有些内容就是在印证网络文学方面的一些常识。
每一时代有每一时代之文学,充分说明了文学语境的重要性。但将大量的文学文本放在一起进行数据分析的批评,放弃了文学作品之感受的语境脉络。这种形式的网络文学作品如同单个的、脱离了整个语言系统的语词,而语词符号表意的关键正是在于系统。在数据批评的通约中,作品的个性被抹杀,然后我们又据此来批评这些作品没有个性,这是逻辑上的悖论。
三是网络文学批评实践中的对象常是经过平台数据筛选机制的对象,但数据自携的“客观性”光环导致平台数据评价偏差一旦出现,对网络文学作品的伤害就很难得到纠正,且会形成一种恶性循环。专业批评者也很难在数据社会逃离数据牢笼,同样面临着平台对我们阅读潜意识的搜捕。而平台上网络文学的各种数据本身是与平台经济纠缠在一起的,批评很容易就落入为资本服务的陷阱。
指出网络文学数据批评的遮蔽性并不是完全否定其存在意义,关键在于思考我们需要什么样的数据批评。基于数字逻辑在网络文学中作为基础架构的存在,引入数据批评十分必要。数据批评的原理在于,网络文学及其相关网络活动作为一种数字化存在,能够让我们通过计算机对其底层数据的处理来获得对作品及相关文化现象的理解和把握。严谨地说,数据批评方法不是距离意义上的“远读”,而是借助机器和数智技术的“另一种”阅读。它是一个强大的工具,可以帮助我们理解数字时代的文学现象和价值。那么,我们应该如何去除遮蔽性,借助数据批评来更新升级网络文学批评?这涉及批评之道与术的关系。
传统人文批评擅长处理文学的精神文化方面的价值,进行定性分析。而数据批评擅长借助计算机技术进行量化分析,因此数据批评可以视为一种新质生产力,作为人文批评的有力补充,共同致力于提升人文之道。因为数据无法叙事,也无法产生意义,所以数据批评作为一种批评术,它要依赖于一定的理念和阐释,所以数据化分析之前和之后都是需要人文思辨的,需要批评者对其理论前提和批评目的进行细致地辨析。
首先,网络文学数据批评需要划定目标,将那些传统人文批评无法把握的现象或作品作为研究对象,在合理的理念前提下进行,以数据研究促进文学批评。这就需要排除那些仅仅用来印证网络文学常识的数据批评。数据研究是有限度的,需要以假说为指导,在理论概念的引导下进行,这种研究并非简化而是需要尝试非常复杂严谨的研究模式。在这方面,李强的《作为数字人文思维的“网文算法”——以“明穿”小说为例》对数字人文的思考很有参考价值。他始终在一个具体的时代语境中去考量,从文化思潮脉络中去理解“明穿”小说的变化,定性分析与定量分析交织进行。但即便如此,他借助软件对两部群穿小说角色占比的分析,也稍有遗憾。穿越者的多寡只有比较意义,而这通过简单阅读就可以得出。
目前,数字人文迅猛发展但争议不断。跨学科寻求网络文学批评的新思路与对数据世界客观透明的想象缠绕在一起。网络文学的数据批评在实际操作中成了一种装饰性存在,表现为以表格、数据、图表等方式来丰富文章形式的浅显分析。这种批评虽然看起来是跨学科的,但将之聚拢在一起去看,很容易发现其重复性和模式化。
数字逻辑在整个网络文学实践中的底层化和结构化,使数据批评的出场成为必需。但身处数据牢笼的批评者进行的网络文学数据批评,面临着数据的平台控制、模型分析的偏差、数据操纵等诸多实践上的难题。从哲学基础上看,数据批评的数据主义倾向会遮蔽文学的独特性,“数据透镜”很容易就过滤掉了文学的审美价值和多重含义。数据批评方法的合理使用需要有理论的引导,数据分析应该放在人文思辨的脉络中来推进。单纯为了引入数据方法而进行数据批评,多半会沦为验证已有结论的一次性文学研究实验。数据批评要成为网络文学批评的有力助推器,需要以数据批评之术来提升人文之道,实现道术相合,提升人文思辨的力度,使文学批评在定性分析与定量分析的无缝衔接中不断前进。
〔本文注释内容略〕
原文责任编辑:马征