数据牢笼与批评突围

2025-01-09 作者:王小英 来源:《中国文学批评》2024年第3期P163—P171

微信公众号

分享
链接已复制

摘  要:数据逻辑在整个网络文学实践中已经底层化和结构化,在此基础之上的批评前置了数据思维,暗含了数据的蛮力。网络文学数据批评所能获得的数据十分有限。在平台的数据垄断下,身处数据牢笼的批评者借助软件进行的研究,变成了既没有全数据支撑,又需要借助有偏差的软件模型,然后根据自身的统计素养来辅助操作的数据批评。数据批评在实际运用中经常表现为简单的量化分析和解读。它存在明显的遮蔽性,需要依赖于一定的理念和阐释,提升人文思辨的力度,使文学批评在定性分析与定量分析的无缝衔接中不断前进。

关键词:网络文学;数据;数字人文;定量;文学研究实验

作者王小英,暨南大学文学院教授(广州510632)。

  迅疾蔓延的数智技术更新了诸多行业和领域,在文学研究中“数字人文”的呼声也十分强烈。从欧美到中国,研究者面对批量增长的文学文本,困于文本细读所涉对象的局隘和对文本价值的主观区分,也希望通过建立数据库、引入以计算机技术为基础的数据化方法来解决这些难题,并进行了一些初见成效的尝试。其中最常见的方式,就是进行文学研究实验:先确定一些假设,然后划出一些文学文本,选用一定的数据分析工具在设定的条件下进行操作,进而对结果进行分析,从而发现某些文学规律。这些实验采用的都是基于计算机科学的数据化方法,效率高,结果能以图表、词云等直观的形式呈现,也偶有一些假定之外的洞见,为文学研究带来了一缕新鲜气息。但数据化方法中拣选的对象经常是平台数据淘汰机制过滤之后的文本,而且研究者无法获得完全数据。数据分析模式的偏见和数据操纵的可能存在都使得这种文学研究实验的可重复性不高,再次实验的价值不大,于是实验经常沦落为一次性的。况且,数据化方法背后的数据主义哲学倾向会遮蔽文学文本的丰富价值,因而我们需要找出一条规避之道。 

  一、数据的蛮力:网文实践与数据思维的内在联姻 

  作品的数据不好就心虚,几乎是新媒介文艺批评中研究者常出现的情况,这是不是意味着数据已经在潜意识中对我们的研究对象进行了过滤?答案是肯定的。数据以一种意识形态的方式在整个网络文学实践中发挥作用,悄无声息而又无所不在。 

  数据的好处是一切都可以拿来比较,直接武断。现代社会的一种趋向就是用数据量化的方式对世界和人进行简化处理,由此构成了“量化”的、如解析几何一样的“解析社会”。“解析社会”的观照世界方式已经内化到网络文学故事世界的想象中。 

  为数众多的网络小说开头就介绍世界设定和规则体系的做法,貌似是受游戏的直接影响,究其根源是数据逻辑的底层化和结构化。许多作者不再用力去塑造虚构世界中的人物,而是将人物孤立出来,抛入到需要完成各种任务的数据系统。人物与世界没有互生关系,只是强制性的偶遇。刻画人物变成了展示人物的数据画像,显示人物在各个属性上的数值或等级。 

  不仅如此,诸多作品中主要人物的禀性气质也表现出与数据计算逻辑的一致性。网络小说中主角对周围世界进行功利性的计算,依据自己的现实利益对他人价值进行判断,从《凡人修仙传》就开始了,且比较普遍化。当然这个逻辑也不能说仅存在于虚构的小说世界里,它本身也是现实世界的一个辗转映射。而近些年网络文学中充斥的那种果敢狠绝、不纠结,同时缺乏自省的人物形象,与简单粗暴的数据逻辑不无关系。打不死的主角一言不合就开杀,主角“爽”了,对主角无用的人物,其生命如同草芥,只是工具性存在。这在网络小说中已经是一种比较普遍的伦理淡漠现象。 

   数据逻辑也深度植入到网络阅读中,从内容推荐到阅读习惯分析,都贯穿着数据计算,是被微目标定位了的。读者在电子阅读平台中经常会看到一些“推荐”作品和作品的各种数据,它们告诉你读过这本书的人又读了哪些书、这些书被多少人阅读过、评分和评价如何等。甚至随着数智技术的运用,阅读平台还提供了更高效的阅读方式,比如读者可以只看AI生成的内容提纲。“爽文”的快乐符码是根据读者的阅读习惯和喜好,通过故事情节、人物设定等方式在小说文本中安排的情绪点。我们阅读文学时产生的莫名喜好,在网页上停留时间的长短,以数字的方式被捕捉,进而触及我们潜意识中的喜好层面。这是连我们自己也不知道为何产生的类似于弗洛伊德所说的“本我”的层面,但数据特别是大数据打开了通往其中的通道。“数据挖掘作为数字化透镜会放大人的行为,并且在由意识编织的行为空间背后开辟一个潜意识编织的行为空间。”数据计算深入到了人们的潜意识层面。 

  进入批评视野的网络文学作品,也需要有一定的数据。批评者在对作品进行评价之前,先介绍作品在排行榜上的位置和获得的各种荣誉,这几乎成了一个惯例。批评者对作品的直觉判断是排在数据判断之后的,即网络文学批评所涉的对象是先经过了平台淘汰机制筛选的。 

  平台淘汰机制本身就是一个数据筛选机制,带有一定程度的暴力性和排他性,“网络平台及其人工智能允许或青睐的内容可能会迅速走红;而它们贬低的,有时甚至是完全禁止的内容则可能被降为冷门并因此默默无闻。”但这里讲到的数据,有其特殊性。周冰将网络文学的数据特性分成四层,分别是材料层的0和1、地基层的数据源、应用层的平台数据和界面层的数据显示,并且认为我们现在所涉及的数据分析主要是界面层的。这种划分非常详细,而网络文学的数据淘汰机制指的是地基层、应用层和界面层的数据淘汰机制,更具体一些,指的是作品附带的点击率、收藏率,所在的排行榜和推荐位置等数据。网络文学的淘汰过程明确地依赖于数据指标,未能展示出足够人气的作品往往会逐渐被隐藏或淘汰出局。 

  现有的网络文学格局与平台通过数据进行的计算是分不开的。网络文学产业是按照平台的数字经济来组织文学生产的。平台对用户文学消费的理解和把握,比以往任何时代都要透彻。经济价值低的文类被视为“废品”,市场价值高的文类则被奉为“明星产品”。进入写作平台,就有各种秘籍来告诉写手如何写才能抓住读者,让自己的作品成为明星产品。带有数据属性的网络文学最歧视的就是“无用文学”,因为这种文学是互联网平台系统中的累赘,无法带来任何利益,还得为之提供数据服务。网文平台制造了大量的数据生产规则,用以搜集用户数据,制作用户画像,然后再将这个包含了性别、年龄和地域的读者画像释放给作者,让他们精准化生产。这已经不是网络文学产业的秘密,而几乎成了互联网文化产业减少失败率的安全生产法则。 

  回顾中国网络文学的发展历程,我们可以清晰地看到,当下网络文学的繁荣是与网络文学平台的数字经济紧密相关的。平台在网络文学发展低潮(2002—2003年)时通过VIP收费阅读雪中送炭。但网络文学类型文主导的现状,又何尝不是这种支持带来的文学等级分类?能盈利的小说被划成上百种类型,而散文和诗歌被忽略,或者只被简单归为一种。这种情形是数据及其背后的市场和资本诱发的不平等后果。 

   可以说,数据逻辑在包括创作、阅读、批评等在内的整个网络文学实践中已经底层化和结构化。在数据的规训下,一切都显得那么平庸,具有可比性。在平台反复呈现的数据面前,我们几乎无法保持对数据的钝感,而总是会用数据来衡量我们的直觉判断,以避免我们的主观化。数据与客观画上了等号。批评要客观中立,避免个人化,自然需要尊重数据。这与18世纪欧洲启蒙运动中对统计学知识的推崇如出一辙。信息技术将万物互联,让言行数字化,试图将一切都转换成数字的形式进行存储。人工智能时代也是普遍数据化的时代。在信息技术的进步和普及中,我们都成了数据牢笼中的囚徒。网络文学批评中的价值评价和文化阐释已经受到了数据的强干扰。数据与算法勾连在一起,并不是完全客观的。以内容推荐算法为例,文学网站的分类通常是基于大众和专业知识建立的静态系统,而标签则是根据具体需求动态生成的临时区分。这两者都是通过对作品和用户进行树状分类和标注得到的。 

   网络文学体量庞大,需要产业经济的支持,数据淘汰机制的存在是必需的,但我们需要警惕这一机制的局限性。文学作品经过数据淘汰机制,就意味着已经前置了数据思维。数据是一种可以用来比较的符号,符号就已经是片面化了,数据则将这种片面进一步放大。没通过数据筛选的网络文学作品,有可能是沧海遗珠,特别是网络文学商业化后,被丢弃的优秀作品可能会更多。数据淘汰机制牺牲的不仅有个人的权利,而且还包括特立独行的创造力。如果说文学是为了精神层面的良好生活的话,那么我们就不能将某种存在视作理所当然,而应对其有足够的反思和批判能力。仅仅满足于用数据对既有现象的解释并不能使文学向有利于人的方向发展。这是因为解释本身是一种判断,而注脚式的解释既阐明了现象存在的原因,也为其存在的合理性提供了理由。当解释涉及人的现象时,它就会作为一种力量影响人类的发展。与不受预测影响的天气不同,对网络文学的解释会直接影响其发展方向。 

  数字时代不仅是一个出现海量文学作品的时代,也是一个制造批评焦虑的时代。面对如此庞大的研究对象,很多学者希冀通过数字人文来弥补未能阅读大量文本的缺憾,并从莫莱蒂(Franco Moretti)的“远读”中找到了一些灵感。这种愿望,我们可以理解为期望借助数据化分析来达到对文学的宏观把握。因此,网络文学数据批评的出场与网络文学的评价焦虑关联在一起。网络文学批评的学院派意识到了网络文学的重要性,但又很难像对待传统文学那样通过批评深度介入,既有的批评大部分限于自说自话的状态。作家作品批评只限于少数个体和作品。批评与创作处于割裂的状态。 

  在此情况下,既然网络文学有数据属性,不如干脆引入数据批评。考虑到网络文学比传统文学的体量大太多,引入数据批评确实是一个很省力的方式。但数据批评所需要的数据不仅量大,而且要丰富多样。因为我们所需要的网络文学数据并非材料层作为二进制机器语言的数据,而是诸多其他层面的数据。因此,网络文学数据批评面临的最大挑战是:我们需要的数据能获取到何种程度,以及如何将这些数据有效应用于文学批评。而要回答这些问题,则需要考察数据与互联网平台的关系。 

  二、数据的平台控制与基于模型的批评 

   网络文学的数据构成非常广泛,涵盖了从文本内容到用户行为统计,再到作品的元数据等多个维度,形成了一个复杂多元的数据生态系统。我们可以把网络文学写作的最底层视作是数据录入,将内容转换成0与1进行存储和表达。但网络文学的数据除了录入之外,还有按照平台算法来生成的。关于网络文学的大量数据中,只有作者和读者输入的那些才是录入数据,且这种数据在屏幕上并不以数据的形式来呈现,而主要以文字来呈现。不仅网络文学,任何进入网络空间的信息都是以二进制数据的方式存储的。但这些信息的外在表现并非二进制形式,而是以文字、图像、声音、影像等我们熟悉的样式出现。一切皆可数据化,构成了数字化时代。这种数据化产生的数据被称为“一般数据”,一般数据“保持了它自身的运转,让自己在云计算的装置中生成和演化,变成了一种独立于主体意识的存在”。一般数据是一切都被数字化后在抽象层面的数据,它是包括作者、读者、编辑等每一个用户在数字化环境中“劳动”创造出来的产品。写作、发布、搜索、阅读、点赞、打赏、充值等行为都是在生产基础性的数据原材料。而后,这些原材料在各种数字机器下被转换成一般数据。 

  于网络文学平台而言,一般数据囊括了作品、网页图片、点击、评论等所有信息。信息和数据是一体两面的关系。信息面是一般人可以辨别的,底层数据则是极少数的专业人士才可以识别的。考虑到在数字化时代,所有的信息都以数据的方式存储,我们完全可以说网络文学的底层就是数据,欣赏文学作品也是在欣赏以数据形式存储的信息。但这种理解方式也适用于任何数字化的文学批评、网络投票、视频观看、购物行为等差异巨大的活动。因此,网络文学数据批评所需的并非这种通约化的二进制数据,而是服务于文学审美、鉴赏、批评等信息层面的、能够被看懂的数据。简言之,包括三个方面:作为数据源的作品、用户点击、评论;平台公司后台搭建的各种特性的数据库;用户可以直接看到的被显示到界面的信息。而这三个方面具体数据背后都是一般数据。 

   网络平台有马太效应,聚集的用户越多其价值和吸引力愈大,这从经济学上来讲属于“积极的网络效应”。但由于平台吸引力提高而聚集大量用户的结果是,大量用户的特定数据服务权垄断在少数的供应商那里,从而形成了巨无霸的网络平台。“这些网络平台日益依赖于人工智能,并在一定程度上产生了人类和人工智能之间的交集,其规模之大,已具有文明意义。”人工智能的根本原理是深度学习加算法。为了更好地控制用户,平台会利用各种手段和规则来挖掘用户数据的丰富性和多样性。就文学的数字阅读来看,平台在挖掘用户数据上用尽心思:有账户、票夹、付费会员卡等消费数据;书架、书单、阅读时长、笔记等阅读数据;书评、本章说、点赞、转发等互动数据;经验值等级、任务、徽章、VIP等资格数据。而制造作品数据上的招数之多,令人眼花缭乱:字数、总推荐、周推荐、月票、打赏、上架时间、共同阅读的书友、短评数量等都是可见的数据信息,而且如起点中文网这样的平台还有各种诱导消费策略——月票排行榜非常醒目地标出作品提升一个名次还需要的票数,同时又列出当日又有多少人已经打赏了。平台可见的数据之意非常露骨:你的支持和打赏赞助对作品至关重要,所以请消费。这是平台资本的促销手段。而平台怎么使用这些数据勾画出用户画像,怎么决定向作者展示用户的哪些侧面,其背后的数据模型和智能算法属于行业机密之列。同样,平台如何根据数据来评估作品和作者的价值,除了作者自身可以看到的等级呈现之外,是否还有其他维度,也是一个黑箱。 

  互联网平台商业模式和生态中最核心的要素就是数据。数据于平台而言,是一种资源。平台生产占有数据的主要目标在于制造经济价值。数据是被平台占有的,虽然占有的合法性有待考量,但在制造和发掘用户数据方面平台的作用至关重要。 

  在数据生产上,永远是小平台比不过大平台,大平台的马太效应、边际效应都可以让小平台黯然失色。所以我们比较容易看到起点这种大平台的数据,却不太容易看到豆瓣读书这样的小平台的数据。在数据所有权上,用户的数据很少独属于用户,而是被一个所谓的看不见的“后台”所知悉。小用户想与大平台竞争,变得越来越难,平台资本的力量变得无所不能,而其中的法宝就在于数据。生产数据、使用数据来盈利不只是免费阅读的经济支柱,而且成为平台的权力。而这些大平台在各个方面的优势,又容易让那些风格特征迥异的、小平台上的网络文学陷入无法出头的境况。 

  网络空间的一般数据是被平台占有的,因为它们被占有并能从中获利,所以成为数字资本。数字资本是继产业资本、金融资本之后“第三种起支配性作用的资本样态”,且在三种资本中居于塔尖位置,是数字资本家能够呼风唤雨的底气。这种资本属于商业机密,是文学批评和任何文化活动都难以获得的。数字资本意味着数据里面可能包含着一种权力关系和剥削关系,数据拥有点石成金的魔力。我们看到的只是平台方愿意展示出来的数据,外显为文学作品、点击量、页面、榜单等信息。平台方所有的权力都源于其所拥有的数据资源。故而,批评家想以文学批评的名义拥有完全数据,于平台而言就属于抢占资本,必然会受到诸多阻挠和限制。 

  平台垄断和数据资本化导致网络文学批评者只能获得有限的数据。批评者虽然可以“扒”数据,但因为权限和能力的局限,数据完整性会在相当程度上受到限制。由此,批评者看到的数据本身就是“以偏概全”的。我们当然可以设想平台出于社会责任的考虑将数据释放给相关部门和研究者,但同样需要考虑平台出于各种原因并没有储存全样本数据,或者出于各种考虑只释放了部分数据。基于这种情形的普遍性,我们看到的网络文学的数据必然是不完全数据。这点在实际的网络文学数据批评实践中已经表现得十分明显,譬如采用“一叶故事荟”来看“升级文”的吉云飞,就坦诚因选取的14部小说不及“升级文”的万分之一、实验条件不足,“本次实验注定仍只是一次操练”。以万分之一来代表“升级文”,无论如何都谈不上全面客观,也并未解决网络小说阅读量大的难题。 

  不仅如此,批评者本身也处在数据牢笼中,其数据痕迹也是可以被跟踪计算的。于是,网络文学数据批评变成了身处数据牢笼中的批评者依据有限数据进行的批评,有非常大的局限性,也比较容易被平台诱导。 

   但若我们不需要平台的全数据,只需特定的网络文学文本,以数据软件系统的模型来分析,是否就可以得出更为客观的结论?这可能是文学批评者的另一种美好愿望,因为“模型偏差”是一种前提偏差、框架偏差。软件分析的结果与其目标设定是一致的,就是简单化、规律化。从某种程度上来讲,软件模型的程序就已经决定了其可能分析出来的结果。软件分析“是通过理解和解释另一套比文本本身更复杂的‘工具’(如编码系统、决策程序、推理原则、知识表示)来理解眼前的文本的”。软件工具是机械的、不透明的,预设了一种知识表征作为阐释的合法基础。譬如,在《基于BP神经网络的网络小说排行预测》中,我们可以看到自然科学学者在构造用以预测网络小说排行的BP人工神经网络时,预设的前提是:“相对于传统小说,内容质量对网络小说流行度影响并不显著”。其模型设计选取的九种特征中,与小说相关的有五种(类型、评分、荣誉、字数、评价人数),与作者相关的有四种(作品总数、等级、点击推荐比率、日写作效率)。这么一种模型框架已经从规则上排除了作品内容本身。 

  通过软件模型进行的分析,数据一般来自批评者的选择或者爬取,而在这个过程中不当的数据操纵很容易发生。数据重复、缺失、错误、不规范、不一致等情况都会发生,而分析者需要投入相当的时间和精力进行数据清洗,在清洗过程中软件操作者很容易就可以通过“校准”得到自己想要的数据。不规范操作得到的数据是“脏数据”。“脏数据”可能是出自客观原因,也完全有可能是为了达到自己想要的目标而进行人为干预造成的。样本数量和过程在相当大程度上决定了结果。貌似客观的分析工具,不仅已经预设了模型偏差、算法偏见,而且在使用过程中也随处可见人为操控的痕迹。 

  在平台的数据垄断下,身处数据牢笼的批评者借助软件进行的网络文学研究,变成了一个既没有全数据支撑,又需要借助有偏差的软件模型,然后根据自身的统计素养来辅助操作的数据批评。这种到处都是漏洞的数据批评,其批评结果不仅缺乏客观性,而且也缺乏可重复性,经常是一次性的文学研究实验。不过,为什么还有这么多人迷恋数据化的批评?假使数据化批评中的人工操作规范,是否就意味着这种批评的正当性呢?这要求我们对数据批评进行哲学思考,辨清其盲区,并在此基础上探索网络文学批评采用数据化方法进行突围的原则和可能路径。 

  三、道术相合:数据批评的遮蔽与去蔽 

  大至世界文学体系,小至网络类型文学体系,都是存在等级差异的不平等体系。中心与边缘有差别,但其相互位置又变动不居,这是文学史演变中的常见现象。不能穷尽文本不仅是数字时代批评家的困难,也是历代文学批评家都要面对的状况。这一正常的状况,只有在对透明社会的渴慕下才会成为一个需要解决并相信能够解决的问题。因为我们有内在追求确定性的焦虑和对数据主义客观透明的信仰。 

  数据主义是认为一切都可以通过数据来理解和表达的哲学世界观。它依靠大数据、全数据来揭示事物和现象背后的模式和规律,减少我们的认知偏差。借助大数据,智能算法意图制造一个“全息”的认知上的精准图像,而以此形成数据主义的新信仰。数据主义对数据重要性的强调演变成了数据至上的思潮。但假使我们从事批评可以获得所有数据,那么是否可以进行客观公允的数据批评呢?从具有超强算力和大数据支持的AI阅读来看,同样不可能。AI阅读将所有的作品都平等地视为数据,可是根据数据进行的学习,不是建立在对内容深度理解之上的,而是根据符号相关性而非因果性进行的浅学习。 

  数据主义有一些盲区,它容易忽视那些不易量化的人类经验和社会现象。第一,数据揭示的是事物存在的相关的、隐秘的关系,回答“是这样的”相关概率关系,而不是“为什么这样”的因果关系,因果关系需要人来诠释;第二,数据产生于具体的语境中,作为事物某种特色的量度,脱离语境来解读就会产生误读,而如何保留其原生语境是个难题;第三,数据会排除情绪和情感的意向性,减少主观偏差,但其权威性并非绝对,容易忽略偶然性的价值。 

  网络文学研究中对数据分析模式的探索,对数据批评的呼唤,是为了减少我们对网络文学的认识偏差,是数据主义的表现。与数据主义存在的盲区相一致,数据化的文学批评也存在明显的遮蔽性,主要表现在以下几个方面。 

  一是网络文学单纯依据数据的诠释会相当贫乏。贫乏的本身源于数据认知的碎片化,仅仅展现原始的相关关系,而不能诠定概念。大数据、全数据引导的认知是一种叠加的产物,无法终结,也是一种无知。因此,我们也很容易发现,用软件对文学作品进行数据分析得出来的结论,几乎是一个没有灵魂的常识,不如定性分析和理论分析来得深入。原因在于定性分析的推论和理论都有一种整合性,这与精神具有的整合性是一致的。所以,我们可以看到即便以某一年的749部网络小说为考察对象,得出来的结论也比较简单,有些内容就是在印证网络文学方面的一些常识。 

   二是基于网络文学作品的数据批评,经常是抽离了平台语境、文化语境和读者个人体验的通约处理,会忽视文学作品的多义性和复杂性。这是因为借以处理文学数据的分析模型本身是通过平均化、概率化的方式来处理文学的独特性的,而丧失独特性的文学,是均质化的文学,对于文学发展不利。如果说第一次启蒙运动中,统计学让伏尔泰等人为之迷狂的话,那么目前大数据是以韩炳哲所说的第二次启蒙运动的身份登场,而这是以放弃偶然性和独特性为代价的。譬如,当以“远读”来把握“小说节奏和读者情绪”时,是将“情绪”这种主观感受作为“升级”(或者升级前的挫折)活动的必然搭档来理解的。但情绪是短暂易逝和复杂多样的,除了与“升级”同频共振的情绪,还有很多其他情绪,越是内涵丰富的小说越是如此。机器的“远读”是以牺牲人文批评在“细读”中对作品蕴藏的情感和态度的微妙捕捉为代价的。 

  每一时代有每一时代之文学,充分说明了文学语境的重要性。但将大量的文学文本放在一起进行数据分析的批评,放弃了文学作品之感受的语境脉络。这种形式的网络文学作品如同单个的、脱离了整个语言系统的语词,而语词符号表意的关键正是在于系统。在数据批评的通约中,作品的个性被抹杀,然后我们又据此来批评这些作品没有个性,这是逻辑上的悖论。 

  三是网络文学批评实践中的对象常是经过平台数据筛选机制的对象,但数据自携的“客观性”光环导致平台数据评价偏差一旦出现,对网络文学作品的伤害就很难得到纠正,且会形成一种恶性循环。专业批评者也很难在数据社会逃离数据牢笼,同样面临着平台对我们阅读潜意识的搜捕。而平台上网络文学的各种数据本身是与平台经济纠缠在一起的,批评很容易就落入为资本服务的陷阱。 

  指出网络文学数据批评的遮蔽性并不是完全否定其存在意义,关键在于思考我们需要什么样的数据批评。基于数字逻辑在网络文学中作为基础架构的存在,引入数据批评十分必要。数据批评的原理在于,网络文学及其相关网络活动作为一种数字化存在,能够让我们通过计算机对其底层数据的处理来获得对作品及相关文化现象的理解和把握。严谨地说,数据批评方法不是距离意义上的“远读”,而是借助机器和数智技术的“另一种”阅读。它是一个强大的工具,可以帮助我们理解数字时代的文学现象和价值。那么,我们应该如何去除遮蔽性,借助数据批评来更新升级网络文学批评?这涉及批评之道与术的关系。 

  传统人文批评擅长处理文学的精神文化方面的价值,进行定性分析。而数据批评擅长借助计算机技术进行量化分析,因此数据批评可以视为一种新质生产力,作为人文批评的有力补充,共同致力于提升人文之道。因为数据无法叙事,也无法产生意义,所以数据批评作为一种批评术,它要依赖于一定的理念和阐释,所以数据化分析之前和之后都是需要人文思辨的,需要批评者对其理论前提和批评目的进行细致地辨析。 

  首先,网络文学数据批评需要划定目标,将那些传统人文批评无法把握的现象或作品作为研究对象,在合理的理念前提下进行,以数据研究促进文学批评。这就需要排除那些仅仅用来印证网络文学常识的数据批评。数据研究是有限度的,需要以假说为指导,在理论概念的引导下进行,这种研究并非简化而是需要尝试非常复杂严谨的研究模式。在这方面,李强的《作为数字人文思维的“网文算法”——以“明穿”小说为例》对数字人文的思考很有参考价值。他始终在一个具体的时代语境中去考量,从文化思潮脉络中去理解“明穿”小说的变化,定性分析与定量分析交织进行。但即便如此,他借助软件对两部群穿小说角色占比的分析,也稍有遗憾。穿越者的多寡只有比较意义,而这通过简单阅读就可以得出。 

   其次,数据批评方法的丰富多样性需要进一步拓展,数据操作需要规范。在人工智能高度发展的今天,数据化方法是非常多样的:利用或建设可供公开检索的作品数据库进行统计分析;借助不同模型的分析软件;利用不同类别的神经网络技术;数据挖掘和机器学习;数据可视化和大数据分析等。每种数据化方法背后都是有模型的,模型依赖于数据的性质、分析的目标以及可用的技术资源。有效的数据批评不仅需要对数据本身有深入的理解,还需要对使用的模型有充分的认识,包括它们的假设、局限性和适用性。假如数据化背后的模型存在偏差,那么数据分析就很容易出现根本性错误,而在此之上的数据批评也会谬以千里。故而,在使用数据化方法之前,我们应该对模型本身进行批评性思考,并深入理解其具体运用的条件。任何数据化方法在使用中都需要人对数据进行操作,包括寻找数据、清洗数据、校准数据等。这个过程涉及广泛的人为操作,因此对操作者的数据素养提出了较高要求,这对人文学者而言可能是一个挑战。然而,这一挑战可以通过跨学科合作来克服。 

   最后,任何数据批评或者人文批评的主体都是人,培养复合型的网络文学批评者至关重要。网络文学数据批评的目的在于借助数据达到对网络文学的精确把握,但无论是网络文学还是整体意义上的文学,本身就是含混、矛盾、偶然性和多样性的汇聚。文学的内涵和思想是由包括批评者在内的读者阅读解释出来的,是人在与文学作品的碰撞中产生的,没有这种碰撞,而只是通过模型对作品进行数据分析解读,文学的审美价值和文化内涵很难被捕捉到。因此,数据批评需要批评者有阅读网络文学的直接经验,具有一定的思辨能力。虽然专业的网络文学批评者具备扎实的文学基础和丰富的评论经验,但他们有时可能因阅读量不足而在理解网络文学的独有特质上有所欠缺。相比之下,网络文学的广大读者群拥有丰厚的阅读经验,但他们往往缺乏一个更开阔的文学视野和正规的批评训练,这限制了他们进行深入批评的能力。从事网络文学的数据批评不仅要求对网络文学本身具备直观的体验和理解,还要求批评者拥有较强的数字人文背景——这包括对数字化文本的分析能力和对相关技术工具的熟练运用。正如网络文学创作中出现了很多非文科背景的作者,网络文学读者中也可以出现既有媒介技术素养,又有较高文学辨识力的批评者。培养年轻人,使他们在具备丰富的阅读体验和较高的新媒介素养的基础上,经过专业的训练,能够将数据批评与人文批评融合于文学探讨之中,并赋予他们必要的话语权和文学批评的使命感,这才是确保网络文学持续发展的正确途径。 

   结语 

  目前,数字人文迅猛发展但争议不断。跨学科寻求网络文学批评的新思路与对数据世界客观透明的想象缠绕在一起。网络文学的数据批评在实际操作中成了一种装饰性存在,表现为以表格、数据、图表等方式来丰富文章形式的浅显分析。这种批评虽然看起来是跨学科的,但将之聚拢在一起去看,很容易发现其重复性和模式化。 

  数字逻辑在整个网络文学实践中的底层化和结构化,使数据批评的出场成为必需。但身处数据牢笼的批评者进行的网络文学数据批评,面临着数据的平台控制、模型分析的偏差、数据操纵等诸多实践上的难题。从哲学基础上看,数据批评的数据主义倾向会遮蔽文学的独特性,“数据透镜”很容易就过滤掉了文学的审美价值和多重含义。数据批评方法的合理使用需要有理论的引导,数据分析应该放在人文思辨的脉络中来推进。单纯为了引入数据方法而进行数据批评,多半会沦为验证已有结论的一次性文学研究实验。数据批评要成为网络文学批评的有力助推器,需要以数据批评之术来提升人文之道,实现道术相合,提升人文思辨的力度,使文学批评在定性分析与定量分析的无缝衔接中不断前进。 

  〔本文注释内容略〕

  原文责任编辑:马征

转载请注明来源:中国社会科学网【编辑:苏威豪】