生成式人工智能正以其独特的能力和广泛的应用前景,深刻改变着各行各业。学术领域应当如何应对生成式人工智能带来的影响?我们是否真正理解了生成式人工智能的本质?又该如何在科学研究中合理、规范地使用这一技术以确保科学的诚信与责任不受侵蚀?围绕这些问题,本报记者采访了爱尔兰都柏林圣三一学院计算机科学与统计学院兼职助理教授阿贝巴·比尔哈内(Abeba Birhane),从理解生成式人工智能出发,探讨新技术对科研的影响、学术界对规范该技术所做的努力,以及未来的责任归属等问题。
■阿贝巴·比尔哈内(Abeba Birhane)受访者/供图
深刻理解生成式人工智能本质
生成式人工智能是一项颠覆性的技术,学术界是受此影响最大的领域之一。对于追求效率的研究者而言,生成式人工智能或许是一个节省时间的利器。但是,比尔哈内对记者表示,学者需要清楚科学研究的核心价值在于促使学者进行深入的学术思考、阐释研究结果并创造社会价值,而非单纯追求出版物的数量。因此,盲目依赖生成式人工智能产出内容,与科学的可信性原则背道而驰。
在科研中能否运用生成式人工智能是一个具有争议性的话题。一方面,人们认为生成式人工智能具备强大的数据处理与分析能力,能够迅速处理海量信息,辅助科学家发现新模式、新趋势等,从而加速科研进程。另一方面,也有人担忧生成式人工智能的广泛应用会削弱科研的严谨性与创新性。
针对这个问题,比尔哈内认为首要任务是深刻理解生成式人工智能的本质,而非盲目轻信那些从该技术中获利的公司或个人所宣扬的夸大之词。全面认识并正视生成式人工智能存在的多种问题,例如高额能源消耗、数据泄露风险、对人工劳动补偿不足以及技术本身的不稳定性,是理解该技术不可或缺的一环。唯有如此,科学家、学者及相关机构才能就这一技术在学术领域的运用作出明智的抉择。
比尔哈内表示,要评估生成式人工智能对于学术研究的利弊,需要将其视为一个过程(该过程资源密集且劳动力密集)和一个产品(关注其产出的质量),同时考虑哪些科学研究领域可能因生成式人工智能的融入而获益或受到损害。
生成式人工智能系统需要大量的训练数据,比尔哈内表示,遗憾的是,现在出现许多相关法律诉讼,说明训练数据的方式可能触及法律底线,既未经数据所有者的许可,也未给予他们应有的补偿,系统擅自将他们的数字足迹与互动信息搜集起来成为训练素材。这些数据本身也存在很多问题,例如编码偏见、历史和社会成见等。更为严峻的问题是,系统运行消耗巨额的电力。美国高盛集团近期一份分析报告将这种前所未有的能源需求形容为“近几十年来未曾目睹的电力激增”。
比尔哈内在采访中强调,在评估生成式人工智能是否带来效益时,不能忽视其巨大的能源消耗,因为这实际上加剧了破坏环境的步伐。同时,由于存在近乎非法的数据采集行为,这些系统的训练数据来源以及背后所涉及的劳动力剥削问题,都未能得到有效解决。
比尔哈内表示,科学研究的基石在于透明度、可重复性、可验证性、可复现性以及问责制。这些核心原则构成了科学知识可信度的牢固基础,然而在生成式人工智能(既作为过程也作为产品)中,这些原则几乎并不存在。多数生成式人工智能系统的访问受到限制,因此对其进行严格评估变得困难重重,进而难以准确判断这类系统对科学研究的真正价值。此外,生成式人工智能系统的不可靠性也广泛存在。它们所生成的文本看似真实,实则根本不存在,这种现象被学者们称作“幻觉”。尽管当前生成式人工智能在科学研究中的应用正在迅速增多,但是科研人员对于其优势、弊端及后续影响的研究仍然较为匮乏。
规范科研中人工智能的使用
为了在人工智能时代更好地保护科学诚信和维护科学责任,一些高校和组织已经开始制定指南来规范科研中生成式人工智能的使用。例如2024年3月,欧洲学术界制定了一套关于在研究中使用生成式人工智能的指导方针,荷兰拉德堡德大学也明确了生成式人工智能使用规范,以及学者在确保研究严谨性方面所承担的责任。
近期,美国国家科学院和宾夕法尼亚大学安纳伯格公共政策中心等机构共同召集了一个由学术界、政府部门和其他行业经验丰富的专家组成的跨学科小组,成员包括行为和社会科学、伦理学、生物学、物理学、化学、数学和计算机科学领域的专家,以及高等教育、法律、管理、科学出版和传播领域的领导者。他们共同探讨在研究中使用生成式人工智能所带来的挑战。随后,该小组在《美国国家科学院院刊》上发表的社论中,提出要在人工智能时代保护科学的完整性,呼吁学术界坚定不移地遵守科学的指导准则和价值观。他们在先前研究的基础上,公布了在科学研究中使用生成式人工智能应遵循的一些原则。
第一,公开透明,学者应明确在研究中使用生成式人工智能的情况,包括所使用的具体工具、算法及配置细节;区分贡献,准确说明文本及想法的来源是人类还是人工智能,区分两者及其各自的贡献;准确引用,确保即使在生成式人工智能未提供引用的情况下,也能识别并引用人类专家的知识和已发表文献。对于模型的开发者而言,应当提供可公开获取的模型细节,包括用于训练或改进模型的数据;仔细管理和发布有关模型及其衍生版本的信息,以便为学者提供具体引用特定模型的方法;提供模型的长期存档,便于进行复制研究;在生成内容的归属不明确时主动披露;在学习、推理和信息检索机制方面进行创新,帮助用户追踪人工智能生成内容的数据来源和作者。
第二,学者需对使用生成式人工智能模型所获得的数据、图像及推论的准确性承担全部责任。学者不但应当采用恰当的验证方法来确保生成式人工智能形成的推论的准确性和可靠性,而且应持续监测和测试生成式人工智能算法及其输出,以识别和纠正可能影响研究结果或解释的偏差。对于模型开发者而言,应公开系统在验证人工智能生成内容真实性方面的能力限制,当无法核实生成内容的真实性时,模型输出应附带清晰、校准准确的置信度评估。模型开发者还应主动识别、报告并采取措施纠正生成式人工智能算法中存在的可能影响研究结果或解释的偏差。
第三,记录人工智能生成的数据。在使用人工智能生成的数据、推论和图像时,学者需要注明来源和人工智能扮演的角色,确保读者不会将其误认为实际观测结果。同时,学者自己也应避免将人工智能生成的内容误认为是真实世界收集的实际数据。模型开发者则应识别、标注训练过程中数据的来源,确保数据的可追溯性,同时还要监控在后续模型训练中重复使用生成内容可能引发的问题、关注点及行为模式。
第四,科学家与模型开发者应采取有效措施,确保生成式人工智能的应用能产出科学上合理且对社会有益的结果,并采取措施降低潜在风险。科学家与模型开发者应遵守生成式人工智能使用的道德规范,并在构建与使用生成式人工智能系统时发现并减少潜在偏见。他们还应该持续关注生成式人工智能进一步开发与应用可能带来的其他社会影响,并更新实践与规则,以促进有益使用且降低社会危害的可能性。科学家、模型开发者与政策制定者应共同推动生成式人工智能系统在解决问题与满足需求方面的公平性,让更多的社区都能有效利用人工智能系统。研究人员呼吁学术界要建立相关的监管机构,在把握生成式人工智能为科学领域带来契机的同时,警惕其存在的风险。
共同承担责任
学术界应有主动捍卫科学规范与价值观的责任,并恪守现行指导原则与法规,同时积极参与公共与私人领域的生成式人工智能治理规则的制定。其中,治理工作必然包含公众教育,提升公众对生成式人工智能在科学中应用的认知与价值理解。比尔哈内坚信,当大学与研究机构在学术探索中引入生成式人工智能时,必须制定一套指导原则。该原则应细致规划哪些研究阶段或领域能得益于生成式人工智能的辅助,同时明确哪些环节应坚决规避其使用,比如构思创意、文献回顾、内容提炼、数据解析、情境构建及文稿撰写等。大学与研究机构需清晰界定并论证生成式人工智能系统在科学研究各阶段的应用价值及其潜在风险。尤为重要的是,要揭开生成式人工智能的“神秘面纱”,向年轻一代及青年学者普及相关知识,并阐述为何过度依赖此类系统可能会侵蚀科学研究的根本原则,即独立思考、深刻理解、对前人成果的尊重以及对个人研究的责任感。鉴于当前生成式人工智能产业的蓬勃发展主要驱动力在于宣传炒作,揭露炒作背后的真相、教育青年学者具备批判性思维,显得尤为迫切与重要。
美国国家科学院和宾夕法尼亚大学安纳伯格公共政策中心等机构组成的研究小组也提到,要规范学术研究中人工智能的使用,同时科学家应携手产业界、政府和民间组织的代表,持续监测和评估人工智能对科学进程的影响,并在确保透明度的前提下,根据需要调整策略以保持科学诚信。鉴于人工智能技术的飞速发展,学术界需要持续研究其能力、局限性和影响。人工智能科学家也应致力于提高人工智能在科学领域的有效性,解决数据真实性、归属和透明度等挑战。不但在各部门内部开展工作,还要进行跨部门合作,持续研究人工智能在科学领域的应用现状和趋势。在人工智能开发、应用和监管的各个阶段,应采取有意义的方式吸引公众的参与和介入,确保技术发展与社会价值观和需求相一致。最终,这些参与和研究的成果应当得到广泛传播,以增进社会对这些成果的整体理解和认知。
审核:李建军
报纸编辑:赵琪
网络编辑:赛音