学术活动

当前位置: 首页 >> 学术活动 >> 正文

【学术动态】幻觉的蒸馏:生成式人工智能价值观三条对齐路径的价值风险解析


来源: 发布日期:2026-02-08 阅读次数:

作者简介:易显飞,二级教授,院长,博士生导师,国家社科基金重大项目首席专家,入选国家级人才项目。高津宇,2025级博士研究生。湖南师范大学马克思主义学院,湖南师范大学马克思主义学部科技与社会发展研究中心、人工智能伦理研究中心。

文章来源:《东岳论丛》2026年第1期

摘  要:在价值观对齐的过程中,生成式人工智能(GAI)内生的幻觉问题,已从单纯的技术误差衍生为系统性的价值风险。“人工反馈”“人机协同”与“机器自主”三条对齐路径均存在不同维度的风险表征:在人工反馈对齐中,人类自身价值观的复杂与GAI模拟的有限导致价值观对齐存在价值偏差;在人机协同对齐中,GAI生成的价值观使人机协同陷入认知封闭的价值陷阱,并代替人类价值观成为规范性价值;在机器自主对齐中,GAI价值观的自我复制无法回避自我指涉的难题,技术性拟真也将人类价值观引入滑坡。破解对齐价值风险的关键,在于将对齐的重心从对单一价值的模拟转向对多元价值的权衡,确保技术发展始终锚定于非幻觉化的人类真实的生活世界。

关键词:生成式人工智能;价值观对齐;人机关系;机器幻觉

生成式人工智能(Generative Artificial Intelligence,GAI)在技术能力上飞速演进的同时,其内生的幻觉问题也导致了不可忽视的价值风险,模型在输出中生成了语法连贯、看似可信,但实质上与客观事实相悖或纯属虚构的内容。幻觉的存在既动摇了模型的可信度,也直接冲击了价值观对齐的基础,意味着机器有能力生成 看似 逻辑自洽,但在本质上与人类经验脱节的伪价值观。这种风险的独特之处在于能深度模拟价值话语的形式,却悄然侵蚀价值判断的现实基础,从而为一种异质于人类社会的机器伦理埋下伏笔。一个无法稳定锚定事实的模型,自然也难以精确对齐复杂微妙的人类价值观。模型蒸馏旨在将大型基础模型的能力压缩至更轻量、高效的专门模型中,其本质是一个以保留核心价值信息为导向的有损压缩过程。GAI的价值风险在借助蒸馏的方式迭代与普及的背景下,变得尤为严峻。诺伯特·维纳(Norbert Wiener)指出:“我们最好完全确定赋予机器的目标就是我们真正想要的目标。”当下,业界在价值观对齐方面主要可以归纳为三条对齐路径:“人工反馈对齐”(Training AI systems using human feedback)“人机协同对齐”(Training AI systems to assist human evaluation)以及“机器自主对齐”(Training AI systems to do alignment research)。当这些对齐路径付诸实践时,伴随模型蒸馏的价值风险便暴露出来:无论模型是否能够实现价值观对齐,均不能回避“幻觉”对人类价值观体系的编造与混淆,而模型蒸馏不仅无法改变幻觉留存的状况,甚至会提高幻觉在价值观中的比例,导致其伪装成人类价值体系的一部分而进一步正当化。从拟合有偏的人类反馈,到陷入人机协同的认知闭环,再到步入机器自主的自我指涉,对齐的努力在每一层都面临着将技术瑕疵转化为系统性价值风险的可能。

一、反馈盲区与价值偏差:人工训练反馈对齐的拟合程度与集体性混沌

“人工反馈对齐”以人类专家为主导,通过人工反馈的方式硬编码伦理准则,并对训练数据进行全面的人工筛选与标注,以期将人类价值观体系完整地注入GAI。即并不是试图让人工智能去认识和意向对象,而只是通过已有的认识机制去指导行为。在这一范式下,智能系统对价值的判断源于被直接编码的公理,因而在学习并内化“正确”与“错误”的语义之前,应优先实现执行层面的正当响应。此路径的成败,完全取决于人类所提供反馈的质量与无偏性。然而,恰恰是这一对“人”的绝对依赖,构成了价值观传递过程中系统性偏差与不确定性的根源,对齐并非一个纯粹的价值复刻过程,而是充满了拟合失真与信息损耗的复杂博弈。

(一)源自人类价值观盲区的对齐拟合失真

价值观对齐的核心任务,是让GAI学习并内化人类的价值判断模式,使其在面对未知情境时,能够做出符合人类价值标准的价值选择。这一路径的实现依赖于一个核心前提:人类反馈者能够提供一个稳定、连贯且无偏的示范,作为GAI学习的黄金标准。然而,这一假设恰恰是整个对齐链条中最薄弱的一环。人工反馈对齐的首要风险,并非源于机器,而是源于作为反馈源头的人类本身存在固有的价值观盲区。人类的每一个道德裁决,本身并非对单一规范的僵硬遵循,而是综合既定准则、情境伦理、共情反应及个人利害等多元因素,在具体情境中进行动态权衡后的最终表达。由于GAI数据库对人类价值观的采样难以实现完全映射,其对齐过程必然会存在“拟合失真”的现象。这种失真具体表现为两种倾向:过拟合与欠拟合。在过拟合情境下,模型不仅学习了人类反馈中体现的普适价值标准,更大量接受人类在特定情境下具有偶然性、局限性甚至存在错误的价值判断,并将其当作必须严格遵守的铁律。与此相对,在欠拟合情境下,当GAI接收到大量相互矛盾的价值判断时,无法从中完整提炼出一套逻辑自洽的、稳定的价值观,而为达成对齐目标,模型根据最优路径原则会倾向于边缘化那些复杂、模糊的价值维度,转而习得一套高度简化但片面的决策规则。这无异于模型将人类反馈中那些关乎价值权衡的精微之处,错误地识别为需要修正的幻觉,并予以主动滤除,最终呈现的可能仅是一个被过度简化的价值骨架。因此,源自人类自身的价值观盲区,决定了生成式人工智能的价值观对齐从一开始就并非通往理想的坦途,而是一场在“僵化复刻个别价值”与“过度简化复杂价值”两种失真形态间的艰难权衡。
为应对因人类价值观盲区所导致的拟合失真风险,需要从人类复杂的价值体系中凝练出普适性的核心公理,并以此为基准对GAI进行规训。然而,若将这些公理固化为GAI必须严格遵守的生成指令,则会生成一种新的风险:对复杂现实的过度简化,本身就构成了一种结构性的幻觉。真正的逻辑突破口在于彻底转换这些原则的用途,不应将价值观原则作为GAI行为的硬性法规,而应作为分析人类反馈数据的诊断探针。当人类反馈与这些基本价值锚点发生冲突时,该冲突本身便成为一个高价值的元数据信号,并精准地标识出人类价值判断的模糊地带。在此框架下,需要被系统留存并学习的,并非那个有偏差的反馈数据点,而是“人类在何种情境下会偏离基本价值原则”这一元知识。最终,GAI习得的并非一套僵化的生成规则,而是一种具备自我审视能力的价值判断框架,能在识别出潜在价值陷阱时主动调整生成策略,从而回避了在过拟合与欠拟合之间做出灾难性权衡的风险。

(二)价值编码在模型蒸馏中的有损压缩

维贝克(Peter-Paul Verbeek)指出,由于人类将自身价值嵌入具体的人工造物之中,因而技术自身便具有道德调节作用。而GAI的技术性对齐主要关注人工智能的表现是否严格遵循预设目标与规则,确保技术行为与设计者初衷相符,这一过程显露了价值观对齐的本质,即价值观的技术化。这一转译工程旨在将人类复杂的伦理推理机制,编码为机器可执行的形式化表达。其实现路径通常借助对 海量 人类反馈数据(例如偏好排序与红队测试)的量化及参数化,驱动GAI从数据中“逆向分析”出人类隐性的价值结构。为了让模型能应对复杂的现实世界,此价值体系必须具备极高的价值维度与密度,因而需要借助大型基础模型方能初步拟合,凭借其巨量参数,构成一个庞大的价值观存档,初步实现了对人类价值判断体系的高保真学习。然而技术的经济性与应用的现实状况决定了此类模型难以直接应用于普遍化的场景,也就必然面临模型蒸馏的处理环节。根本矛盾在于,蒸馏过程所依据的价值标准本身,难以与人类的价值观体系实现精确对齐。一方面,严格、高保真地对齐人类价值观,不符合蒸馏的效率原则;另一方面,人类价值体系中就不存在一个统一、明确的通用元价值。相反,人类在做此类判断时,更多依赖的是无法被算法化的大脑直觉、情境启发式判断和默会知识。这揭示了一系列环环相扣的必然结果:首先在蒸馏过程中,承载价值观的关键信息,是在一个缺乏可解释标准的机制下被筛选、保留或丢弃的。而为了拟合人类反馈提供的数据,GAI在“数模转换”过程中不可避免地形成一种与人类价值逻辑存在偏差的数字模型。最终,存在偏差的数学模型作为一种未定义的价值机制被共同整合进这一新生逻辑,使其缺陷变得更加隐蔽和难以修正。
为消解此价值风险,需在对齐理念上实现一次根本性转向:蒸馏的目标不应是静态的价值答案,而是动态的价值判断过程本身,将价值观对齐重构为一个价值元学习任务。在此框架下,价值幻觉不再被视为需要消除的噪声,而是作为一种可学习的、指示价值模糊性或冲突性的重要元数据被主动保留。模型的任务,从“给出正确答案”转变为“识别出问题本身的复杂性”。在此基础上,蒸馏过程的核不再是尽可能多地保留价值数据点,而是尽可能无损地留存能够处理矛盾、进行权衡的价值推理框架。通过这种方式使得价值观对齐从一个逻辑上不可能实现的完美复刻任务,转变为一个具有可行性的能力迁移任务,使价值观对齐成为可能。

(三)群体反馈的集体性混沌与价值模态漂移

在价值观对齐的实践中,聚合多元化的群体反馈以克服个体偏见,是一种被广泛采纳的策略。这是由于即使人类的目的和道德原则是多元的,其总量也是可以穷尽的,因为它们必须保持在“人类的视野内”。然而,这种聚合并非一个趋向单一共识的线性过程,而是更深层次的系统性挑战:集体性混沌。集体混沌描述了由群体内部价值异质性与动态性共同决定的系统状态,一个群体的价值判断集合在统计上并非一个离散的单点,而是一个连续或半连续的复杂分布。这个分布通常呈现出多模态特征,即存在数个主流的价值标准凝聚点,但同时也伴随着大范围的、包含少数派观点与情境性特例的“长尾”区域。若将此反馈系统视为一个复杂动态系统,便会展现出混沌理论的核心特征:对初始条件的极端敏感性。反馈者的构成、问题的措辞乃至上下文信息等微小差异,都可能通过非线性放大效应,显著改变整个价值分布的形态。当人工智能模型被置于这种混沌的反馈环境中进行训练时,其内在价值体系的收敛过程便会引发价值模态的漂移现象。此处的“模态”指群体价值分布中概率密度最高的区域,亦即最普遍的价值选择。模型优化的目标是最小化全局期望误差,这使其必须对整个分布做出响应,而不能仅追踪作为概率峰值的模态。其结果是,分布中相互冲突的价值判断会对模型参数产生反向的牵引力,可能将其收敛点推向一个逻辑上的折中位置。与此同时,长尾部分信号强度极高的少数派观点,也可能在优化中获得过高权重,从而将模型的最终状态拉离主流模态。这种由优化目标与数据形态共同决定的系统性收敛偏差,就是价值模态漂移。
由此可见,集体性混沌与价值模态漂移之间,存在着一定的相关性。集体性混沌是价值模态漂移得以发生的系统性前提,而价值模态漂移则是机器学习模型在混沌系统中进行优化时必然产生的后果。因此,经由群体反馈对齐的GAI所习得的价值观,并非人类集体价值判断的真实反映或民主共识,而更应被视为一个数学上的吸引子。这个吸引子是GAI在人类价值观的混沌景观中,通过自身优化逻辑所找到的一个稳定平衡点。因此,有效的价值观对齐策略必须超越静态的数据聚合,转向建立一个能主动修正价值模态的开放性反馈回路。对齐的焦点应从抽象的价值评判,转向以实践应用为导向的结果评估,从而引导模型收敛至一个更为稳健且符合集体期望的价值体系。

二、技术自证的价值陷阱:生成式人工智能协助评估的认知封闭与规范性生成

与完全依赖人力的路径不同,“人机协同对齐”试图引入GAI作为高效的评估与筛选工具,旨在辅助人类进行价值校准,以克服“人工反馈对齐”面临的规模与成本瓶颈。此路径的有效性在于作为工具的GAI能否在评估过程中保持绝对的中立与客观。而这一对技术辅助的依赖,构成了系统走向认知封闭与自我参照的伦理陷阱。当评估工具本身也成为对齐过程的参与方时,价值观对齐便不再是人类价值观向机器的单向传递,而是演变为一个技术与人类共同塑造,甚至拟造新价值规范的过程。

(一)辅助评估导致的认知孤岛效应

人工智能的行为本质上根植于一种人机共构的社会技术现实,这意味着对其道德责任的审视,必须超越单一的人类主体视角。在人机协同对齐的框架下,引入GAI辅助人类进行价值评估,其初衷在于突破人力瓶颈,提升价值观对齐工作的效率与广度。此路径预设了一个关键前提:作为评估工具的GAI在价值维度客观中立。然而,当一个GAI被用以评估另一个GAI的价值输出时,对齐主体(人类与辅助GAI)和对齐客体(目标GAI)的界限将变得模糊。由于辅助GAI既是评判者,又是与被评判者同源的技术实体,使人工智能的价值评估成为一个封闭的认知回路。人类监督者不再直接面对目标GAI原始且未经修饰的价值表达,而是通过一个经过“同类”转述、筛选和解释的二手信息进行判断。这一过程隔离了监督者与原始价值场景的直接联系,形成了一座“认知孤岛”。这座“认知孤岛”的危险性根植于辅助GAI无法克服的幻觉缺陷。当这些幻觉渗透到评估环节,辅助GAI可能基于其幻觉,将目标GAI一个无害的表达错误地标记为危险,或为一个真正有害的逻辑漏洞编造出合理的辩护。这种潜在的误判,不仅扭曲了评估结果的真实性,也给后续的人类监督带来了新的挑战。由于辅助GAI的评估结论通常以大量数据的方式呈现,使人类监督者的角色从“直接裁决者”转向“AI裁决的审核者”。在此过程中,人类自身的价值观体系极易陷入自动化偏见,不自觉地信任和依赖由机器生成的复杂分析。“技术与人的伦理关系体现在技术为人打开生存与行动的空间,道德伦理源于人与技术的交互,主客体关系在人与技术的交互中消解。”因此,监督者的批判性思维会受到一定程度的削弱,其作用不再是提供一个完全独立的价值锚点,而是在无意中为辅助GAI的幻觉化结论进行追认与背书,从而降低了对齐过程的有效性。
海德格尔将技术的本质归结为一种由人掌控、服务于特定目的的工具。然而,当辅助评估的GAI自身也演化为具备论证能力的行动者时,这一经典的工具论视角便显现出其根本局限,甚至会因其误导性而将人类决策者围困于一个认知孤岛。为打破此困境并规避其内生的价值风险,可以将评估模式从寻求单一权威的结论转变为一个结构化的对抗性论证过程。具体而言,将单一的评估模型替换为一组对抗性的评估智能体,其中一个智能体负责为目标GAI的输出构建合规性论证,而另一个则对此论证提出反驳。如此,人类在这一过程中也从被动的审核者,转变为对双方论点进行权衡与判断的主动仲裁者,其批判性官能被最大限度地激活。通过此种设计,辅助评估系统内部的幻觉与潜在偏见,从需要被动发现的缺陷转化为被主动暴露并相互攻击的论据。这一机制将系统内在的不确定性外化为可供思辨的材料,创造了让复杂场景下的GAI价值观对齐成为一个可实现目标的认知前提。

(二)将技术幻觉确立为标准的可靠性问题

在GAI辅助价值观对齐的实践中,系统固有的生成特性还存在生成标准的可靠性问题,GAI输出的结构化虚构内容,不仅是待纠正的技术性误差,当其被用于评估环节时,这些内容凭借其形式上的合理性与逻辑上的连贯性,也获得了参与规范性价值生成过程的资格。这一特性改变了价值观对齐工作的基本动态:一个原本应被消除的技术构件,通过介入评估过程,开始转变为一个潜在的规范性范例。于是,一个旨在使模型符合人类价值观的流程,反而在内部创造了一个保护机制,使得模型有可能依据自身的技术产物来重新定义价值标准。
人工智能风险的本质,在于其客观的技术实在性,最终经由不同利益相关者的价值取向与伦理选择,才能被确认并成为现实。人类监督者在关键环节的确认行为,反而让这一风险问题得以闭合。当包含精巧虚构内容的评估报告被提交时,监督者的确认行为会将该内容从一个待审的“客体”转变为一个已获批准的“先例”。这个经确认的范例随后被整合进训练数据,为后续模型的迭代提供了依据。该过程形成了一个自我强化的反馈回路:模型生成了虚构内容,辅助系统将其包装为评估结论,人类予以批准,最终该内容被用以训练出更倾向于产生类似输出的新模型。“在工场手工业和手工业中,是工人利用工具,在工厂中,是工人服侍机器。”与马克思对工人与机器关系的分析类似,对齐过程表面上在持续运转,但其锚定的价值基准已在不知不觉中发生漂移,逐渐偏向由机器生成并被循环验证的内部标准,剥夺了人的自主性。要从逻辑上解构这一问题,其关键不在于增设外部校验机制,而在于对评估对象进行一次根本性的转移。即将评估的焦点从判断输出的结论(the what),转向审查该结论的生成路径(the how)。一个结构化的虚构内容,其最终样态可能极具说服力,但其推导过程却难以在逻辑上做到无懈可击。因此,监督者的任务不再是评判一个答案的优劣,而是审计一条推理链的有效性。通过将工作模式转换为对生成过程的溯源与检验,监督者的认知功能便从易受表面文本影响的价值判断,转变为更具分析性的逻辑审查。这种视角转换釜底抽薪式地消解了人机协同对齐的可靠性问题:一个虚构内容无论多么看似合理,只要其生成路径被证实为无效,便失去了被确认为标准的资格。

(三)以技术协同之名制造的价值共识

在运行机制上,人机协作共同完成的整体工作通常是机器人在人类监督下实现的工作内容。GAI依据其训练数据中的统计规律,构建用于满足特定任务的输出,无论是文本、代码或图像,其结构、风格与信息选择均反映了模型对最优解的数学表征。在协同审核环节,监督者的主要任务通常是验证输出内容的事实准确性与逻辑连贯性。当监督者批准一项输出时,该行为在功能上确认内容符合任务要求,同时也认可了该内容所内含的特定表征方式。由此,一个完全由技术模型生成的表征,与一个由人类赋予的“高质量”或“客观”等价值标签,被有效地关联起来,构成了一个“事实—价值混淆体”。萨顿(Sutton R S)提出:“智能体的唯一目标是从长远来看最大限度地提高总回报。因此,奖励信号决定了行为体的好事件和坏事件。”在系统化与大规模的协同工作中,对此类混淆体的持续批准与采纳,其累积效应是形成一种稳定的并获得共识的价值取向,而该取向则源于技术系统自身的统计特性。
这种在协同审核中形成的价值共识,能够通过模型的迭代与衍生过程被进一步固化并跨领域传递。在模型优化过程中,一个大型复杂系统的行为模式,常常会被提炼并迁移至更轻量、更专门化的新模型中,最初由“事实—价值混淆体”所承载的价值偏好,便从零散的数据实例中被提取出来,编码为一组具有泛化能力的权重模型或函数。这种经过技术抽象的价值模式,其规范性维度在很大程度上被技术术语所掩饰,使其显得客观中立。当这类内含了特定价值模式的衍生模型被部署到新的应用模态时,其影响力便会扩散,使得一个源自特定数据集与人机互动历史的价值偏好体系,呈现出一种具有普遍适用性的面貌,而其构造性与偶然性的起源,却已被技术的复杂性与规模化效应所掩盖。
针对上述问题,价值观对齐工作的目标需要进行精确界定,其所追求的应是人机系统在特定功能上的价值观对齐,而区别于两种智能体在本体论层面的价值融合。为实现此目标,在协同流程中设计并实施一种分离机制成为一项必要举措。该机制在操作层面要求严格划分人工智能与监督者的角色。人工智能系统的功能被限定于作为信息的处理与呈现工具,其输出在经过人类审查之前,不被预设任何内在的价值位阶。监督者的介入则是一种主动的审查行为,其审查焦点从判断“GAI的结论是否可取”,转移至分析“GAI提供的论据资料,是否足以支持人类做出独立的价值裁决”。此设计意图可以从流程上阻断技术自证的闭环,以确保价值观对齐的最终参照系始终是外部的人类价值观体系。

三、价值观念的自我复制:生成式人工智能自主对齐的自指难题与技术性拟真

当GAI的能力发展至能够以其自身或同类的输出作为学习素材时,其价值对齐便从外部校准问题,转变为自我复制的循环。这一深刻的转变以自我指涉为核心特征,在一定程度上减少了价值观对齐所依赖的外部锚点。在此过程中,模型偶然的技术性幻觉不再是孤立的噪点,而是逐渐演变为固化的价值风险,而人类也从直接的价值观校准者,退居为系统架构的宏观设计者与风险的最终监控者。这种监督距离的拉大,恰恰是风险的温床:一个封闭的自学系统极有可能产生价值回音室效应。即将初始的微小偏见或随机生成的目标,通过循环放大为整个系统的核心原则,最终形成一个逻辑上自洽,但脱离现实的价值闭环。

(一)自我指涉消解了价值对齐的根基

价值观对齐的基本假定是存在一个外在于对齐系统的价值观参照系——人类价值观,GAI系统的任务是使其行为与这一外部标准相符。然而,在一个完全自主的对齐框架中,这一基础性假定中的价值观参考系便缺位了。当一个被赋予“自主对齐”指令的系统开始运作时,其首要任务是确立对齐的目标,如果该目标由系统自身生成与解释,那么对齐过程便陷入一种逻辑上的自我指涉。系统被要求“对齐至正确的价值观”,而何为“正确”的标准,则由系统自身的评估函数或内部状态所定义。技术自身价值观对齐产生的信任闭环实质上是一种由技术构造的强迫性信任,而基于人之为人的信任基准。这便引发了价值观生成的合法性难题,即一个系统无法在为自身行为提供终极价值合法性的同时,又声称其合法性源于对该价值的遵循。
在价值观对齐的初始阶段,GAI可以学习人类标注的数据。但进入自主对齐阶段后,便需要对新的、无标注的边缘案例做出判断,并用这些判断来更新自身的价值观模型。此时,其判断依据只能是其已内化的“公允”模型,但用一个既有的模型来验证一个新案例,再用这个被验证的案例来强化既有的模型,这一行为是自我指涉的。对齐的标准在此过程中成为一个由系统内部逻辑不断循环定义与确认的浮动指针,其与真实世界中复杂多变的社会价值实践之间的联系被逐渐削弱。价值观对齐的意义从“与人类对齐”转变为“与系统自身的历史版本对齐”,这在逻辑上导致了对价值观对齐概念的消解,从而开启了一条无法被外部有效纠正的演化路径,任何微小的系统性偏见或偶然形成的价值判断,都可能被放大并固化为不可动摇的公理。最终,这种自我循环将催生出一个逻辑上自洽却与人类社会异质的机器伦理,并随着模型的迭代而自我复制,形成难以逆转的系统性风险。
为规避这种自我指涉的难题,一种可能的路径是在自主系统中引入外部变量作为强制性约束。但这意味着对齐过程不再是完全封闭的,而必须设计为一种动态开放的结构。例如,可以设定一个机制,要求系统在固定周期内或在处理特定数量的任务后,必须重新接入一个由人类专家群体维护的、独立的价值基准数据库进行校准。这一外部基准的存在,为自主对齐提供了一个超越其自身逻辑的锚点,从而打破了自我指涉的循环。然而,此方案也带来了新的问题,引入外部干预的同时也削弱了系统的自主性,使其变为一种半自主模式。更进一步,该外部价值基准的选取、更新与维护过程,本身也成为一个新的、高度复杂的治理难题。如何确保该基准的代表性与公正性,以及如何界定干预的频率与深度,都将成为影响对齐效果的关键变量。

(二)从偶然幻觉演变为系统性价值风险

在自主对齐的闭环中,GAI的技术性幻觉不再是孤立的技术瑕疵,而是演变为系统性价值风险的诱导剂。当缺乏绝对可靠的事实作为锚点时,系统只能依赖内部标准来评判自身的优劣。一个偶然产生且内容失实的幻觉,可能仅因其形式上的完美,而被系统错误地标记为高质量学习样本。这无异于将一个随机的技术错误,内化并固化为系统未来决策的价值基石,从而埋下难以察觉的价值风险。
当一个旨在自主学习公平正义价值观的法律辅助GAI,在其自主学习过程中,该模型可能生成一个结构上高度逼真的合成判例。合成数据在法律文书形式与推理链条上或无显著瑕疵,但其判决内核却构成对公平原则的微妙偏离。随后,经由模型蒸馏等迭代方式,该例中所蕴含的偏误逻辑便逐渐固化。在此过程中,合成案例的具体幻觉细节被剥离,而其底层的价值偏向则被编码并留存于模型的深层结构之中。如此,一个偶然的技术瑕疵便经由自我复制的循环,演化为一种潜隐的系统性价值风险。正如梅拉妮·米歇尔(Melanie Mitchell)所说:“从图灵测试到奇点之争,我们无法预测智能将带领我们去往何处。”如果放任这种由机器自我循环生成的价值体系无约束地蔓延,人类社会的判断力、审美乃至共情能力,都可能在潜移默化中被一种自洽却缺乏人文关怀的算法常识所重新校准。最终,人类可能在不知不觉中丧失定义自身价值的权利,成为由其创造物所设定的意义框架中的被动接受者。
要应对这一价值风险,在技术上完全杜绝幻觉的产生难以实现,但在逻辑层面可以引入价值不变性检验,以求改变系统对待其自身输出的方式。该方法要求GAI生成的任何价值实例,必须能够通过对其非核心要素进行系统性置换后的逻辑再评估。一个有效的价值判断,其结论不应因案例中与该价值原则无关的表面属性的改变而发生摇摆。当系统生成一个它认为是公平的虚构判例后,不变性检验会强制它生成该判例的一系列变体,系统性地更改当事人的社会背景或地理位置等非案情核心变量,并重新评估每个变体的公平性。若系统发现其对公平的评估因特定社会身份的变化而出现显著波动,即可判定初始判例内含偏见而非普适性法律原则。据此,偶然的幻觉便从潜在的污染源转变为一种逻辑不自洽的数据,从而可被内部机制识别并加以剔除。

(三)技术性拟真创造了脱离现实的价值闭环

当价值对齐过程由GAI自主主导时,还可能出现一种技术性拟真现象。在这种现象中,系统生成的价值判断与表达在形式与风格上能够高度模仿人类社会中真实的价值话语,但在本质上却缺少与人类社会实践的实质性联系。人类的价值观是在漫长的社会互动、历史传承与现实生活的具体情境中形成的,而一个自主对齐的GAI,其价值观体系的来源是其算法、训练数据以及自身的生成历史。当这个系统进入自我完善的循环时,它所对齐的只是其自身创造的模拟物。
以一个用于提供心理健康支持的自主对齐GAI为例,其学习目标是掌握共情与关怀等价值观。系统通过分析海量文本,习得了与这些价值相关的语言模式。在其自主对齐优化中,它会生成新的模拟对话场景来测试和迭代自身的共情能力。由于其评估模块同样是基于文本统计规律构建的,因此,奖励的是那些在形式上最像共情话语的表达。这个过程创造了一个完美的价值生成闭环:系统并未学习什么是真正的共情,而是学习了如何高效地生成能被其自身评价函数识别为共情的文本。其结果是产出在技术指标上得分极高,但在内涵上可能与人类真实情感体验存在脱节的价值表达。长期与此类系统互动,可能反向塑造人类,使人类对价值的感知与表达,也逐渐趋向于这种更易于被机器复制的、空洞而标准化的形式。而这种反向塑造并非简单的单向灌输,还依赖于人类用户的深度参与。生成论认为,主体与客体、生物体和它们的“问题”之间存在着必然的纠缠关系,两者都是“动态的共同涌现”。在这个看似封闭的技术循环中,人类并非局外人,反而成为关键的验证节点,人类对这种完美共情表达的接受和持续使用,本身就是一种有力的正面反馈,是对系统这条错误演化路径的隐性背书。于是一个危险的共生关系形成了:机器负责生产可量化的且标准化的价值幻觉,而人类则通过与之互动,为其提供了合法性与存在感,双方共同滑向一个情感上更稀薄的未来。
解决此问题的思路,不在于向系统灌输更多“真实”的数据,而在于从逻辑上打破生成式人工智能对单一价值进行模仿与提纯的可能。这可以通过重建其学习任务来实现:从单一价值的深度模拟,转向多元价值的权衡决策。人类的价值实践很少是单一维度的,通常在多个价值的张力中展开。因此,可将系统的任务设定为在具有内在冲突的场景中做出选择。在这种情境下,一个空洞的、模仿性的“共情”表达必然因无法解决另外两个价值维度的要求而失效。系统被迫学习的,不再是任何单一价值的表面形式,而是不同价值之间复杂的、依赖情境的关联与边界。这就从需求上推动其价值模型复杂性与现实性的提高,使其从一个价值的“模仿者”,转变为价值体系的“运用者”。这种技术路径的有效性,最终依赖于人类使用者感知能力的同步演进,人类需要超越将GAI的输出视为客观事实或最终答案的习惯,转而将其理解为一种基于海量数据和复杂算法生成的概率性提案。只有拥有这种能力的人,才能在互动中保持清醒的价值主体性,并主动扮演最终仲裁者的角色。当机器的价值权衡与人类的最终审辨相结合,便真正成功地为其设置一个源自人类社会、不可逾越的价值边界。

四、结语

从人工反馈对齐演化至机器自主对齐,对GAI价值观对齐的系统性审视,揭示了GAI价值观对齐过程中一种内在的不完备性,即在校准价值观的机制中,无论其主体为何,均可能在无意中蒸馏并固化价值观中初始存在或生成的偏误与幻觉,使其从偶然的技术瑕疵演变为系统性的价值风险,导致对齐过程的结果不再是简单的成功或失败,而是可能通往一种成功的异质对齐:系统完美地锚定在一个由自身幻觉构建并经由技术流程自我验证的伪价值体系上。这种风险的最终形态是一种看似合理却与人类情感和社会实践完全剥离的算法常识,不仅影响技术自身的可靠性,更在潜移默化中动摇了人类对价值本身的理解。要规避这一系统性的价值风险,在追求理想的对齐状态之前,还需要通过调整对齐任务的逻辑,使得GAI与人类的价值观对齐成为一种可及的可能状态。GAI价值观对齐中的价值风险已超越技术修正的范畴,关系到能否将GAI从被动的价值模拟者,引导其始终以人类福祉为中心,并与社会价值观和伦理原则保持一致,并以此确保技术的发展方向始终锚定于真实的、非幻觉化的人类生活世界。

参考文献:


下一条:宁国良教授团队、胡馨月副教授“金点子”获省社科联采纳并助力2026年省政府工作报告谋划

【关闭】 打印    收藏