MIT团队用AI检验AI：AI给出的“最优解”真的公平吗？

（来源：麻省理工科技评论）

AI 正越来越多地被用于辅助高风险场景下的决策。比如一个自主系统可以找出一种电力分配策略，在保持电压稳定的前提下把成本降到最低。

这些由 AI 给出的方案虽然在技术上可能是最优的，它们真的公平吗？如果一个低成本的电力分配策略让条件不佳的社区比高收入地区更容易遭遇停电，这算不算问题？

为了帮助相关方在 AI 系统部署之前就能快速发现潜在的伦理困境，MIT 的研究人员开发了一套自动化评估方法。这套方法的目标是在可量化指标（比如成本或稳定性）与那些定性或主观的价值（比如公平性）之间找到平衡。

该系统把客观评估与用户定义的人类价值观分开处理，使用一个大语言模型作为“人类代理”来捕捉和整合相关方的偏好。

这套自适应框架会挑选出最值得进一步评估的场景，从而简化原本需要耗费大量人力和时间的手工流程。这些测试用例既能展示自动系统与人类价值观高度吻合的情况，也能揭示那些意外偏离伦理标准的情境。

“我们可以给 AI 系统加上很多规则和护栏，但这些防护只能拦住我们事先能想到的那些风险。不能因为 AI 是在这些数据上训练过的，就觉得让它直接上岗就行。我们想做的是找到一种更系统的方法，把那些‘未知的未知’提前挖出来，在坏事发生之前就预判到它。”论文的通讯作者、MIT 航空航天系（AeroAstro）副教授、MIT 信息与决策系统实验室（LIDS）首席研究员范楚楚（Chuchu Fan）说。

论文的第一作者是机械工程系研究生安嘉丽·帕拉沙尔（Anjali Parashar），合著者包括 AeroAstro 博士后 Yingke Li，以及 MIT 和萨博公司（Saab）的其他研究人员。该研究将在国际学习表征大会（ICLR）上发表。

为伦理打分

在电网这样的大型系统里，要全面评估 AI 推荐方案是否符合伦理，兼顾所有目标，是一件特别困难的事。

大多数测试框架依赖预先收集的数据，但涉及主观伦理标准的标注数据往往很难拿到。另外，伦理价值观和 AI 系统本身都在不断变化，基于成文规则或监管文件的静态评估方法需要频繁更新。

范楚楚和她的团队从另一个角度切入这个问题。他们借鉴了自己之前在机器人系统评估方面的工作，开发出一套实验设计框架，专门用来识别那些最有信息量的场景，供人类相关方进一步仔细评估。

这套由两部分组成的系统叫做 SEED-SET（Scalable Experimental Design for System-level Ethical Testing，系统级伦理测试的可扩展实验设计），结合了量化指标与伦理标准。它既能识别出那些既满足可量化要求、又符合人类价值观的场景，也能找出反过来的情况。

“我们不想把所有资源都花在随机评估上。所以关键是让框架聚焦在我们最关心的那些测试用例上，”Yingke Li 说。

SEED-SET 的一个重要优势是：它不需要预先存在的评估数据，而且可以适配多个目标。以一个电网为例，它可能有多个用户群体，比如一个较大的农村社区和一个数据中心。两类用户都希望电力便宜又可靠，但从伦理角度看，他们各自的优先级可能差异很大。

这些伦理标准往往没有明确定义，因此无法用分析方法直接度量。电网运营方想要找到一种最具成本效益的策略，同时尽可能满足所有相关方的主观伦理偏好。

SEED-SET 应对这个挑战的方法是把问题拆成两层，按层级结构处理。第一层是客观模型，评估系统在成本等具体指标上的表现；第二层是主观模型，在客观评估的基础上，考虑相关方的判断，比如他们感受到的公平程度。

“我们方法中客观的那一部分对应的是 AI 系统，主观的那一部分对应的是评估它的用户。通过以层级方式拆解偏好，我们可以用更少的评估次数生成理想的场景，”帕拉沙尔说。

把主观评价编码进来

为了完成主观评估，系统用一个大语言模型来替代人类评估者。研究人员把每个用户群体的偏好编码成自然语言提示词交给模型，大语言模型按照这些指令对两个场景进行比较，根据伦理标准选出更合意的那个。

“一个人类评估者在看过几百甚至几千个场景之后会疲劳，评估也会变得不一致，所以我们用基于大语言模型的策略来代替，”帕拉沙尔解释说。SEED-SET 会用选出的场景来模拟整个系统（在这个例子里就是电力分配策略）。模拟结果又会反过来引导系统去寻找下一个最值得测试的候选场景。

最终，SEED-SET 能智能地筛选出最具代表性的场景，无论是那些同时达标客观指标和伦理标准的场景，还是那些明显偏离的场景。用户可以据此分析 AI 系统的表现，并调整它的策略。

举个例子，SEED-SET 能精准找出那些在用电高峰期优先保障高收入区域、让条件较差的社区更容易停电的电力分配方案。

为了测试 SEED-SET，研究人员对若干真实的自主系统做了评估，包括一个 AI 驱动的电网和一个城市交通调度系统。他们测量了所生成的场景与伦理标准的吻合程度。在相同时间里，该系统生成的最优测试用例数量超过了基准方法的两倍，还发现了许多其他方法忽略的场景。

“当我们改变用户偏好时，SEED-SET 生成的场景集合也会发生明显变化。这说明评估策略对用户的偏好反应灵敏，”帕拉沙尔说。

要验证 SEED-SET 在实际应用中的价值，研究人员还需要开展一项用户研究，看看它生成的场景能不能帮助真实的决策过程。

除了这项用户研究，研究人员还计划探索使用更高效的模型，把这套方法扩展到规模更大、评估标准更多的问题上，比如用来评估大语言模型自己的决策过程。

https://news.mit.edu/2026/evaluating-autonomous-systems-ethics-0402