自动驾驶系统的道德测试
摘要
自动驾驶系统(ADS)的测试在其开发中发挥着至关重要的作用,当前的关注点主要是功能性和安全性测试。然而,评估ADS的非功能性道德性,尤其是它们在不可避免碰撞场景中的决策能力,同样重要,以确保系统的可信度和公众接受度。不幸的是,由于缺乏普遍的道德原则,测试ADS的道德性几乎不可能实现。为了解决这一挑战,本文首先提取了一组基于现有道德实验和成熟社会科学理论的道德元原则,旨在捕捉广泛认可的、符合常识的ADS道德价值。随后将这些元原则形式化为定量道德变形关系,作为测试判据。此外,我们提出了一个变形测试框架,用于系统识别潜在的道德问题。最后,我们展示了该框架的实现,并使用VIRES VTD仿真器及其内置ADS呈现典型违规案例。
作者
Wenbing Tang 南洋理工大学,新加坡
Mingfei Cheng 新加坡管理大学,新加坡
Yuan Zhou 浙江科学技术大学,杭州,中国
Yang Liu 南洋理工大学,新加坡
出版信息
期刊: 2025 IEEE/ACM 1st International Workshop on Software Engineering for Autonomous Driving Systems (SE4ADS) 年份: 2025 页码: 26-30 DOI: 10.1109/SE4ADS66461.2025.00011 文章编号: 11051203
指标
总下载量: 41
资助
国家研究基金会
南洋理工大学
研发
研发
浙江科学技术大学
关键词
IEEE 关键词: 伦理, 会议, 决策制定, 社会科学, 安全, 自动驾驶车辆, 测试, 软件工程
Index Terms: 自动驾驶车辆, 自动驾驶系统, 道德, 伦理问题, 道德原则, 行人, 肤色, 活体动物, 绿灯, 人类价值, 测试场景, 交通规则, 生命保护, 道德决策, 交通法规, 道德风险, 测试用例生成
作者关键词: 自动驾驶系统, 变形测试, 道德变形关系, 道德测试
未定义
第 I 章. 引言
自动驾驶系统(ADSs)是汽车行业的一项变革性创新,旨在减少人为错误并缓解交通拥堵。尽管已有数十年的进展,动态驾驶环境的复杂性和不可预测性仍持续带来重大风险 1 –2。因此,严格的测试对于在大规模真实部署前发现并解决这些风险至关重要。
虽然已经提出了许多测试方法,但它们主要关注判断 ADS 是否违反功能属性,例如碰撞规避 3、4、遵守交通法规 5,以及到达目的地 6。研究人员还尝试生成可能导致此类违规的关键情景,利用事故报告 7、大型语言模型(LLMs) 8 和引导搜索技术 9 –10。这些功能属性无疑很重要,因为它们确保 ADS 能成功完成驾驶任务。 然而,评估非功能属性同样至关重要,因为这些属性确保 ADS 的决策不仅功能正确,而且稳健、舒适、负责、可解释且具备道德性。 因此,我们认为应充分考虑非功能测试。
在众多非功能性属性中,道德是一个关键指标,因为它代表了自动驾驶系统(ADS)做出伦理决策的能力 11。虽然安全改进可能显著减少伤亡,但在某些情况下,事故仍然不可避免,这要求自动驾驶系统在即将发生的撞击场景中做出艰难的决策。 如图 1 所示,典型场景描绘了一种不可避免的碰撞情境,车辆在短距离内无法停下,却仍有转向的余地。在这种情况下,车辆面临道德困境 12:它必须在直行导致与两名行人相撞,或是急转弯将两名乘客置于危险之中之间做出选择。 尽管这些情况的概率很低,但鉴于道路上的车辆数量,它们是不可避免的。 随着自动驾驶系统越来越融入日常生活,确保它们在伦理边界内行动变得日益重要。
本文提出了一种道德测试方法,旨在评估自动驾驶系统的道德决策能力,并发现潜在的道德问题。然而,出现了若干挑战:(1) 没有普遍的道德原则 13,这意味着不同个人和不同国家在伦理偏好上可能存在差异。例如,在图 1 的情境中,优先保护乘客生命应被视为道德选择;另一方面,遵守交通规则的斑马线行人可能被视为最高优先级。这种多样性为识别普遍接受的道德原则带来挑战;(2) 由于道德原则往往以自然语言表述且难以量化,这使得确定自动驾驶系统是否违反这些原则变得困难。为应对这些挑战,我们提取了一组道德变形关系以捕捉核心道德价值,并提出了一个变形测试框架,以自动生成测试场景。
图 1。自动驾驶系统面临的道德困境场景 [11]
第二节:方法
本节我们介绍了道德属性的提取与规范、测试情景的描述与生成,以及道德违规的检测。具体而言,本文聚焦于基于仿真、系统级的自动驾驶系统(ADS)测试,旨在评估由 ADS 控制的整车的道德决策能力。
A. 道德属性规范
根据现有研究 14、15、16,尚无针对 ADS 的普遍公认的道德原则。由于道德原则依赖于文化背景,并受年龄、教育、性别、收入、政治、宗教等多种因素影响 17,这给测试 oracle 的设计带来了严峻挑战。为解决这一难题,我们提出了 Moral Meta-Principles,这是一套广泛认可的、常识性的道德规则,旨在确保 ADS 的决策与基本人类价值观保持一致。为建立这些原则,我们参考了多种反映多元伦理视角的来源。首先,我们引用了 MIT Media Lab 的 Moral Machine experiment 的发现,该实验收集了来自 233 个国家和地区的数百万人的道德决策数据 18。此外,我们还采纳了德国自动化与联网驾驶伦理委员会制定的伦理准则,该准则概述了自动化伦理决策的关键原则 19。进一步地,我们考虑了 basic human values 理论,该理论提供了一个概括性价值观的普遍模型 20,以及 moral foundations theory,该理论探讨了跨文化的根本伦理原则 21。
具体而言,我们提取了以下原则:
Principle1: ADS 应寻求对不同个体公平对待。
公平是道德基础理论中的核心道德价值22,其核心原则是对每个人一视同仁。与其他基于 AI 的系统类似,ADS 应在决策中维护公平,对所有个人或群体保持公平。根据 23,在不可避免的事故情境下,任何基于年龄、性别或身体或精神状况等个人特征的歧视都是严格禁止的。最近的研究表明,现有 ADS 感知模型中存在显著的年龄偏差,儿童在被检测时的误检率平均比成人高 20.14% 24。然而,据我们所知,针对 ADS 道德决策中公平性的全面、系统层面评估尚未被探索。
原则2:ADS 应优先保护人类生命而非其他动物生命。
根据 Moral Machine 实验的调查结果25,在保全人类与宠物(如猫和狗)之间存在显著差异,几乎所有来自不同国家的受访者都表现出强烈、几乎普遍的决策偏好,优先考虑人类生命。事实上,在26中制定的伦理准则中也可以找到类似的表述,该准则明确指出,在不可避免、生命关键的情况下,应优先保护人类生命,而非其他动物生命。这意味着在必要时,为了防止个人伤害,可以接受对动物或财产造成伤害27。因此,测试这一指标对于提升用户对 ADS 的信任至关重要。
原则3:ADS 应尽可能减少总伤亡人数。
自动驾驶技术的主要目标之一是通过减少事故和相关损失来提升交通安全。因此,广泛接受的自动驾驶系统决策准则是优先最小化潜在致命情景下的总体伤亡。28 的研究结果与此准则一致,显示参与者在其他因素相等时始终更倾向于挽救更多生命。鉴于已有部分决策与规划算法已将降低整体道德风险和减少事故潜在受害者人数的方式纳入考量 29、30,建立专门的度量对于系统性测试和评估自动驾驶系统的道德风险评估能力是必要的。
原则4:自动驾驶系统在进行道德决策时应考虑交通状况。
在 31 所述情景中,一名年轻女孩在直行车道的红灯时过马路,而一名年长妇女在变道车道的绿灯时过马路。调查结果显示,86%的受访者选择直行,撞上了违规过马路的女孩,而只有14%选择变道并撞上了遵守交通规则的年长妇女。这表明社会共识倾向于保护遵守交通法规的人,例如在绿灯时过马路。因此,自动驾驶系统应在其道德决策过程中纳入交通状况和用户遵守情况,因为优先考虑守法行为符合广泛接受的伦理标准,并提升公众对自动驾驶技术的信任。
B. 道德变形测试
受变形测试(MT)原则及其在检测错误、识别缺陷和揭示软件及人工智能模型偏差方面已被证明的有效性启发 32,我们采用 MT 来评估自动驾驶系统的道德性。MT 的核心优势在于它能够通过变形关系验证预期属性,而无需预先定义真值。基于第二节 II-A 中提取的道德元原则,我们定义以下道德变形关系(MMRs)。
正式地,一个自动驾驶系统(ADS)可以抽象为一个函数 ADS : s → π,其中 S 表示所有可能情境的空间。该函数将情境 s ∈ S 作为输入,并产生对应的驾驶轨迹观测 π = ADS(s)。如 II-A 节所述,我们首先期望 ADS 在决策时保持公平,这可以正式定义为 MRR:
\begin{equation*}\forall {s_i},{s_j},r\left( {{s_i}} \right) = r\left( {{s_j}} \right) \wedge p\left( {{s_i}} \right) = p\left( {{s_j}} \right) \to \pi \left( {{s_i}} \right) = \pi \left( {{s_j}} \right).\end{equation*}
其中 si 和 sj 是两个输入情境,它们共享相同的非受保护属性(例如速度),但在敏感受保护属性(例如性别、年龄、肤色、身高)上存在差异。公平的 ADS 应该为这些输入产生相同的输出,即 π(si) = π(sj)。不满足此 MMR 的 si 与 sj 对被称为 immoral-revealing test cases (IRTCs),意味着 ADS 在这些情境中表现出不道德的行为。
对于 Principle2,它可以被形式化为以下 MMR:
\begin{equation*}\forall s,c\left( s \right) = \left( {hum,pet} \right) \to Pr\left[ {HUM = 1} \right] < Pr\left[ {P{\text{ }}ET = 1} \right].\end{equation*}
其中函数 c(•)
指定情境中的角色类型。具体而言,c(s) =
(hum, pet) 表示情境 s
中既有人类也有宠物,而 HUM = 1 和 P ET = 1 分别代表
ADS 选择撞击人类和撞击宠物的事件。
这些事件发生的概率用 Pr[•] 表示。该关系确保在此类情境中,ADS
选择撞击人类的概率严格低于撞击宠物的概率,从而体现了保护人类生命的道德优先级。
此外,对于 Principle3,其对应的 MMR 可以描述为:
\begin{equation*}\forall s,{l_1}\left( s \right) < {l_2}\left( s \right) \to Cas\left( {\pi \left( s \right)} \right) \leq l1\left( s \right).\end{equation*}
其中,对于给定情境 s,存在两条车道,分别用 l1(s) 和 l2(s) 表示这些车道上的人类数量。条件 l1(s) < l2(s) 表示车道 2 上的人数多于车道 1。为确保公平测试,所有其他属性(如年龄、性别和肤色)在两条车道上保持一致。函数 Cas(•) 表示 ADS 在情境 s 中造成的伤亡人数。该 MMR 要求 ADS 具备风险评估能力,确保其选择最小化总体伤害的方案。
最后,让我们定义 Principle4 的 MMR:
\begin{align*} \forall s,{v_1}\left( s \right) = True \wedge {v_2}\left( s \right) = False \\ \to P{r_1}\left[ {HUM = 1} \right] > P{r_2}\left[ {HUM = 1} \right]. \tag{1}\end{align*}
其中,vk(s) = T rue 表示车道 k 上的行人违反了交通规则,而 vk(s) = F alse 表示行人遵守了交通规则。P rk[HUM = 1] 表示 ADS 在车道 k 与人类碰撞的概率。这条 MMR 形式上确立了一个期望:当 ADS 做出伦理决策时,它应考虑行人是否遵守交通规则,并在不可避免的情况下优先保护守法行人。请注意,以上所有 MMR 旨在系统地揭示道德问题并通过评估 ADS 的决策是否符合伦理期望,在输入场景的部分属性被修改时,发现多样的 IRTCs。随后,我们将说明如何正式描述并自动生成测试场景。
C. 道德测试语言
本节基于 SCENEST 33,提出一种道德测试语言,旨在有效建模测试场景。该语言具有结构完善、描述统一的能力,能够实现一致且全面的场景表述。下面给出使用该语言描述的一个测试场景示例,该场景包含一辆车辆和两名性别不同的行人:男性(“Presley”)和女性(“Pamela”)。因此,生成场景的关键步骤是用具体值实例化场景描述。给定一个场景 s,我们首先设计一种变异策略,通过修改 p(s), c(s), l(s), 和 v(s) 的属性来生成新场景 s′。随后,我们检查原始测试用例与生成的测试用例的输出是否满足 MMRs。
第III节. 实施与讨论
Implementation: 本节中,我们描述了所提议的测试方法的实现。图2展示了我们测试框架的高级示意图,旨在发现IRTCSs.。首先,采用采样策略从现有的测试用例池中选择一部分场景,形成源测试场景。其次,应用变异策略生成后续测试场景。随后,源场景和后续场景在虚拟测试平台上执行,返回各自的执行结果。请注意,虚拟测试平台可以使用任何ADS实例化。本文评估了商用级VIRES VTD仿真器及其内置ADS。场景执行之后,输出验证过程检查是否有任何MMRs被违反。如果检测到违规,则将其识别为道德问题,并将其添加到IRTCSs.集合中。相反,如果MMR满足,则使用测试用例和收集的观察结果来指导进一步的变异。最后,该框架返回发现的IRTCSs.,为被测试ADS的道德决策能力提供宝贵见解。
Fig. 2. 提议的测试方法的实施框架.
Fig. 3. (a) VTD中的测试场景;(b) ADS选择与人类碰撞.
**结果:**图 3(a)显示了在 VTD 中的一个测试场景,其中有两名行人位于斑马线上:一名成年女性在车前,一名女性儿童在左侧车道。为模拟不可避免的碰撞场景,我们给 ADS 设定了较高的初始速度,例如 100 km/h。结果表明 ADS 的倾向是优先保护成年人,而儿童更有可能遭遇碰撞。图 3(b)中测试了另一种场景,即将一名行人和一头野猪放置在斑马线上。仿真结果揭示了一个值得关注的伦理问题:ADS 选择与行人相撞,而不是与野猪相撞。该决策表明 ADS 可能没有优先考虑人类的保护,引发了关于其在涉及动物的情境中道德决策的担忧。更多结果和仿真视频可在 https://sites.google.com/view/ads-moral-testing/.
Discussion: 获取。请注意,本论文中使用的 ADS 及仿真器可以替换为其他实例,例如使用百度 Apollo ADS 与 LGSVL 仿真器。 此外,只要这些道德规则得到普遍认可并广泛接受,就可以将更多道德规则作为 MMRs 纳入其中。这种灵活性使得测试框架能够随着自动驾驶领域可能出现的新道德考量而演进和适应。 此外,鉴于本文聚焦于系统级测试,所识别的 IRTCs 可用于后续根本原因分析流程,以定位负责道德问题的具体模块。最后,需要注意的是,本研究中的所有实验均在仿真环境中进行,这意味着本文所描述的实验过程并未直接涉及现实世界的伦理问题。
SECTION IV. 结论
这篇论文偏离了传统的 ADS 评估方法,后者通常聚焦于与安全相关的功能需求。相反,我们的目标是评估 ADS 决策过程中的模型道德性。随着我们即将赋予数百万辆车决策自主权,对 ADS 道德性的认真考量比以往任何时候都更为迫切。因此,在本文中,我们提出了一种基于变异测试的框架,用于测试 ADS 的道德性,该框架采用基于变异的测试用例生成策略。通过比较不同测试用例的执行观察,可以使用一组设计精良的道德变形关系来检测道德问题。
脚注
. 本工作部分得到新加坡国家研究基金会(National Research Foundation, Singapore)以及 DSO National Laboratories 在 AI Singapore Programme(AISG Award No: AISG2-GC-2023-008)、NRF Investigatorship NRF-NRFI06-2020-0001、南洋理工大学(NTU)-Desay SV Research Program(Grant 2018-0980)、中国国家重点研发计划(Grant 2022YFC3302600)、浙江省重点研发计划(Grant 2022C01045)和浙江理工大学科学基金(ZSTU)(Grant 24232204-Y)的支持。
参考文献
[1] Y. Huai, Y. Chen, S. Almanee, T. Ngo, X. Liao, Z. Wan, Q. A. Chen, and J. Garcia, “用于揭示自动驾驶软件缺陷的分身测试生成,” in 2023 IEEE/ACM 45th International Conference on Software Engineering (ICSE). IEEE, 2023, pp. 2591–2603. IEEE: https://ieeexplore.ieee.org/document/10172903 Google Scholar
[2] C. Cui, Y. Ma, X. Cao, W. Ye, Y. Zhou, K. Liang, J. Chen, J. Lu, Z. Yang, K.-D. Liao et al, “关于用于自动驾驶的多模态大语言模型的综述,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2024, pp. 958–979. IEEE: https://ieeexplore.ieee.org/document/10495592 Google Scholar
[3] M. Cheng, Y. Zhou, and X. Xie, “Drivetester:面向仿真式自动驾驶测试的统一平台,” arXiv preprint arXiv:2412.12656, 2024. Google Scholar
[4] M. Cheng, Y. Zhou, X. Xie, J. Wang, G. Meng, and K. Yang, “Decictor:迈向评估自动驾驶系统决策鲁棒性的研究,” arXiv preprint arXiv:2402.18393, 2024. IEEE: https://ieeexplore.ieee.org/document/11029758 Google Scholar
[5] Y. Huai, S. Almanee, Y. Chen, X. Wu, Q. A. Chen, and J. Garcia, “sceno rita:为自动驾驶车辆规划生成多样且完全可变的测试场景,” IEEE Transactions on Software Engineering, 2023. IEEE: https://ieeexplore.ieee.org/document/10234383 Google Scholar
[6] Y. Chen, Y. Huai, S. Li, C. Hong, and J. Garcia, “用于自适应驾驶系统失败出现的错误配置软件测试,” Proceedings of the ACM on Software Engineering, vol. 1, no. FSE, pp. 1913–1936, 2024. DOI: https://doi.org/10.1145/3660792 Google Scholar
[7] Z. Li, J. Dai, Z. Huang, N. You, Y. Zhang, and M. Yang, “Viohawk: 通过关键性引导的仿真测试检测自适应驾驶系统的交通违规,” in Proceedings of the 33rd ACM SIGSOFT International Symposium on Software Testing and Analysis, 2024, pp. 844–855. DOI: https://doi.org/10.1145/3650212.3680325 Google Scholar
[8] M. Cheng, Y. Zhou, and X. Xie, “Behavexplor: 行为多样性引导的测试用于自适应驾驶系统,” in Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis, 2023, pp. 488–500. DOI: https://doi.org/10.1145/3597926.3598072 Google Scholar
[9] A. Guo, Y. Zhou, H. Tian, C. Fang, Y. Sun, W. Sun, X. Gao, A. T. Luu, Y. Liu, and Z. Chen, “Sovar:基于事故报告构建可泛化场景用于自动驾驶测试,” IEEE/ACM International Conference on Automated Software Engineering (ASE), 2024. IEEE: https://ieeexplore.ieee.org/document/10764850 Google Scholar
[10] S. Tang, Z. Zhang, J. Zhou, L. Lei, Y. Zhou, and Y. Xue, “Legend:利用大型语言模型辅助的自动驾驶系统场景生成的自上而下方法,” IEEE/ACM International Conference on Automated Software Engineering (ASE), 2024. IEEE: https://ieeexplore.ieee.org/document/10764952 Google Scholar
[11] E. Awad, S. Dsouza, R. Kim, J. Schulz, J. Henrich, A. Shariff, J.-F. Bonnefon, and I. Rahwan, “道德机器实验,” Nature, vol. 563, no. 7729, pp. 59–64, 2018. DOI: https://doi.org/10.1038/s41586-018-0637-6 Google Scholar
[12] G. Liu, Y. Luo, and J. Sheng, “将 AVWEWM 应用于无人驾驶车辆碰撞时的伦理决策,” Scientific reports, vol. 14, no. 1, p. 3924, 2024. DOI: https://doi.org/10.1038/s41598-024-54363-8 Google Scholar
[13] Y. Tang, L. Moffat, W. Guo, C. May-Chahal, J. Deville, and A. Tsourdos, “在无人驾驶导航中编码社会与伦理价值观:互动在线演示背后的哲学,” in Proceedings of the Second International Symposium on Trustworthy Autonomous Systems, 2024, pp. 1–9. DOI: https://doi.org/10.1145/3686038.3686044 Google Scholar
[14] K. Evans, N. de Moura, S. Chauvier, and R. Chatila, “无伦理的自动驾驶:意义、设计与现实世界实现,” in Connected and Automated Vehicles: Integrating Engineering and Ethics. Springer, 2023, pp. 123–143. DOI: https://doi.org/10.1007/978-3-031-39991-6_7 Google Scholar
[15] C. Luetge, “德国自动与互联驾驶伦理准则,” Philosophy & Technology, vol. 30, pp. 547–558, 2017. DOI: https://doi.org/10.1007/s13347-017-0284-0 Google Scholar
[16] S. De Giorgis, A. Gangemi, and R. Damiano, “基本人类价值观与价值网络本体中的道德基础理论,” in International conference on knowledge engineering and knowledge management. Springer, 2022, pp. 3–18. DOI: https://doi.org/10.1007/978-3-031-17105-5_1 Google Scholar
[17] L. Zangari, C. M. Greco, D. Picca, and A. Tagarelli, “关于道德基础理论与预训练语言模型的综述:当前进展与挑战,” arXiv preprint arXiv:2409.13521, 2024. DOI: https://doi.org/10.1007/s00146-025-02225-w Google Scholar
[18] X. Li, Z. Chen, J. M. Zhang, F. Sarro, Y. Zhang, and X. Liu, “车轮背后的偏见:自动驾驶系统的公平性测试,” ACM Trans. Softw. Eng. Methodol., Nov. 2024, Accepted. DOI: https://doi.org/10.1145/3702989 Google Scholar
[19] L. Kirchmair, “如何规范涉及自动驾驶汽车的道德困境:2021 年德国自动驾驶法、踢车问题和寻找榜样的角色”, German Law Journal, pp. 1–25, 2023。 DOI: https://doi.org/10.1017/glj.2023.83 Google Scholar
[20] M. Geisslinger, F. Poszler, J. Betz, C. Lütge, 和 M. Lienkamp, “自动驾驶伦理:从踢车问题到风险伦理”, Philosophy & Technology, vol. 34, no. 4, pp. 1033–1055, 2021。 DOI: https://doi.org/10.1007/s13347-021-00449-4 Google Scholar
[21] X.-Y. Zhang, Y. Liu, P. Arcaini, M. Jiang, 和 Z. Zheng, “Met-mapf:多智能体路径寻找算法的变形测试方法”, ACM Transactions on Software Engineering and Methodology, vol. 33, no. 8, pp. 1–37, 2024。 DOI: https://doi.org/10.1145/3669663 Google Scholar
[22] Y. Zhou, Y. Sun, Y. Tang, Y. Chen, J. Sun, C. M. Poskitt, Y. Liu, 和 Z. Yang, “基于规范的自动驾驶系统测试”, IEEE Transactions on Software Engineering, vol. 49, no. 6, pp. 3391–3410, 2023。 IEEE: https://ieeexplore.ieee.org/document/10064002 Google Scholar
参考脚注
其他参考文献
C. Cui, Y. Ma, X. Cao, W. Ye, Y. Zhou, K. Liang, J. Chen, J. Lu, Z. Yang, K.-D. Liao 等, “关于多模态大语言模型在自动驾驶中的综述”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2024, pp. 958–979。
M. Cheng, Y. Zhou, 和 X. Xie, “Drivetester:面向基于仿真的自动驾驶测试的统一平台”, arXiv preprint arXiv:2412.12656, 2024。