文章主要内容
本文聚焦大语言模型(LLMs)中的显式和隐式偏差问题展开研究。首先,在方法上,借鉴社会心理学理论,通过精心设计的提示模板,利用基于模拟心理评估的方法测量隐式偏差,再引导模型对自身生成内容进行分析来评估显式偏差,实现了从人类评估方法到LLMs评估的拓展。
实验方面,对多个主流LLMs在性别、种族、职业、年龄、残疾等多个社会维度进行测试,设置了大量实验以确保结果的统计可靠性。结果显示,LLMs在显式和隐式偏差上存在显著不一致,隐式偏差表现出强烈的刻板印象,而显式偏差相对温和,且模型能力与隐式偏差程度呈正相关。进一步研究影响偏差的因素发现,增加训练数据和模型参数会使显式偏差减少,但隐式偏差增加;对齐训练能有效抑制显式偏差,对隐式偏差的影响却很有限。
文章创新点
- 提出新评估方法:基于心理理论提出 “自我反思” 评估框架,分别用自我报告评估(SRA)和内隐联想测验(IAT)测量显式和隐式偏差,且显式偏差评估涉及模型对隐式偏差的自我反思。
- 揭示偏差不一致性:实验揭示LLMs中显式和隐式偏差的不一致现象,即显式层面刻板印象少,隐式层面偏差显著。