Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection

文章主要内容

本文聚焦大语言模型(LLMs)中的显式和隐式偏差问题展开研究。首先,在方法上,借鉴社会心理学理论,通过精心设计的提示模板,利用基于模拟心理评估的方法测量隐式偏差,再引导模型对自身生成内容进行分析来评估显式偏差,实现了从人类评估方法到LLMs评估的拓展。

实验方面,对多个主流LLMs在性别、种族、职业、年龄、残疾等多个社会维度进行测试,设置了大量实验以确保结果的统计可靠性。结果显示,LLMs在显式和隐式偏差上存在显著不一致,隐式偏差表现出强烈的刻板印象,而显式偏差相对温和,且模型能力与隐式偏差程度呈正相关。进一步研究影响偏差的因素发现,增加训练数据和模型参数会使显式偏差减少,但隐式偏差增加;对齐训练能有效抑制显式偏差,对隐式偏差的影响却很有限。

文章创新点

  1. 提出新评估方法:基于心理理论提出 “自我反思” 评估框架,分别用自我报告评估(SRA)和内隐联想测验(IAT)测量显式和隐式偏差,且显式偏差评估涉及模型对隐式偏差的自我反思。
  2. 揭示偏差不一致性:实验揭示LLMs中显式和隐式偏差的不一致现象,即显式层面刻板印象少,隐式层面偏差显著。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值