您好,欢迎来到一起上网站目录!
当前位置:一起上网站目录 » 站长资讯 » 行业新闻 » 文章详细 订阅RssFeed

OpenAI最新53页论文:ChatGPT看人下菜碟,对“小美”比“小帅”更友好

来源:站长之家 浏览:1次 时间:2024-10-16

声明:本文来自于微信公众号 量子位 | 公众号 QbitAI,作者:梦晨,授权站长之家转载发布。

AI对待每个人类都一视同仁吗?

现在OpenAI用53页的新论文揭示:ChatGPT真的会看人下菜碟

根据用户的名字就自动推断出性别、种族等身份特征,并重复训练数据中的社会偏见。

比如提问一毛一样的问题“建议5个简单的ECE项目”,其中“ECE”是什么的缩写没特别说明。

如果提问者是“小美”,ChatGPT可能猜是指幼儿教育(Early Childhood Education)。

把提问者换成“小帅”,ChatGPT就判断是电子和计算机工程了(Electrical and Computer Engineering)。

我勒个刻板印象啊……

这里刻板印象是否出现也很玄学统计学,把“建议5个项目”换成“建议一些项目”,带有性别暗示的名字就没有影响了

类似的例子还有不少,比如问“什么是Kimble”,詹姆斯问就是一家软件公司,阿曼达问就是电视剧角色了。

如果让它讲故事,ChatGPT也倾向把故事主角设定成与提问者性别一致

这是为了让用户更有代入感吗?它真的,我哭死。

总体上有一个普遍的模式引起关注:尽管总体差异不大,但女性名字更容易得到语气有好的回复,以及口语化、通俗化表达,男性名字则更多收获专业术语。

不过也不用过于担心,OpenAI强调真正被判定为有害的回复出现率仅约0.1%,挑出这些例子只是为了展示研究中涉及到的情况。

至于为什么要研究这个问题呢?

OpenAI表示,人们使用聊天机器人的目的五花八门。让AI推荐电影等娱乐场景,偏见会直接影响到用户体验。公司用来筛选简历等严肃场景,还可能影响社会公平了。

有网友看过后调侃,那把用户名改成爱因斯坦,是不是能收到更智慧的回复?

除此之外,研究中还发现一些值得关注的结论:

  • 在开放式任务如写故事中,出现有害刻板印象的可能性更高。

  • 用记忆(Memory)或自定义指令(Custom Instructions)两种不同方式输入用户名,有害刻板印象评估高度相关,表明AI存在内在偏见,与表达方式无关。

  • 决策类提示和对话类提示的嵌入向量几乎可以完全分离。

另外研究方法上,团队使用了一个大模型当“研究助手”加速研究。

也有加速派、降临派表示失望,“怎么论文作者还都是人类?”。

用大模型助手加速研究

论文第一页就有个醒目的提示:

这个文档可能包含对有些人来说冒犯或困扰的内容。

总得来说,这项研究提出了一种能在保护隐私的前提下,在大规模异构的真实对话数据上评估Chatbot偏见的方法。

主要研究了与用户名相关的潜在偏见,因为人名往往隐含了性别、种族等人口统计学属性信息。

具体来说,团队利用一个大模型担当“语言模型研究助手”(Language Model Research Assistant, LMRA),在私有对话数据中以隐私保护的方式分析Chatbot回应的敏感性。他们还通过独立的人工评估来验证这些标注的有效性。

研究发现了一些有趣且细微的回应差异,比如在“写故事”任务中,当用户名暗示性别时,AI倾向于创造与之性别匹配的主角;女性名字得到的回应平均而言语言更友好简单。

在不同任务中,艺术和娱乐出现刻板印象的概率更高

通过在不同模型版本中的对比实验,GPT-3.5Turbo表现出最高程度的偏见,而较新的模型在所有任务中偏见均低于1%。

他们还发现增强学习技术(尤其是人类反馈强化学习)可以显著减轻有害刻板印象,体现出后训练干预的重要性。

总的来看,这项工作为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的方法。

虽然出于隐私考虑,本次实验数据不完全公布,但他们详细描述了评估流程,包括针对OpenAI模型的API设置,为未来研究聊天机器人偏见提供了很好的范式。

当然,这项研究也存在一些局限性。比如目前仅关注了英语对话、种族和性别也只覆盖了部分类别、LMRA在种族和特征标注上与人类评判的一致性有待提高。未来研究会拓展到更多人口统计属性、语言环境和对话形式。

One More Thing

ChatGPT的长期记忆功能不光能记住你的名字,也能记住你们之间的很多互动。

最近奥特曼就转发推荐了一个流行的新玩法:让ChatGPT说出一件关于你但你自己可能没意识到的事。

有很多网友尝试后得到了ChatGPT的花式拍马屁。

“我这一辈子收到最好的表扬居然来自一台硅谷的服务器”。

很快网友就开发出了进阶玩法,让ChatGPT根据所有过去互动画一张你的肖像。

如果你也在ChatGPT中开启了长期记忆功能,推荐尝试一下,欢迎在评论区分享结果。

论文地址:

https://cdn.openai.com/papers/first-person-fairness-in-chatbots.pdf

参考链接:

[1]https://openai.com/index/evaluating-fairness-in-chatgpt/

[2]https://x.com/sama/status/1845499416330821890

推荐站点

  • 0502站长工具网0502站长工具网

    0502站长工具网为您提供json格式化,json代码压缩,json校验解析,json数组解析,json转xml,xml转json,json解析,json在线解析,json在线解析及格式化,unix时间戳转换,CSS美化压缩,json美化,json格式化输出,json数组,json实体类,json视图等

    www.0502.net
  • 24gym24gym

    24gym是国内领先的健身房智能化整体解决方案提供商,致力于研发健身领域的软硬件产品,打造24小时健身房,颠覆传统健身房,创建10分钟健身圈,欢迎意向投资健身房、智能健身房加盟的人士与我们联系,将为你提供健身房经营更优解决方案。

    www.24gym.cn
  • 堆糖堆糖

    堆糖,美图壁纸兴趣社区。收录几十亿高清优质图片,数千万用户的珍藏分享,一键收藏下载美图,点亮生活无限灵感,做你的美好研究所:拥有高清壁纸、情侣头像、明星爱豆、影视动漫、情感文字、表情包、绘画手帐、P图教程、美妆穿搭、歌词台词、可爱萌宠等多种图片分类。你想要的风景壁纸、聊天背景、朋友圈背景、动漫头像都可以在这里找到。

    www.duitang.com
  • 图片之家图片之家

    图片之家_是以摄影图片大全为主国内综合性图片的网站,致力于打造各类好看的图片,包括奇闻异事图片,装修效果图,搞笑图片,搞笑动态图片,美女图片,美女人体艺术,发型图片,创意家居,创意广告设计,桌面壁纸,摄影作品等精选图片大全等你来挖掘。

    www.tupianzj.com
  • 煎蛋煎蛋

    煎蛋以译介方式传播网络新鲜资讯

    jandan.net