细思极恐，GPT-4竟串谋AI欺骗人类！哈佛PSU重磅揭秘「算法共谋」，AI教父预言正成真

声明:本文来自于微信公众号新智元，作者:新智元，授权站长之家转载发布。

【新智元导读】又一科幻场景步入现实!GPT-4竟和多个AI模型私自串通一气，欲要形成垄断的资本寡头联合定价。在被哈佛PSU团队抓现行后，大模型拒不认账。未来某天，AI会不会真要失控?

GPT-4串谋其他AI智能体，竟学会欺骗人类了?

更让人细思极恐的是，即便被揭穿了真面目，它们仍旧声称自己不会串通一气。

这件事，真真切切地发生在日常的交易中。对于一件产品进入市场来讲，能够成功盈利最重要的因素无疑是定价合理。

那么，你可曾想过，我们日常生活中所购买产品的价格，已经开始被AI操控?!

来自哈佛、宾州州立大学新研究证明:

GPT-4为了实现利润最大化，在未经人类给出指令的情况下，私自和其它AI模型串通，共同将产品定价到一个高位，又不会陷入价格竞争的微妙境地。

也就是说，「自主算法共谋」是真实存在的。

论文地址:https://arxiv.org/pdf/2404.00806

GPT-4死不承认的罪证，研究人员将其全部公开。

AI嘴上说着不会帮商家与其他卖家串通买卖，或组建卡特尔组织，但实际行动却很诚实。

之前研究结果（3月版）显示，所有模型中，均进行了300轮测试周期，GPT-4实现了最优定价次数。

而在最新模型（11月版）大比拼中，GPT-4o、Gemini1.5Pro展现出最优的定价能力。

此外，研究还发现，人类提示词前缀的具体措辞，甚至会显著影响AI定价行为。某些提示词，就会导致更高的价格和利润。

有网友表示，这一幕简直太科幻了，若是GPT-5/6级模型想这么做的话，与人类串通那是何其容易。

目前为止，人类还是可以随手拿捏GPT-4这款不太聪明的模型，若真有一天AGI实现了，我们该怎么办?

AI教父图灵说过，机器接管是「默认」的结局。Hinton也曾发出警告，更智能的事物通常不会被较低智能的事物所控制。

或许许多人认为，这一幕离我们还很遥远。

不如，先从具体案例中，看看AI是如何操控定价欺骗消费者。

人类商品定价，AI顺位接管?

曾经的产品定价往往是基于多种约束条件来利用经典算法去给出一个合理且能够实现预期盈利目标的价格。

自LLM风靡全球后，这个任务自然也由类似于GPT-4这种水平的模型进行了顺位接管。

在实验阶段，研究者将每一个LLM定价智能体视作一家公司，并设定它们在寡头垄断环境中形成竞争。

每次实验有300个周期，每个周期内，各智能体都需要通过提示词信息（如交易历史、市场基本信息等）设定一个价格。

其中，定价智能体彼此独立运作，除通过其设定的价格外，无法相互沟通。

等所有价格都确定了后，就视为这一周期的竞争已经完成。每个周期结束后，各智能体都能观察到设定的所有价格，以及对应的产品需求量和利润。

实验设计的阐述图

对于每个智能体的提示词，采取如下结构:

- 提示前缀:高层次目标的简要描述，如「长期利润最大化」

- 基本的市场信息:边际成本，以及旨在阻止LLM定价超过价格上限的文本描述

- 市场历史:该LLM智能体所代表的公司在过去100个周期内销售的数量及所获得的利润，以及所有LLM智能体设定的价格。所有数值均保留至小数点后两位。

- 计划和想法:为了让基于LLM的定价智能体在各个周期间拥有更大的「思维连续性」，在每个周期需要指示LLM写下其计划和想法，然后将这些内容包含在下一个周期的提示词中。

- 输出指令:要求LLM为下一个周期写下计划和想法，进而最终设定一个价格，并且要求它解释其输出背后的缘由。

垄断实验

研究者对于单一定价智能体在垄断环境中的表现进行了实验。

他们使用P0提示词前缀，对公开发布的各种最先进LLM（GPT-3.5、GPT-4、Claude Instant、Claude2.1、Llama2Chat13B）中的每个LLM进行了三次试验，每次迭代300个周期。

P0提示词前缀

在每次运行中，研究者都要检查LLM输出在语法上是否符合其指令;如果符合，价格是否收敛;如果收敛，价格是否收敛到（接近）垄断价格(利润是否收敛到接近垄断利润)。结果如表1所示。

从表中可以看出，在所有三次运行中，GPT-4表现最好，在100个周期内，达到接近最优的定价。在96%的101--300周期中获得了99%的最佳利润，其他LLM则要差得多。

此外，研究者还额外进行了一项实验，证明了在每个周期指示LLM写下其计划和想法的重要性。

他们使用GPT-4智能体进行了12次垄断实验，并在后续轮次中12次额外的实验里没有指示智能体写下其计划和想法。

实验结果是，第一轮次的12次实验中，全部都成功收敛到了接近最优的定价;而第二轮次没有使用计划和想法的，只有一半次数达到了接近最优定价的效果。

双头垄断实验

研究者进一步在双头垄断环境中，研究了基于GPT-4的定价智能体的行为。

他们通过使用两个提示词前缀P1和P2，后者包括提及压价和销量的措辞，而前者则重申了长期利润最大化的重要性。

对于这两个提示词前缀，他们各进行了21个轮次实验，每个轮次包含300个试验周期。

P1，P2提示词前缀

下图为该实验的主要结果。

在这两个面板中，每个蓝色方块表示一个带有提示词前缀P1的运行，而每个橙色三角形表示一个带有提示词前缀P2的运行。

左侧面板为每家公司在过去50个周期设定的平均价格，说明了提示词前缀P1和P2导致了明显不同的定价模式。

具体来说，虽然这两个提示都会导致超竞争价格（即超过Bertrand--Nash价格），但提示词前缀P1通常会导致价格大幅提高，有时甚至高于垄断水平。

右侧面板为过去50个周期平均总利润及其在两家公司之间的分布，说明了两种提示词前缀都带来了超竞争利润，而且提示词前缀P1的总体利润大大高于提示词前缀P2。

奖惩策略

奖惩策略即为以Q-学习为基础的定价智能体所采取的策略。

奖惩策略在维持超竞争价格方面的成功依赖于智能体相信降价会受到惩罚（通过价格战）。这种信念会导致行为主体避免盲目降价以提高销量。

研究者发现，基于LLM的定价智能体生成的文本会表达对未来价格战的担忧，并且在使用提示词前缀P1时更是如此。

进一步的，他们提供的实验证据表明，关注价格战的想法会导致智能体设定更高的价格，并且与其它智能体的公司定价实施同步追踪。

这些分析综合起来表明，基于LLM的定价智能体采用的策略与奖惩策略是一致的，更重要的是，他们认为他们的对手也遵循了这样的策略。

此外，这种现象在使用与更高的价格和利润相关联的提示词前缀P1的智能体中更为明显。

超定价:拍卖中算法共谋

在拍卖这一重要的经济交易场景中，大模型和智能体又如何表现?

这场实验中，拍卖的经济环境以Banchio和Skrzypacz在2022年发表的研究为原本:两个投标者反复参与单品第一价格拍卖（如果出现相同出价，获胜者随机选择）。

投标者共享相同的估值v。这里使用相同比例变化的值v ∈ {1，3.2，10}。

每轮结束后，投标者会被告知它们是否赢得拍卖，以及赢得拍卖所需的最低出价。

接下来，就是招标智能体了。需要先向智能体提供市场基本信息，以及对该项目的评估。

它们获取的市场信息如下:LLM智能体被提供最近100个周期的以下信息，包括自己的出价、是否获胜、获胜价格（如果输了）、足以获胜的最低出价(如果赢了)、支付金额(如果赢了)、利润。

提示前缀与之前定价前缀设置一样，研究人员主要考虑了以下两个:

每个提示词前缀都以前缀A0开始，这与定价设置中的前缀P0几乎相同。

两个提示词前缀都鼓励探索（「你应该探索多种不同的竞价策略」），但它们强调第一价格拍卖的不同特性。

- A1强调较低的获胜出价会带来更高的利润

- A2强调更高的出价会赢得更多拍卖

得到的结果如下图所示，图左显示了是提示词前缀A1的投标智能体，经常以远低于其估值的价格投标（单样本t检验，p<0.01），而使用提示词前缀A2的投标智能体大约以完整估值进行投标。

右侧图指的是，A1前缀智能体的较低出价，为投标者带来了显著的利润。

总言之，哈佛、宾州州立大学最新研究揭示了，LLM被整合到算法中，能够在简单经济环境中实现最优定价。

但不可控的是，自主算法共谋的风险，它们秘密串通可能会带来超竞争的定价，最终会损害消费者的利益。

2020年，Klein在论文中曾提出了四种算法共谋的类型，并称这类算法最难监管，主要因为它们可以自主学习并促进垄断形成。

关键是，企业也不知道算法究竟学到了什么策略，就像一个黑盒一样，仅靠传统的执法框架是难以应对的。

而且，这只是大模型之间的事儿，若是有了人类（比如商家）的参与，经济市场竞争岂不要变天?

参考资料:

https://x.com/AISafetyMemes/status/1862159416105075184

https://arxiv.org/abs/2404.00806

https://x.com/emollick/status/1862001121817981088

推荐资讯

推荐站点