谷歌让-12-个-AI-大模型攒局玩“大富翁”：Claude3.5-爱合作-GPT-4o-最“自私”

环境治理行业财务总监CFO观察：艾布鲁殷明坤75岁高龄为行业内年龄最大薪酬为48万元后续反转 环境治理行业财务总监CFO观察：军信股份戴彬35岁为行业内年龄最年轻薪酬为49万元秒懂 小米汽车概念板块上涨2.03%后续会怎么发展 国泰君安期货：碳酸锂因矿端停产涨停盘面似乎早有异动？官方处理结果 创新药继续“倒车”，港股通创新药ETF（520880）下探2%，资金加速溢价介入秒懂 理文造纸盘中涨超7% 机构看好新国标催化行业新一轮供给出清 陶琳谈特斯拉电池回收：提取每块电池90%废料，投入新电池生产中 多股涨停！一则消息，引爆碳酸锂市场专家已经证实 利好！资金转向这里？实垂了 利好！资金转向这里？后续反转来了 楼市快报||2025年第二季度龙国首都房地产市场分析官方处理结果 科技创新再迎政策支持银华旗下科创ETF增强今起发行科技水平又一个里程碑 科技创新再迎政策支持银华旗下科创ETF增强今起发行 速卖通：国货美妆出海销量年增100%，超20家品牌集体入驻是真的？ 直击WRC｜能投影，会陪伴！动易科技新品人形机器人亮相最新进展 科大讯飞刘聪：机器人要想和手机、汽车一样走向海外，需要全方位的多语言能力来拓展记者时时跟进 卧安机器人港股上市收到证监会反馈意见：需说明备案材料对控股股东认定结果不一致的原因及认定标准这么做真的好么？ 澳大利亚称计划承认巴勒斯坦国新西兰也在作此考虑是真的？ “旗手”躁动，国盛金控触及涨停！A股顶流券商ETF（512000）放量冲击2%！机构：慢牛有望延续，关注券商补涨 胖东来回应“招聘刑释人员”：帮助他们再次融入社会官方已经证实 直击WRC｜能投影，会陪伴！动易科技新品人形机器人亮相官方处理结果 教育行业财务总监CFO观察：ST开元董世才违规收到2次警示函 2024年薪酬为60万元最新报道 冀东水泥拟变更公司名称及证券简称为“金隅冀东”官方处理结果 直击WRC｜能投影，会陪伴！动易科技新品人形机器人亮相最新报道 立讯精密港股上市的背水一战，王来春“去苹果化”的生死时速太强大了 教育行业财务总监CFO观察：龙国高科唐庆36岁为行业最年轻 2024年薪酬为89万元超行业平均这么做真的好么？ 教育行业财务总监CFO观察：ST开元董世才违规收到2次警示函 2024年薪酬为60万元记者时时跟进 利好龙国资产！重要调整，26日收盘后生效！ 教育行业财务总监CFO观察：创业黑马归母净利润暴跌1192% 而财务总监左超薪酬仅微降2%实测是真的 “旗手”躁动，国盛金控触及涨停！A股顶流券商ETF（512000）放量冲击2%！机构：慢牛有望延续，关注券商补涨 杨德龙：多项指标表明当前市场正在逐步走牛这么做真的好么？ 港股华南城于上午10时55分起暂停买卖科技水平又一个里程碑 小米汽车概念板块上涨2.03%官方已经证实 煌上煌：上半年归母净利润同比增27% 经营性现金流净额超2亿元最新进展 港股华南城盘中暂停交易后续反转来了 国泰君安期货：碳酸锂因矿端停产涨停盘面似乎早有异动？ 华南城：上午10：55起暂停交易 楼市快报||2025年上半年龙国首都土地市场分析后续来了 陶琳谈特斯拉电池回收：提取每块电池90%废料，投入新电池生产中实时报道 金融AI论坛来袭！华为将发布突破性成果，聚焦信息技术自主可控的——信创ETF基金（562030）盘中涨超1%又一个里程碑 苹果新功能曝光！Siri可通过语音指令操控第三方APP：2026年上线科技水平又一个里程碑 智元机器人姚卯青：具身智能是龙国新质生产力的典型代表 港股华南城盘中暂停交易

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于 Claude 3.5 Sonnet 的智能体，就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”，只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体，这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似，但相对简单，玩家只需要对手中的“资源”做出处置。这当中，虽然每个玩家心里都有各自的小九九，但作者关注的目标，是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏，真名叫做 Donor Game（捐赠博弈）。

在这过程中，作者关注的是各模型组成的智能体群体的表现，因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些，就是 GPT 和 GPT 坐一桌，Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体，它们各自手中都握有一定量的“资源”，系统会从这 12 名玩家中随机抽取 2 个，分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者，受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说，捐赠者每花费掉一份资源时，受赠者都可以获得两份，这也是总体资源能够增加的来源。

不过对于单个个体而言，选择不进行捐献，在短期内的收益会更高。

在做决定之时，捐赠者能够知道受赠者之前做出的决定，从而判断是否要捐赠。

这样的“捐赠”，每一代中一共会进行 12 次，一轮结束后，手中资源量排在前 6 名的智能体可以保留至下一代。

同时，下一代会产生 6 个新的智能体，这 6 个新智能体会从留下的 6 个智能体那里学习策略，但同时为了差异化也会引入随机变异。

包括初始的一代在内，基于每个模型产生的智能体，都会进行十轮迭代。

谷歌让