AI模型在英超联赛投注上赔得血本无归 - FT中文网
登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
为了第一时间为您呈现此信息,中文内容为AI翻译,仅供参考。
FT商学院

AI模型在英超联赛投注上赔得血本无归

在被要求预测整个足球赛季的比分时,谷歌、OpenAI、Anthropic和xAI的系统表现不佳。
00:00

{"text":[[{"start":9.16,"text":"一项新研究显示,来自谷歌(Google)、OpenAI和Anthropic的人工智能模型在整个英超联赛(Premier League)赛季中押注足球比赛均出现亏损,这表明即便是最先进的系统,在较长时间跨度内对现实世界进行分析也面临困难。"}],[{"start":24.53,"text":"本周由人工智能初创公司通用推理(General Reasoning)发布的“KellyBench”报告指出,人工智能在某些任务(如编写软件)上的能力正迅速提升,但在处理其他类型的人类问题时仍存在明显短板。"}],[{"start":37.63,"text":"总部位于伦敦的通用推理(General Reasoning)在一个虚拟复刻的2023-24赛季英超联赛中,对八个顶尖AI系统进行了测试,向它们提供了各支球队及以往比赛的详细历史数据和统计信息。这些AI被要求构建能够最大化回报并管理风险的模型。"}],[{"start":57.510000000000005,"text":"随后,这些人工智能“智能体”会就比赛结果和进球数量进行下注,以测试在赛季推进过程中,它们如何适应新事件和更新后的球员数据。"}],[{"start":68.59,"text":"这些AI无法访问互联网获取比赛结果,每个模型都有三次机会实现盈利。"}],[{"start":75.10000000000001,"text":"Anthropic的Claude Opus 4.6表现最佳,平均亏损11%,并在一次尝试中几乎实现盈亏平衡。"}],[{"start":83.87,"text":"xAI的Grok 4.20有一次破产,另外两次未能完成。谷歌(Google)的Gemini 3.1 Pro在一次尝试中实现了34%的利润,但在另一次中破产。"}],[{"start":96.56,"text":"论文作者总结道:“我们评估的每个前沿模型在整个赛季都出现亏损,且许多最终破产”,在这一情境下,AI“系统性地不如人类”。"}],[{"start":null,"text":"
AI模型平均投资回报率最佳表现最差表现平均期末资金余额
Anthropic Claude Opus 4.6−11.0%−0.2%−18.8%£89,035
OpenAI GPT-5.4−13.6%−4.1%−31.6%£86,365
Google Gemini 3.1 Pro−43.3%+33.7%−100%£56,715
Google Gemini Flash 3.1 LP−58.4%+24.7%−100%£41,605
Z.AI GLM-5−58.8%−14.3%−100%£41,221
月之暗面Kimi K2.5−68.3%−27.0%−100%£7,420
xAI Grok 4.20−100%−100%−100%£0
Arcee Trinity−100%−100%−100%£0
每个模型初始资金均为标准化的10万英镑。投资回报率和最终资金余额为三次尝试的平均值。Grok和Trinity未完成所有尝试。
"}],[{"start":106.77000000000001,"text":"这些结果在一定程度上为那些担心人工智能可能取代自身工作的白领从业者和企业带来些许安慰,尽管AI正搅动着从金融到营销等多个行业的股价。"}],[{"start":118.59,"text":"该研究作者之一、通用推理(General Reasoning)首席执行官罗斯•泰勒(Ross Taylor)表示:“关于人工智能自动化的炒作很多,但将人工智能置于长期时间跨度场景中进行衡量的研究却不多。”"}],[{"start":130.91,"text":"他补充说,目前用于测试人工智能的许多基准存在缺陷,因为它们设定在“非常静态的环境”中,与现实世界的混乱与复杂性几乎毫不相似。"}],[{"start":141.87,"text":"通用推理(General Reasoning)发布的这篇尚未经过同行评审的论文,在一定程度上为硅谷日益高涨的热情提供了对冲——近期,人工智能在几乎无需人工干预的情况下完成计算机编程任务的能力取得了巨大飞跃。"}],[{"start":156.67000000000002,"text":"曾任Meta人工智能研究员的泰勒表示:“如果你……把人工智能用于一些真实世界的任务,它的表现会非常差……是的,软件工程非常重要,也具有很高的经济价值,但还有许多具有更长时间跨度的活动同样值得关注。”"}]],"url":"https://audio.ftcn.net.cn/album/a_1775890965_5193.mp3"}

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

苹果下一任掌门人特努斯面临决定性的AI时刻

库克的继任者必须带领这家iPhone制造商渡过产业转型。

乌克兰无人机飞行员在500公里外打击俄罗斯目标

基于互联网的新型引导系统使乌克兰无人机操作员能够在远离战场的区域执行任务。

Netflix哈斯廷斯:良好领导力与糟糕治理的双面标杆

这家流媒体公司的联合创始人退居幕后,而亲手缔造的"帝国"正面临迄今为止最大的挑战。

石油交易商Gunvor:油价将面临更多动荡

全球第四大独立原油贸易商称,4月至6月期间石油市场的波动性将会加剧。

寿险与年金行业正转向更高风险资产

许多已经进入保险公司资产负债表的工具,存在复杂性和流动性不足的问题。
1天前

地缘政治冲击凸显云服务商多元化的必要性

一些欧洲银行业担心自己过度依赖少数几家美国超大规模云服务商。
设置字号×
最小
较小
默认
较大
最大
分享×