AI模型在英超联赛投注上赔得血本无归

00:00

{"text":[[{"start":9.16,"text":"一项新研究显示，来自谷歌(Google)、OpenAI和Anthropic的人工智能模型在整个英超联赛(Premier League)赛季中押注足球比赛均出现亏损，这表明即便是最先进的系统，在较长时间跨度内对现实世界进行分析也面临困难。"}],[{"start":24.53,"text":"本周由人工智能初创公司通用推理(General Reasoning)发布的“KellyBench”报告指出，人工智能在某些任务（如编写软件）上的能力正迅速提升，但在处理其他类型的人类问题时仍存在明显短板。"}],[{"start":37.63,"text":"总部位于伦敦的通用推理(General Reasoning)在一个虚拟复刻的2023-24赛季英超联赛中，对八个顶尖AI系统进行了测试，向它们提供了各支球队及以往比赛的详细历史数据和统计信息。这些AI被要求构建能够最大化回报并管理风险的模型。"}],[{"start":57.510000000000005,"text":"随后，这些人工智能“智能体”会就比赛结果和进球数量进行下注，以测试在赛季推进过程中，它们如何适应新事件和更新后的球员数据。"}],[{"start":68.59,"text":"这些AI无法访问互联网获取比赛结果，每个模型都有三次机会实现盈利。"}],[{"start":75.10000000000001,"text":"Anthropic的Claude Opus 4.6表现最佳，平均亏损11%，并在一次尝试中几乎实现盈亏平衡。"}],[{"start":83.87,"text":"xAI的Grok 4.20有一次破产，另外两次未能完成。谷歌(Google)的Gemini 3.1 Pro在一次尝试中实现了34%的利润，但在另一次中破产。"}],[{"start":96.56,"text":"论文作者总结道：“我们评估的每个前沿模型在整个赛季都出现亏损，且许多最终破产”，在这一情境下，AI“系统性地不如人类”。"}],[{"start":null,"text":"<table class=\"data-table\" data-table-collapse-rownum=\"\" data-table-layout-largescreen=\"auto\" data-table-layout-smallscreen=\"auto\" data-table-theme=\"auto\"><caption></caption><thead><tr><th data-column-hidden=\"none\" data-column-sortable=\"false\" data-column-type=\"string\" class=\"is-text-only\" id=\"id-8\">AI模型</th><th data-column-hidden=\"none\" data-column-sortable=\"false\" data-column-type=\"string\" class=\"is-text-only\" id=\"id-9\">平均投资回报率</th><th data-column-hidden=\"none\" data-column-sortable=\"false\" data-column-type=\"string\" class=\"is-text-only\" id=\"id-10\">最佳表现</th><th data-column-hidden=\"none\" data-column-sortable=\"false\" data-column-type=\"string\" class=\"is-text-only\" id=\"id-11\">最差表现</th><th data-column-hidden=\"none\" data-column-sortable=\"false\" data-column-type=\"string\" class=\"is-text-only\" id=\"id-12\">平均期末资金余额</th></tr></thead><tbody><tr><td class=\"is-text-only\" id=\"id-13\">Anthropic Claude Opus 4.6</td><td class=\"is-text-only\" id=\"id-14\">−11.0%</td><td class=\"is-text-only\" id=\"id-15\">−0.2%</td><td class=\"is-text-only\" id=\"id-16\">−18.8%</td><td class=\"is-text-only\" id=\"id-17\">£89,035</td></tr><tr><td class=\"is-text-only\" id=\"id-18\">OpenAI GPT-5.4</td><td class=\"is-text-only\" id=\"id-19\">−13.6%</td><td class=\"is-text-only\" id=\"id-20\">−4.1%</td><td class=\"is-text-only\" id=\"id-21\">−31.6%</td><td class=\"is-text-only\" id=\"id-22\">£86,365</td></tr><tr><td class=\"is-text-only\" id=\"id-23\">Google Gemini 3.1 Pro</td><td class=\"is-text-only\" id=\"id-24\">−43.3%</td><td class=\"is-text-only\" id=\"id-25\">+33.7%</td><td class=\"is-text-only\" id=\"id-26\">−100%</td><td class=\"is-text-only\" id=\"id-27\">£56,715</td></tr><tr><td class=\"is-text-only\" id=\"id-28\">Google Gemini Flash 3.1 LP</td><td class=\"is-text-only\" id=\"id-29\">−58.4%</td><td class=\"is-text-only\" id=\"id-30\">+24.7%</td><td class=\"is-text-only\" id=\"id-31\">−100%</td><td class=\"is-text-only\" id=\"id-32\">£41,605</td></tr><tr><td class=\"is-text-only\" id=\"id-33\">Z.AI GLM-5</td><td class=\"is-text-only\" id=\"id-34\">−58.8%</td><td class=\"is-text-only\" id=\"id-35\">−14.3%</td><td class=\"is-text-only\" id=\"id-36\">−100%</td><td class=\"is-text-only\" id=\"id-37\">£41,221</td></tr><tr><td class=\"is-text-only\" id=\"id-38\">月之暗面Kimi K2.5</td><td class=\"is-text-only\" id=\"id-39\">−68.3%</td><td class=\"is-text-only\" id=\"id-40\">−27.0%</td><td class=\"is-text-only\" id=\"id-41\">−100%</td><td class=\"is-text-only\" id=\"id-42\">£7,420</td></tr><tr><td class=\"is-text-only\" id=\"id-43\">xAI Grok 4.20</td><td class=\"is-text-only\" id=\"id-44\">−100%</td><td class=\"is-text-only\" id=\"id-45\">−100%</td><td class=\"is-text-only\" id=\"id-46\">−100%</td><td class=\"is-text-only\" id=\"id-47\">£0</td></tr><tr><td class=\"is-text-only\" id=\"id-48\">Arcee Trinity</td><td class=\"is-text-only\" id=\"id-49\">−100%</td><td class=\"is-text-only\" id=\"id-50\">−100%</td><td class=\"is-text-only\" id=\"id-51\">−100%</td><td class=\"is-text-only\" id=\"id-52\">£0</td></tr></tbody><tfoot><tr><td colspan=\"1000\"><em class=\"is-text-only\" id=\"id-53\">每个模型初始资金均为标准化的10万英镑。投资回报率和最终资金余额为三次尝试的平均值。Grok和Trinity未完成所有尝试。</em></td></tr></tfoot></table>"}],[{"start":106.77000000000001,"text":"这些结果在一定程度上为那些担心人工智能可能取代自身工作的白领从业者和企业带来些许安慰，尽管AI正搅动着从金融到营销等多个行业的股价。"}],[{"start":118.59,"text":"该研究作者之一、通用推理(General Reasoning)首席执行官罗斯•泰勒(Ross Taylor)表示：“关于人工智能自动化的炒作很多，但将人工智能置于长期时间跨度场景中进行衡量的研究却不多。”"}],[{"start":130.91,"text":"他补充说，目前用于测试人工智能的许多基准存在缺陷，因为它们设定在“非常静态的环境”中，与现实世界的混乱与复杂性几乎毫不相似。"}],[{"start":141.87,"text":"通用推理(General Reasoning)发布的这篇尚未经过同行评审的论文，在一定程度上为硅谷日益高涨的热情提供了对冲——近期，人工智能在几乎无需人工干预的情况下完成计算机编程任务的能力取得了巨大飞跃。"}],[{"start":156.67000000000002,"text":"曾任Meta人工智能研究员的泰勒表示：“如果你……把人工智能用于一些真实世界的任务，它的表现会非常差……是的，软件工程非常重要，也具有很高的经济价值，但还有许多具有更长时间跨度的活动同样值得关注。”"}]],"url":"https://audio.ftcn.net.cn/album/a_1775890965_5193.mp3"}

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

AI模型在英超联赛投注上赔得血本无归

FT商学院

相关话题

为何AI有望清理金融“污泥”

极端天气风险上升之际，中国严阵以待迎战连续台风

希音获中国批准启动久候的IPO

苹果起诉OpenAI，指控其窃取最高机密信息

古典学家艾米莉•威尔逊：奥德修斯是另一种类型的骗子

阿莎•夏尔马：接过Xbox控制权的“局外人”

AI模型	平均投资回报率	最佳表现	最差表现	平均期末资金余额
Anthropic Claude Opus 4.6	−11.0%	−0.2%	−18.8%	£89,035
OpenAI GPT-5.4	−13.6%	−4.1%	−31.6%	£86,365
Google Gemini 3.1 Pro	−43.3%	+33.7%	−100%	£56,715
Google Gemini Flash 3.1 LP	−58.4%	+24.7%	−100%	£41,605
Z.AI GLM-5	−58.8%	−14.3%	−100%	£41,221
月之暗面Kimi K2.5	−68.3%	−27.0%	−100%	£7,420
xAI Grok 4.20	−100%	−100%	−100%	£0
Arcee Trinity	−100%	−100%	−100%	£0
每个模型初始资金均为标准化的10万英镑。投资回报率和最终资金余额为三次尝试的平均值。Grok和Trinity未完成所有尝试。