瑞銀調查：60%企業收緊AI支出，Token成本飆升促使轉向廉價模型

瑞銀（UBS）研究發現，約60%的企業已對AI支出實施管控，原因是來自智慧代理（agent）與程式碼工具的Token消耗量，已使成本升至財務長（CFO）關注的層級，進而迫使企業轉向包括中國開源模型在內的更廉價方案。

Databricks執行長阿里·戈西（Ali Ghodsi）形容這一重新調整為「這是一個重大的減速帶，而非一個小障礙。」

各層級模型之間的價格差距十分懸殊：Anthropic的Haiku 4.5每百萬個輸出Token收費5美元，而其頂級Fable/Mythos 5則收費50美元——兩者相差十倍，這使得模型路由（model routing）在經濟上極具吸引力。報告指出，一家公司的一名用戶在AWS Bedrock上單月AI成本就高達35,000美元。另一家公司則因Token預算耗盡，將內部AI工具從五個縮減至兩個。

這股轉變威脅到Anthropic與OpenAI等高階AI供應商的營收成長，同時為更廉價的替代方案創造了機會。中國開源模型——包括阿里巴巴的Qwen、DeepSeek、MiniMax以及智譜的GLM——正陸續進入企業採購清單。報告稱，一家大型全球銀行已在地端部署Qwen，以平衡其對Anthropic Claude的使用。

模型路由重塑成本曲線

最具影響力的技術應對方案是模型路由——將簡單任務分配給廉價模型，而將昂貴模型留給複雜推理任務。Palantir Technologies約在一個月前將其商業化，推出AIP Evolve，該產品在一個案例中為客戶削減了97%的Token成本。報告顯示，該產品在上市三週內便獲得了90%的採用率。

微軟發布的MAI「推理」（Thinking）模型（一個350億參數的系統）也瞄準了這一中間地帶——其能力足以處理推理任務，但成本遠低於前沿模型。此策略反映了整個行業向「夠用就好」且價格更低的AI方向推進的趨勢。

成本壓力正加速中國開源模型的採用。AWS Bedrock現已在其模型目錄中列出MiniMax、Moonshot的Kimi、Qwen、DeepSeek及GLM。微軟則透過Azure AI Foundry提供DeepSeek。雖然這些模型通常免費或成本極低，限制了開發者的直接收入，但它們創造了合作機會——BMW與阿里巴巴近期圍繞Qwen在汽車應用領域展開合作。此外，在地端部署開源模型可規避使用外部託管中國AI的監管風險，使其對銀行等受監管行業具備可行性。

雲端與軟體供應商面臨不均等的壓力

雲端平台在這次支出轉變中相對不受影響。AWS、Azure與Google Cloud經營著多模型市場，因此客戶從高階模型切換至廉價模型雖然可能降低API收入成長，但運算消耗量依然存在。瑞銀分析師寫道：「企業越是管理成本，就越可能將模型選擇、部署與計費集中到單一雲端平台上。」

硬體需求也保持強勁。Nvidia的GB200與GB300晶片才剛開始大量出貨，而多模態工作負載——音訊、視訊、實體AI——持續擴大運算需求。對投資人而言，問題在於模型公司的價格壓縮最終是否會限制雲端GPU的定價能力。

最大的SaaS平台面臨最複雜的局面。Salesforce、ServiceNow與Workday正推動從按席位計費轉向按用量計費，卻恰逢客戶對成本變得敏感。這一時機上的錯位可能拖慢其AI貨幣化的進程。不過，軟體公司也擁有作為AI成本優化者的機會。Palantir的AIP Evolve是最明顯的例子，但任何能充當模型無關路由層的平台都具備結構性優勢。

瑞銀實證實驗室（UBS Evidence Lab）調查了約130家公司，發現僅8%的企業已在生產環境中大規模部署AI代理。另有37%在有限生產中使用，29%處於試點階段，26%僅使用Copilot或程式碼工具而未部署代理。自動化代理帶來的大量Token消耗尚未真正開始。AI法律助理Harvey的Token消耗量從1月的1兆（trillion）成長至5月的12至13兆——這證明優化與擴張可以並存。

此次支出管控與2022至2024年疫情後的雲端預算緊縮有根本性不同。當時是對成熟使用量的削減，而現在則是早期技術擴散階段的成本治理。結果並非AI需求消失，而是贏家重新排序：高階模型供應商面臨營收成長放緩，成本優化平台受益，雲端供應商承接多模型工作負載，而中國開源模型則在全球企業基礎設施中站穩腳跟。

本文僅供資訊參考，不構成投資建議。