企業AI支出正進入成本紀律階段,這威脅到高階模型供應商,並為包括中國開源模型在內的廉價替代方案打開大門。
企業AI支出正進入成本紀律階段,這威脅到高階模型供應商,並為包括中國開源模型在內的廉價替代方案打開大門。

瑞銀(UBS)研究發現,約60%的企業已對AI支出實施管控,原因是來自智慧代理(agent)與程式碼工具的Token消耗量,已使成本升至財務長(CFO)關注的層級,進而迫使企業轉向包括中國開源模型在內的更廉價方案。
Databricks執行長阿里·戈西(Ali Ghodsi)形容這一重新調整為「這是一個重大的減速帶,而非一個小障礙。」
各層級模型之間的價格差距十分懸殊:Anthropic的Haiku 4.5每百萬個輸出Token收費5美元,而其頂級Fable/Mythos 5則收費50美元——兩者相差十倍,這使得模型路由(model routing)在經濟上極具吸引力。報告指出,一家公司的一名用戶在AWS Bedrock上單月AI成本就高達35,000美元。另一家公司則因Token預算耗盡,將內部AI工具從五個縮減至兩個。
這股轉變威脅到Anthropic與OpenAI等高階AI供應商的營收成長,同時為更廉價的替代方案創造了機會。中國開源模型——包括阿里巴巴的Qwen、DeepSeek、MiniMax以及智譜的GLM——正陸續進入企業採購清單。報告稱,一家大型全球銀行已在地端部署Qwen,以平衡其對Anthropic Claude的使用。
模型路由重塑成本曲線
最具影響力的技術應對方案是模型路由——將簡單任務分配給廉價模型,而將昂貴模型留給複雜推理任務。Palantir Technologies約在一個月前將其商業化,推出AIP Evolve,該產品在一個案例中為客戶削減了97%的Token成本。報告顯示,該產品在上市三週內便獲得了90%的採用率。
微軟發布的MAI「推理」(Thinking)模型(一個350億參數的系統)也瞄準了這一中間地帶——其能力足以處理推理任務,但成本遠低於前沿模型。此策略反映了整個行業向「夠用就好」且價格更低的AI方向推進的趨勢。
成本壓力正加速中國開源模型的採用。AWS Bedrock現已在其模型目錄中列出MiniMax、Moonshot的Kimi、Qwen、DeepSeek及GLM。微軟則透過Azure AI Foundry提供DeepSeek。雖然這些模型通常免費或成本極低,限制了開發者的直接收入,但它們創造了合作機會——BMW與阿里巴巴近期圍繞Qwen在汽車應用領域展開合作。此外,在地端部署開源模型可規避使用外部託管中國AI的監管風險,使其對銀行等受監管行業具備可行性。
雲端與軟體供應商面臨不均等的壓力
雲端平台在這次支出轉變中相對不受影響。AWS、Azure與Google Cloud經營著多模型市場,因此客戶從高階模型切換至廉價模型雖然可能降低API收入成長,但運算消耗量依然存在。瑞銀分析師寫道:「企業越是管理成本,就越可能將模型選擇、部署與計費集中到單一雲端平台上。」
硬體需求也保持強勁。Nvidia的GB200與GB300晶片才剛開始大量出貨,而多模態工作負載——音訊、視訊、實體AI——持續擴大運算需求。對投資人而言,問題在於模型公司的價格壓縮最終是否會限制雲端GPU的定價能力。
最大的SaaS平台面臨最複雜的局面。Salesforce、ServiceNow與Workday正推動從按席位計費轉向按用量計費,卻恰逢客戶對成本變得敏感。這一時機上的錯位可能拖慢其AI貨幣化的進程。不過,軟體公司也擁有作為AI成本優化者的機會。Palantir的AIP Evolve是最明顯的例子,但任何能充當模型無關路由層的平台都具備結構性優勢。
瑞銀實證實驗室(UBS Evidence Lab)調查了約130家公司,發現僅8%的企業已在生產環境中大規模部署AI代理。另有37%在有限生產中使用,29%處於試點階段,26%僅使用Copilot或程式碼工具而未部署代理。自動化代理帶來的大量Token消耗尚未真正開始。AI法律助理Harvey的Token消耗量從1月的1兆(trillion)成長至5月的12至13兆——這證明優化與擴張可以並存。
此次支出管控與2022至2024年疫情後的雲端預算緊縮有根本性不同。當時是對成熟使用量的削減,而現在則是早期技術擴散階段的成本治理。結果並非AI需求消失,而是贏家重新排序:高階模型供應商面臨營收成長放緩,成本優化平台受益,雲端供應商承接多模型工作負載,而中國開源模型則在全球企業基礎設施中站穩腳跟。
本文僅供資訊參考,不構成投資建議。