AI晶片荒 Nvidia GPU壟斷下的多元應對策略

AI晶片荒

2024年1月,私募股權巨頭黑石集團宣佈投資250億美元建立AI數據帝國,緊接著數月後,OpenAI與微軟更聯手規劃斥資1000億美元打造名為「星門」(Stargate) 的AI超級電腦,誓言引領AI革命。此舉並非偶然,AI產業近年來的爆發式增長,已促使全球科技巨頭爭相卡位。專家預測,至2030年,全球AI市場規模將達到8270億美元,年增長率高達29%。然而,GPU短缺正成為制約AI發展的關鍵瓶頸。

想掌握最新加密市場動態與 AI 新聞與資訊,與行業專家交流?即加入CFTime Whatsapp 討論區!仲有 CFTime Facebook

AI晶片荒 全球GPU供應主要掌握在Nvidia手中

傳統 John von Neumann 架構電腦的單一系統匯流排限制了數據傳輸速度,使其在AI及機器學習領域效能不足。GPU的多核心並行處理能力成為解決方案,但全球GPU供應主要掌握在Nvidia手中,造成供需失衡。儘管大型雲端服務商如AWS和Google Cloud Platform能輕易取得Nvidia的A100和H100,但其他公司、研究機構和新創企業卻面臨漫長的等待。

為此,業界積極探索替代方案:

  • 現場可程式化閘陣列 (FPGA): FPGA具備可重新編程、靈活且具成本效益的優勢,其並行處理能力適用於AI和機器學習。特斯拉的D1 Dojo晶片即為一例,應用於自動駕駛電腦視覺模型訓練。然而,FPGA需要高階工程技術,初始投資成本較高。
  • AMD GPU: Meta、Oracle和微軟等公司已將目光轉向AMD GPU,尋求更具成本效益的解決方案,並避免對Nvidia的依賴。AMD的Instinct MI300系列,憑藉其模組化GCN架構和開放標準支持,以及更低的價格,成為Nvidia GPU的潛在替代品。
  • 張量處理單元 (TPU): Google開發的TPU是一種專為機器學習任務設計的ASIC,其特定領域架構優化了神經網絡(如張量運算)的執行效率和能耗。但目前TPU生態系統仍在發展階段,主要侷限於Google Cloud Platform。
  • 分散式市場: 這些平台利用閒置的GPU資源(來自傳統數據中心、學術機構甚至個人),為研究人員、新創公司等提供GPU運算能力,部分平台更提供消費者級GPU以滿足中小企業的需求,並提供工業級GPU選項。
  • CPU: 儘管傳統上CPU在AI應用中的效能受限,但目前正積極開發更有效的AI演算法以提升CPU的利用率,例如將特定工作負載(如簡單的NLP模型或複雜統計計算)分配給CPU處理。此方法適用於難以並行處理的演算法,例如循環神經網絡或推薦系統的訓練和推論。

總而言之,儘管AI晶片短缺問題短期內難以解決,但各項創新技術的發展為未來帶來希望。AI產業的巨大潛力,預示著一場劃時代的科技革命即將來臨。

zh_HK香港中文