有試玩link｜騰訊推出免費開源AI影片生成器混元稱「最佳中國影片生成模型」

中國科技巨頭騰訊（700）近日推出免費且開源的AI影片生成器混元影片，此舉正值OpenAI預計將發布其備受期待的影片工具Sora的12天宣傳活動期間，直接挑戰OpenAI在AI影片生成領域的領先地位。

試玩link在此（注意：免費設有上限）

即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！

騰訊宣稱，根據專業人士的評估，混元影片的生成性能可與甚至超越現有領先的閉源模型，包括Runway Gen-3、Luma 1.6以及三款表現最佳的中國影片生成模型。騰訊在其官方公告中明確指出：「我們介紹的混元影片是一種新穎的開源視訊基礎模型，其影片生成性能可與領先的閉源模型相媲美，甚至優於它們。」

混元影片採用解碼器專用的多模態大型語言模型作為文本編碼器，而非業界常用的CLIP和T5-XXL組合。騰訊表示，此設計能提升模型遵循指令、掌握圖像細節以及快速學習新任務的能力，其因果關係注意力機制更藉由特殊的標記優化器，增強對提示詞的理解。

此外，混元影片還能改寫提示詞，使其更豐富，進而提升生成品質。例如，簡單的提示「一個男人遛狗」可以被增強，加入細節、場景設定、光照條件、品質瑕疵和人物種族等元素。

開源策略，但需高規格硬體支援

與Meta的LLaMA 3類似，混元影片在用戶數達到1億之前，皆可免費使用和商業化。然而，本地運行其130億參數的模型需要至少60GB GPU記憶體的高規格電腦，例如Nvidia H800或H20卡，遠超一般遊戲PC的配置。

為此，多家雲端服務商已提供支援。例如，FAL.ai已整合Hunyuan，每個影片收費0.5美元；Replicate和GoEhnance也提供訪問權限；官方混元影片伺服器則提供10美元150點數，每個影片生成至少需15點數。用戶亦可透過Runpod或Vast.ai等服務租用GPU運行模型。

初步測試顯示，混元影片的品質可與Luma Labs Dream Machine或Kling AI等商業產品匹敵，影片生成時間約為15分鐘，能產生具有逼真效果的序列，人物和動物動作自然流暢。但測試也發現，目前模型對英文提示詞的理解能力仍有待提升。然而，開源特性讓開發者得以參與改進。

騰訊表示，根據內部測試，混元影片的文本編碼器匹配率（輸出與用戶請求的匹配程度）高達68.5%，同時保持96.4%的視覺品質得分。完整的原始碼和預訓練權重已上傳至GitHub和Hugging Face平台。此舉被視為騰訊在AI領域積極布局，並挑戰OpenAI領導地位的重要一步。

相關新聞