中國科技巨頭騰訊(700)近日推出免費且開源的AI影片生成器混元影片,此舉正值OpenAI預計將發布其備受期待的影片工具Sora的12天宣傳活動期間,直接挑戰OpenAI在AI影片生成領域的領先地位。
試玩link在此(注意:免費設有上限)
即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券!
騰訊宣稱,根據專業人士的評估,混元影片的生成性能可與甚至超越現有領先的閉源模型,包括Runway Gen-3、Luma 1.6以及三款表現最佳的中國影片生成模型。騰訊在其官方公告中明確指出:「我們介紹的混元影片是一種新穎的開源視訊基礎模型,其影片生成性能可與領先的閉源模型相媲美,甚至優於它們。」
混元影片採用解碼器專用的多模態大型語言模型作為文本編碼器,而非業界常用的CLIP和T5-XXL組合。騰訊表示,此設計能提升模型遵循指令、掌握圖像細節以及快速學習新任務的能力,其因果關係注意力機制更藉由特殊的標記優化器,增強對提示詞的理解。
此外,混元影片還能改寫提示詞,使其更豐富,進而提升生成品質。例如,簡單的提示「一個男人遛狗」可以被增強,加入細節、場景設定、光照條件、品質瑕疵和人物種族等元素。
開源策略,但需高規格硬體支援
與Meta的LLaMA 3類似,混元影片在用戶數達到1億之前,皆可免費使用和商業化。然而,本地運行其130億參數的模型需要至少60GB GPU記憶體的高規格電腦,例如Nvidia H800或H20卡,遠超一般遊戲PC的配置。
為此,多家雲端服務商已提供支援。例如,FAL.ai已整合Hunyuan,每個影片收費0.5美元;Replicate和GoEhnance也提供訪問權限;官方混元影片伺服器則提供10美元150點數,每個影片生成至少需15點數。用戶亦可透過Runpod或Vast.ai等服務租用GPU運行模型。
初步測試顯示,混元影片的品質可與Luma Labs Dream Machine或Kling AI等商業產品匹敵,影片生成時間約為15分鐘,能產生具有逼真效果的序列,人物和動物動作自然流暢。但測試也發現,目前模型對英文提示詞的理解能力仍有待提升。 然而,開源特性讓開發者得以參與改進。
騰訊表示,根據內部測試,混元影片的文本編碼器匹配率(輸出與用戶請求的匹配程度)高達68.5%,同時保持96.4%的視覺品質得分。完整的原始碼和預訓練權重已上傳至GitHub和Hugging Face平台。 此舉被視為騰訊在AI領域積極布局,並挑戰OpenAI領導地位的重要一步。