中國人工智能新創公司DeepSeek近日發布其全新開源多模態AI模型Janus Pro,在業界投下震撼彈。此模型參數規模涵蓋10億至70億,最大版本Janus Pro 7B據稱在GenEval和DPG-Bench等業界基準測試中超越OpenAI的DALL-E 3,以及PixArt-alpha、Emu3-Gen和SDXL等領先模型。Janus Pro已在Huggingface平台上公開發布,供用戶免費下載。
即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券!
此舉緊隨DeepSeek的R1語言模型引發的業界震盪之後。R1以僅500萬美元的開發成本,達到與GPT-4匹敵的性能,引發關於AI產業成本結構和發展模式的激烈討論,並令科技巨頭如Nvidia等感受到巨大壓力,Nvidia更在周一遭遇歷史上單日市值最大跌幅。
Janus Pro採用「新型自迴歸框架」
DeepSeek宣稱Janus Pro採用「新型自迴歸框架」,將視覺編碼解耦到不同路徑,同時維持單一統一的變壓器架構,實現768×768分辨率的圖像分析和生成。DeepSeek在其發布文件指出,Janus Pro的簡潔性、高靈活性及有效性使其成為下一代統一多模態模型的強有力競爭者。 與R1不同,DeepSeek此次未發布完整白皮書,但提供了技術文檔及模型下載。此開源策略與美國科技巨頭的閉源模式形成鮮明對比。
Janus Pro的表現如何?雖然其多模態功能(文本生成、圖像分析及生成)使其用途廣泛,但在單一任務表現上,與專精於單一功能的模型相比,並未展現壓倒性優勢。目前,用戶需通過終端文本命令操作,無法直接使用傳統UI界面(如Comfy、A1111、Focus及Draw Things)。部分Huggingface用戶已建立空間供測試,但需注意部分空間提供的版本與宣稱版本不符,例如聲稱運行Janus Pro 7B,實際卻運行1.5B版本。
在視覺理解方面,Janus Pro表現優於開源視覺模型LlaVa,能更準確描述場景並根據視覺提示與用戶互動,但在需要邏輯推理的任務上,則不及GPT Vision。圖像生成方面,雖然DeepSeek聲稱Janus Pro超越SD 1.5、SDXL及Pixart Alpha,但此比較應基於未經微調的基礎模型。與經過微調的版本相比,Janus Pro在圖像質量和細節上仍有提升空間,生成的圖像清晰度不及SDXL。然而,Janus Pro的多模態能力使其在應用上更具靈活性。
DeepSeek的突破,不僅在於其低成本AI模型的開發,更在於其挑戰了整個AI產業的效率。 與OpenAI和Anthropic等巨頭動輒數十億美元的研發投入相比,DeepSeek以相對微薄的成本,取得了可比擬的成果,凸顯了AI產業發展模式的潛在變革。 Janus Pro的未來發展及市場接受度,將取決於後續的更新和社群支持。 其開源策略,或將重塑AI產業的競爭格局,並對Nvidia等晶片巨頭的市場地位構成持續性挑戰。