多模態 - cftime.io

Google 在 2026 年 I/O 發布最新多模態 AI 模型 Gemini Omni，融合多種媒體生成工具，提供全新視覺內容創作體驗，邁向人工智慧「世界模擬」新時代。

挑戰未來影像革命！Google 推出 Gemini Omni 多模態 AI 視頻製作平台

Derek Chan4 weeks ago4 weeks ago01 mins

在 2026 年 Google I/O 大會上，Google 重磅發表最新多模態人工智慧模型「Gemini Omni」，承諾將帶來前所未有的視覺內容生成體驗。Gemini Omni 不僅整合了 Google 頂尖的 Gemini AI 智能模型，更結合了先進的媒體生成工具，包括 Veo、Nano Banana 與 Genie，成為全新世代的多媒體創作引擎。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！ Google Gemini Omni：顛覆視覺創作的下一代 AI 技術 DeepMind 執行長 Demis Hassabis 稱 Gemini Omni 是「能夠從任何輸入創造出一切的新模型」，代表 Google 正在邁向真正的通用人工智慧（AGI）新境界。多模態世界模擬與智慧編輯 Gemini Omni 的核心價值在於融合了 Gemini 智慧與多媒體生成科技，打造出一套可理解並模擬真實世界的 AI 系統。Hassabis 進一步表示，Google 花費了一年時間擴展 Gemini 成為「一個能夠理解並模擬世界的 AI 世界模型」。…

DeepSeek再下一城推Janus Pro 其全新開源AI模型能否超越OpenAI？

Admin1 year ago1 year ago01 mins

中國人工智能新創公司DeepSeek近日發布其全新開源多模態AI模型Janus Pro，在業界投下震撼彈。此模型參數規模涵蓋10億至70億，最大版本Janus Pro 7B據稱在GenEval和DPG-Bench等業界基準測試中超越OpenAI的DALL-E 3，以及PixArt-alpha、Emu3-Gen和SDXL等領先模型。Janus Pro已在Huggingface平台上公開發布，供用戶免費下載。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！此舉緊隨DeepSeek的R1語言模型引發的業界震盪之後。R1以僅500萬美元的開發成本，達到與GPT-4匹敵的性能，引發關於AI產業成本結構和發展模式的激烈討論，並令科技巨頭如Nvidia等感受到巨大壓力，Nvidia更在周一遭遇歷史上單日市值最大跌幅。 Janus Pro採用「新型自迴歸框架」 DeepSeek宣稱Janus Pro採用「新型自迴歸框架」，將視覺編碼解耦到不同路徑，同時維持單一統一的變壓器架構，實現768×768分辨率的圖像分析和生成。DeepSeek在其發布文件指出，Janus Pro的簡潔性、高靈活性及有效性使其成為下一代統一多模態模型的強有力競爭者。與R1不同，DeepSeek此次未發布完整白皮書，但提供了技術文檔及模型下載。此開源策略與美國科技巨頭的閉源模式形成鮮明對比。 Janus Pro的表現如何？雖然其多模態功能（文本生成、圖像分析及生成）使其用途廣泛，但在單一任務表現上，與專精於單一功能的模型相比，並未展現壓倒性優勢。目前，用戶需通過終端文本命令操作，無法直接使用傳統UI界面（如Comfy、A1111、Focus及Draw Things）。部分Huggingface用戶已建立空間供測試，但需注意部分空間提供的版本與宣稱版本不符，例如聲稱運行Janus Pro 7B，實際卻運行1.5B版本。在視覺理解方面，Janus Pro表現優於開源視覺模型LlaVa，能更準確描述場景並根據視覺提示與用戶互動，但在需要邏輯推理的任務上，則不及GPT Vision。圖像生成方面，雖然DeepSeek聲稱Janus Pro超越SD 1.5、SDXL及Pixart Alpha，但此比較應基於未經微調的基礎模型。與經過微調的版本相比，Janus Pro在圖像質量和細節上仍有提升空間，生成的圖像清晰度不及SDXL。然而，Janus Pro的多模態能力使其在應用上更具靈活性。 DeepSeek的突破，不僅在於其低成本AI模型的開發，更在於其挑戰了整個AI產業的效率。與OpenAI和Anthropic等巨頭動輒數十億美元的研發投入相比，DeepSeek以相對微薄的成本，取得了可比擬的成果，凸顯了AI產業發展模式的潛在變革。 Janus Pro的未來發展及市場接受度，將取決於後續的更新和社群支持。其開源策略，或將重塑AI產業的競爭格局，並對Nvidia等晶片巨頭的市場地位構成持續性挑戰。