Google 在 2026 年 I/O 發布最新多模態 AI 模型 Gemini Omni,融合多種媒體生成工具,提供全新視覺內容創作體驗,邁向人工智慧「世界模擬」新時代。

挑戰未來影像革命!Google 推出 Gemini Omni 多模態 AI 視頻製作平台

在 2026 年 Google I/O 大會上,Google 重磅發表最新多模態人工智慧模型「Gemini Omni」,承諾將帶來前所未有的視覺內容生成體驗。Gemini Omni 不僅整合了 Google 頂尖的 Gemini AI 智能模型,更結合了先進的媒體生成工具,包括 Veo、Nano Banana 與 Genie,成為全新世代的多媒體創作引擎。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! Google Gemini Omni:顛覆視覺創作的下一代 AI 技術 DeepMind 執行長 Demis Hassabis 稱 Gemini Omni 是「能夠從任何輸入創造出一切的新模型」,代表 Google 正在邁向真正的通用人工智慧(AGI)新境界。 多模態世界模擬與智慧編輯 Gemini Omni 的核心價值在於融合了 Gemini 智慧與多媒體生成科技,打造出一套可理解並模擬真實世界的 AI 系統。Hassabis 進一步表示,Google 花費了一年時間擴展 Gemini 成為「一個能夠理解並模擬世界的 AI 世界模型」。…

Read More
Janus Pro

DeepSeek再下一城推Janus Pro 其全新開源AI模型能否超越OpenAI?

中國人工智能新創公司DeepSeek近日發布其全新開源多模態AI模型Janus Pro,在業界投下震撼彈。此模型參數規模涵蓋10億至70億,最大版本Janus Pro 7B據稱在GenEval和DPG-Bench等業界基準測試中超越OpenAI的DALL-E 3,以及PixArt-alpha、Emu3-Gen和SDXL等領先模型。Janus Pro已在Huggingface平台上公開發布,供用戶免費下載。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! 此舉緊隨DeepSeek的R1語言模型引發的業界震盪之後。R1以僅500萬美元的開發成本,達到與GPT-4匹敵的性能,引發關於AI產業成本結構和發展模式的激烈討論,並令科技巨頭如Nvidia等感受到巨大壓力,Nvidia更在周一遭遇歷史上單日市值最大跌幅。 Janus Pro採用「新型自迴歸框架」 DeepSeek宣稱Janus Pro採用「新型自迴歸框架」,將視覺編碼解耦到不同路徑,同時維持單一統一的變壓器架構,實現768×768分辨率的圖像分析和生成。DeepSeek在其發布文件指出,Janus Pro的簡潔性、高靈活性及有效性使其成為下一代統一多模態模型的強有力競爭者。 與R1不同,DeepSeek此次未發布完整白皮書,但提供了技術文檔及模型下載。此開源策略與美國科技巨頭的閉源模式形成鮮明對比。 Janus Pro的表現如何?雖然其多模態功能(文本生成、圖像分析及生成)使其用途廣泛,但在單一任務表現上,與專精於單一功能的模型相比,並未展現壓倒性優勢。目前,用戶需通過終端文本命令操作,無法直接使用傳統UI界面(如Comfy、A1111、Focus及Draw Things)。部分Huggingface用戶已建立空間供測試,但需注意部分空間提供的版本與宣稱版本不符,例如聲稱運行Janus Pro 7B,實際卻運行1.5B版本。 在視覺理解方面,Janus Pro表現優於開源視覺模型LlaVa,能更準確描述場景並根據視覺提示與用戶互動,但在需要邏輯推理的任務上,則不及GPT Vision。圖像生成方面,雖然DeepSeek聲稱Janus Pro超越SD 1.5、SDXL及Pixart Alpha,但此比較應基於未經微調的基礎模型。與經過微調的版本相比,Janus Pro在圖像質量和細節上仍有提升空間,生成的圖像清晰度不及SDXL。然而,Janus Pro的多模態能力使其在應用上更具靈活性。 DeepSeek的突破,不僅在於其低成本AI模型的開發,更在於其挑戰了整個AI產業的效率。 與OpenAI和Anthropic等巨頭動輒數十億美元的研發投入相比,DeepSeek以相對微薄的成本,取得了可比擬的成果,凸顯了AI產業發展模式的潛在變革。 Janus Pro的未來發展及市場接受度,將取決於後續的更新和社群支持。 其開源策略,或將重塑AI產業的競爭格局,並對Nvidia等晶片巨頭的市場地位構成持續性挑戰。

Read More