圖像生成 - cftime.io

Google「香蕉」升級！Nano Banana 2震撼發布：4K畫質、14物體同框，搜尋與創作無縫打通

Derek Chan3 weeks ago3 weeks ago01 mins

Google正以一款命名獨特的AI模型，加速其圖像生成技術的全面普及。公司正式發布Nano Banana 2（技術名稱Gemini 3.1 Flash Image），作為驅動Gemini應用、Flow影片編輯工具及Google搜尋的核心圖像引擎。此舉標誌著Google將AI圖像能力從獨立功能，升級為橫跨創作、編輯與搜尋的底層基礎設施。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！技術升級：速度、解析度與複雜場景處理相較於2025年8月推出的初代Nano Banana及後續的Pro版本，Nano Banana 2在效能與品質間取得新平衡：整合版圖：從Gemini、Flow到Google搜尋 Nano Banana 2的部署範圍遠超單一應用：對於訂閱Google AI Pro與Ultra的高階用戶，仍可選擇使用Nano Banana Pro進行專業任務，並透過選單在速度與最高品質間進行比較。 Nano Banana 2戰略意圖：圖像生成成為搜尋與發現的核心此次大規模部署，清晰揭示Google的戰略意圖：將AI圖像生成能力從「創作者工具」轉變為「日常搜尋與發現的核心組件」。當用戶透過Google Lens搜尋物體，或在AI模式中查詢視覺資訊時，Nano Banana 2將在背後提供即時的圖像理解與生成支援。市場背景：AI圖像競爭白熱化 Google此次升級，發生在AI圖像生成市場競爭白熱化之際。OpenAI、Midjourney等對手持續推出新功能，而Google憑藉其搜尋分發優勢與跨產品整合能力，試圖在「圖像生成」與「圖像檢索」的交匯處建立獨特定位。結論：從生成到整合的下一個戰場 Nano Banana 2的推出，不僅是一次技術迭代，更是Google將AI圖像能力深度嵌入其核心產品矩陣的戰略行動。當圖像生成不再是一個獨立標籤，而是搜尋、創作與發現過程中無所不在的背景能力時，Google正試圖定義AI時代視覺資訊互動的新標準。

吉卜力風格席捲全球 OpenAI圖像生成功能爆紅引發伺服器危機

Admin12 months ago12 months ago01 mins

OpenAI近期推出的GPT-4o模型中，其全新圖像生成功能引發全球熱潮，然而，這項功能也讓OpenAI的伺服器不堪負荷，陷入緊急狀態。該功能能將文字提示或照片轉換為高解析度藝術作品，尤其其將圖片轉換為吉卜力風格的能力，更是引爆社群媒體，短短數日內便湧入數百萬張用戶創作的動漫風格圖片。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！此現象導致OpenAI的運算基礎設施面臨崩潰邊緣。OpenAI執行長Sam Altman在X上公開抱怨伺服器超載，呼籲用戶減少圖片生成頻率，以確保團隊能有時間休息。此情況源於週四新功能上線後，用戶發現能將任何照片轉換成吉卜力風格圖片，引發病毒式傳播，甚至白宮也加入創作行列，發布了一張以吉卜力風格嘲諷販毒嫌犯的迷因圖。吉卜力風格席捲全球令伺服器超載為應對伺服器超載，OpenAI已採取緊急措施，部分地區已暫停圖像生成功能，其他地區則實施每小時限制生成三張圖片的措施。此舉引發部分用戶不滿，抱怨限制過於隨意。OpenAI隨後宣布，免費用戶每日生成圖片數量將限制為三張，但此限制將在功能正式公開發布後才實施。儘管伺服器面臨壓力，OpenAI卻也因此獲得大量新用戶。據統計，「吉卜力災難」(Ghibligeddon) 在週一一個小時內吸引超過一百萬人註冊ChatGPT帳號，但實際訂閱付費服務的用戶數量尚未公開。Google趨勢數據顯示，「ChatGPT」一詞在該模型推出後一度超越「Google」。 GPT-4o的圖像生成技術與以往AI繪圖工具不同，其採用自迴歸方法，以像素為單位依序生成圖片，此方法雖能產生更精確的細節和文字渲染，卻也大幅增加GPU運算負擔，如同油畫創作與馬賽克創作的差異。每個圖片請求都會觸發大量複雜的數學運算，消耗大量電力並產生高熱，長期以最大運算量運行將損壞硬體。這項伺服器危機正值OpenAI財務狀況面臨挑戰之際。儘管Altman宣稱公司發展良好，但OpenAI每年仍虧損數十億美元，預估2026年虧損將達140億美元。圖像生成功能的龐大運算需求，更進一步加重公司資源負擔。雖然吉卜力風格的迷因熱潮並非能創造數十億美元利潤的革命性應用，但其對OpenAI伺服器造成的衝擊不容小覷。目前，OpenAI正積極優化基礎設施，以期盡快恢復圖像生成功能的完整運作，但尚未公布確切時間。渴望體驗吉卜力風格轉換的用戶，則需耐心等待。

DeepSeek再下一城推Janus Pro 其全新開源AI模型能否超越OpenAI？

Admin1 year ago1 year ago01 mins

中國人工智能新創公司DeepSeek近日發布其全新開源多模態AI模型Janus Pro，在業界投下震撼彈。此模型參數規模涵蓋10億至70億，最大版本Janus Pro 7B據稱在GenEval和DPG-Bench等業界基準測試中超越OpenAI的DALL-E 3，以及PixArt-alpha、Emu3-Gen和SDXL等領先模型。Janus Pro已在Huggingface平台上公開發布，供用戶免費下載。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！此舉緊隨DeepSeek的R1語言模型引發的業界震盪之後。R1以僅500萬美元的開發成本，達到與GPT-4匹敵的性能，引發關於AI產業成本結構和發展模式的激烈討論，並令科技巨頭如Nvidia等感受到巨大壓力，Nvidia更在周一遭遇歷史上單日市值最大跌幅。 Janus Pro採用「新型自迴歸框架」 DeepSeek宣稱Janus Pro採用「新型自迴歸框架」，將視覺編碼解耦到不同路徑，同時維持單一統一的變壓器架構，實現768×768分辨率的圖像分析和生成。DeepSeek在其發布文件指出，Janus Pro的簡潔性、高靈活性及有效性使其成為下一代統一多模態模型的強有力競爭者。與R1不同，DeepSeek此次未發布完整白皮書，但提供了技術文檔及模型下載。此開源策略與美國科技巨頭的閉源模式形成鮮明對比。 Janus Pro的表現如何？雖然其多模態功能（文本生成、圖像分析及生成）使其用途廣泛，但在單一任務表現上，與專精於單一功能的模型相比，並未展現壓倒性優勢。目前，用戶需通過終端文本命令操作，無法直接使用傳統UI界面（如Comfy、A1111、Focus及Draw Things）。部分Huggingface用戶已建立空間供測試，但需注意部分空間提供的版本與宣稱版本不符，例如聲稱運行Janus Pro 7B，實際卻運行1.5B版本。在視覺理解方面，Janus Pro表現優於開源視覺模型LlaVa，能更準確描述場景並根據視覺提示與用戶互動，但在需要邏輯推理的任務上，則不及GPT Vision。圖像生成方面，雖然DeepSeek聲稱Janus Pro超越SD 1.5、SDXL及Pixart Alpha，但此比較應基於未經微調的基礎模型。與經過微調的版本相比，Janus Pro在圖像質量和細節上仍有提升空間，生成的圖像清晰度不及SDXL。然而，Janus Pro的多模態能力使其在應用上更具靈活性。 DeepSeek的突破，不僅在於其低成本AI模型的開發，更在於其挑戰了整個AI產業的效率。與OpenAI和Anthropic等巨頭動輒數十億美元的研發投入相比，DeepSeek以相對微薄的成本，取得了可比擬的成果，凸顯了AI產業發展模式的潛在變革。 Janus Pro的未來發展及市場接受度，將取決於後續的更新和社群支持。其開源策略，或將重塑AI產業的競爭格局，並對Nvidia等晶片巨頭的市場地位構成持續性挑戰。