Janus Pro

DeepSeek再下一城推Janus Pro 其全新開源AI模型能否超越OpenAI?

中國人工智能新創公司DeepSeek近日發布其全新開源多模態AI模型Janus Pro,在業界投下震撼彈。此模型參數規模涵蓋10億至70億,最大版本Janus Pro 7B據稱在GenEval和DPG-Bench等業界基準測試中超越OpenAI的DALL-E 3,以及PixArt-alpha、Emu3-Gen和SDXL等領先模型。Janus Pro已在Huggingface平台上公開發布,供用戶免費下載。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! 此舉緊隨DeepSeek的R1語言模型引發的業界震盪之後。R1以僅500萬美元的開發成本,達到與GPT-4匹敵的性能,引發關於AI產業成本結構和發展模式的激烈討論,並令科技巨頭如Nvidia等感受到巨大壓力,Nvidia更在周一遭遇歷史上單日市值最大跌幅。 Janus Pro採用「新型自迴歸框架」 DeepSeek宣稱Janus Pro採用「新型自迴歸框架」,將視覺編碼解耦到不同路徑,同時維持單一統一的變壓器架構,實現768×768分辨率的圖像分析和生成。DeepSeek在其發布文件指出,Janus Pro的簡潔性、高靈活性及有效性使其成為下一代統一多模態模型的強有力競爭者。 與R1不同,DeepSeek此次未發布完整白皮書,但提供了技術文檔及模型下載。此開源策略與美國科技巨頭的閉源模式形成鮮明對比。 Janus Pro的表現如何?雖然其多模態功能(文本生成、圖像分析及生成)使其用途廣泛,但在單一任務表現上,與專精於單一功能的模型相比,並未展現壓倒性優勢。目前,用戶需通過終端文本命令操作,無法直接使用傳統UI界面(如Comfy、A1111、Focus及Draw Things)。部分Huggingface用戶已建立空間供測試,但需注意部分空間提供的版本與宣稱版本不符,例如聲稱運行Janus Pro 7B,實際卻運行1.5B版本。 在視覺理解方面,Janus Pro表現優於開源視覺模型LlaVa,能更準確描述場景並根據視覺提示與用戶互動,但在需要邏輯推理的任務上,則不及GPT Vision。圖像生成方面,雖然DeepSeek聲稱Janus Pro超越SD 1.5、SDXL及Pixart Alpha,但此比較應基於未經微調的基礎模型。與經過微調的版本相比,Janus Pro在圖像質量和細節上仍有提升空間,生成的圖像清晰度不及SDXL。然而,Janus Pro的多模態能力使其在應用上更具靈活性。 DeepSeek的突破,不僅在於其低成本AI模型的開發,更在於其挑戰了整個AI產業的效率。 與OpenAI和Anthropic等巨頭動輒數十億美元的研發投入相比,DeepSeek以相對微薄的成本,取得了可比擬的成果,凸顯了AI產業發展模式的潛在變革。 Janus Pro的未來發展及市場接受度,將取決於後續的更新和社群支持。 其開源策略,或將重塑AI產業的競爭格局,並對Nvidia等晶片巨頭的市場地位構成持續性挑戰。

Read More
ChatGPT大升級

ChatGPT大升級 現在能「看、聽、說」

人工智能(AI)技術公司OpenAI最近對其受歡迎的聊天機械人ChatGPT大升級,使其能夠與圖片和聲音進行互動。這一升級標誌著OpenAI在實現人工通用智能方面的重要進展,該智能可以感知和處理多種形式的信息,不僅僅是文字。 掌握最新加密市場動態與 AI (ChatGPT)新聞與資訊,請即追蹤 CFTime Facebook 及 Instgram! OpenAI在其官方博客文章中表示,他們開始推出ChatGPT的新語音和圖像功能,這些功能提供了一種新的、更直觀的界面,讓用戶可以通過語音對話或展示圖片來與ChatGPT進行交互。 ChatGPT-Plus是OpenAI提供的一種訂閱服務,採用了一種新的文本轉語音模型,使其具備語音聊天的功能。此外,OpenAI還將其圖像生成模型(可能是GPT-V或GPT Vision的一部分)與ChatGPT集成,使其能夠討論圖像內容。這些新功能被認為是即將推出的GPT-4的重要組成部分。 ChatGPT大升級 利用DALL-E 3 這次升級是在OpenAI最近推出其最先進的文本轉圖像生成器DALL-E 3之後進行的。DALL-E 3以其高質量和準確性而受到早期測試者的讚譽,它可以根據文本提示生成高保真度的圖像,同時理解自然語言中的上下文和概念。DALL-E 3將與GPT-4驅動的ChatGPT Plus集成,這意味著ChatGPT將能夠以更加人類化的方式感知世界。OpenAI表示,語音和圖像功能將使用戶能夠在日常生活中以更多方式使用ChatGPT,比如在旅行時通過拍攝地標照片並進行實時對話。 微軟也在推動AI競爭,通過與OpenAI合作整合其先進的生成AI能力到其產品中。在最近的秋季活動中,微軟宣布將AI升級應用於Windows 11、Office和Bing搜索等產品,並利用OpenAI的DALL-E 3等模型改進其繪圖程式Paint等圖像調整工具,以及OpenAI的編程助手Copilot。 微軟此舉與其對OpenAI的高額投資相一致,微軟投資了超過100億美元,旨在在AI助手競爭中取得領先地位。Copilot將在Windows 11中推出,使得AI助手能夠在微軟各個平台和設備上提供幫助。此外,微軟還計劃在Microsoft 365聊天中整合OpenAI的生成AI技術,以提供跨郵件、會議、聊天和文件等多種數據源的功能。

Read More