DALL-E 3 - cftime.io

DeepSeek再下一城推Janus Pro 其全新開源AI模型能否超越OpenAI？

Admin1 year ago1 year ago01 mins

中國人工智能新創公司DeepSeek近日發布其全新開源多模態AI模型Janus Pro，在業界投下震撼彈。此模型參數規模涵蓋10億至70億，最大版本Janus Pro 7B據稱在GenEval和DPG-Bench等業界基準測試中超越OpenAI的DALL-E 3，以及PixArt-alpha、Emu3-Gen和SDXL等領先模型。Janus Pro已在Huggingface平台上公開發布，供用戶免費下載。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！此舉緊隨DeepSeek的R1語言模型引發的業界震盪之後。R1以僅500萬美元的開發成本，達到與GPT-4匹敵的性能，引發關於AI產業成本結構和發展模式的激烈討論，並令科技巨頭如Nvidia等感受到巨大壓力，Nvidia更在周一遭遇歷史上單日市值最大跌幅。 Janus Pro採用「新型自迴歸框架」 DeepSeek宣稱Janus Pro採用「新型自迴歸框架」，將視覺編碼解耦到不同路徑，同時維持單一統一的變壓器架構，實現768×768分辨率的圖像分析和生成。DeepSeek在其發布文件指出，Janus Pro的簡潔性、高靈活性及有效性使其成為下一代統一多模態模型的強有力競爭者。與R1不同，DeepSeek此次未發布完整白皮書，但提供了技術文檔及模型下載。此開源策略與美國科技巨頭的閉源模式形成鮮明對比。 Janus Pro的表現如何？雖然其多模態功能（文本生成、圖像分析及生成）使其用途廣泛，但在單一任務表現上，與專精於單一功能的模型相比，並未展現壓倒性優勢。目前，用戶需通過終端文本命令操作，無法直接使用傳統UI界面（如Comfy、A1111、Focus及Draw Things）。部分Huggingface用戶已建立空間供測試，但需注意部分空間提供的版本與宣稱版本不符，例如聲稱運行Janus Pro 7B，實際卻運行1.5B版本。在視覺理解方面，Janus Pro表現優於開源視覺模型LlaVa，能更準確描述場景並根據視覺提示與用戶互動，但在需要邏輯推理的任務上，則不及GPT Vision。圖像生成方面，雖然DeepSeek聲稱Janus Pro超越SD 1.5、SDXL及Pixart Alpha，但此比較應基於未經微調的基礎模型。與經過微調的版本相比，Janus Pro在圖像質量和細節上仍有提升空間，生成的圖像清晰度不及SDXL。然而，Janus Pro的多模態能力使其在應用上更具靈活性。 DeepSeek的突破，不僅在於其低成本AI模型的開發，更在於其挑戰了整個AI產業的效率。與OpenAI和Anthropic等巨頭動輒數十億美元的研發投入相比，DeepSeek以相對微薄的成本，取得了可比擬的成果，凸顯了AI產業發展模式的潛在變革。 Janus Pro的未來發展及市場接受度，將取決於後續的更新和社群支持。其開源策略，或將重塑AI產業的競爭格局，並對Nvidia等晶片巨頭的市場地位構成持續性挑戰。

ChatGPT大升級現在能「看、聽、說」

Admin2 years ago2 years ago01 mins

人工智能（AI）技術公司OpenAI最近對其受歡迎的聊天機械人ChatGPT大升級，使其能夠與圖片和聲音進行互動。這一升級標誌著OpenAI在實現人工通用智能方面的重要進展，該智能可以感知和處理多種形式的信息，不僅僅是文字。掌握最新加密市場動態與 AI （ChatGPT）新聞與資訊，請即追蹤 CFTime Facebook 及 Instgram！ OpenAI在其官方博客文章中表示，他們開始推出ChatGPT的新語音和圖像功能，這些功能提供了一種新的、更直觀的界面，讓用戶可以通過語音對話或展示圖片來與ChatGPT進行交互。 ChatGPT-Plus是OpenAI提供的一種訂閱服務，採用了一種新的文本轉語音模型，使其具備語音聊天的功能。此外，OpenAI還將其圖像生成模型（可能是GPT-V或GPT Vision的一部分）與ChatGPT集成，使其能夠討論圖像內容。這些新功能被認為是即將推出的GPT-4的重要組成部分。 ChatGPT大升級利用DALL-E 3 這次升級是在OpenAI最近推出其最先進的文本轉圖像生成器DALL-E 3之後進行的。DALL-E 3以其高質量和準確性而受到早期測試者的讚譽，它可以根據文本提示生成高保真度的圖像，同時理解自然語言中的上下文和概念。DALL-E 3將與GPT-4驅動的ChatGPT Plus集成，這意味著ChatGPT將能夠以更加人類化的方式感知世界。OpenAI表示，語音和圖像功能將使用戶能夠在日常生活中以更多方式使用ChatGPT，比如在旅行時通過拍攝地標照片並進行實時對話。微軟也在推動AI競爭，通過與OpenAI合作整合其先進的生成AI能力到其產品中。在最近的秋季活動中，微軟宣布將AI升級應用於Windows 11、Office和Bing搜索等產品，並利用OpenAI的DALL-E 3等模型改進其繪圖程式Paint等圖像調整工具，以及OpenAI的編程助手Copilot。微軟此舉與其對OpenAI的高額投資相一致，微軟投資了超過100億美元，旨在在AI助手競爭中取得領先地位。Copilot將在Windows 11中推出，使得AI助手能夠在微軟各個平台和設備上提供幫助。此外，微軟還計劃在Microsoft 365聊天中整合OpenAI的生成AI技術，以提供跨郵件、會議、聊天和文件等多種數據源的功能。

DeepSeek再下一城推Janus Pro 其全新開源AI模型能否超越OpenAI？

ChatGPT大升級 現在能「看、聽、說」

ChatGPT大升級現在能「看、聽、說」