網絡爬蟲 - cftime.io

由於「這問題」近九成頂級媒體封鎖AI機械人

Admin2 years ago2 years ago01 mins

越來越多的頂級媒體機構在版權侵權和未獲補償的內容使用問題上，對人工智能（AI）公司使用的網絡爬蟲進行封鎖。根據《Wired》報道，美國88%的頂級媒體封鎖AI機械人，限制AI公司的數據收集活動。這些爬蟲所收集的數據被用於訓練聊天機器人和其他AI項目。掌握最新加密市場動態與 AI （ChatGPT）新聞與資訊，請即追蹤 CFTime Facebook 及 Linkedin！一份由安大略省的AI檢測初創公司Originality AI進行的調查顯示，幾乎所有44間接受調查的頂級新聞網站都封鎖了AI網絡爬蟲，包括《紐約時報》、《華盛頓郵報》和《衛報》等知名媒體機構。頂級媒體封鎖AI機械人以OpenAI的GPTBot最廣泛調查還揭示，OpenAI的GPTBot是被封鎖最廣泛的網絡爬蟲。Originality的調查指出，大部分網絡爬蟲受到的限制是在OpenAI於2023年8月宣佈該爬蟲將遵守robots.txt標誌之後出現的。而robots.txt文件則是網站用來告知網絡爬蟲是否受歡迎或被禁止的標誌。延伸閱讀：OpenAI反擊紐約時報版權訴訟指控暗指對方欺騙AI 新聞機構對AI活動的抵制反映了版權侵權和數據收集問題的不斷加劇的緊張關係。隨著人工智能技術的蓬勃發展，該行業的主要參與者因為在模型訓練中使用的數據而受到批評。去年12月，《紐約時報》對OpenAI提出一項版權侵權訴訟，指控其未經授權使用了該報的大量文章。這一法律行動被視為自人工智能技術崛起以來的首例類似訴訟。《紐約時報》主張，數百萬篇文章被用於訓練聊天機械人，並且這些訓練過的聊天機器人現在成為可靠信息的替代來源，帶來競爭壓力。此外，該媒體巨頭要求OpenAI承擔「數十億美元的法定和實際損害」責任。這一案件凸顯了AI技術應用所引發的版權和道德問題，將為相關領域的未來發展帶來重大影響。

OpenAI擬推出GPT-5 涉大規模網絡爬取引發私隱問題

Admin3 years ago3 years ago01 mins

以聊天機械人聞名的 ChatGPT 所屬的人工智能公司 OpenAI，已經將 “GPT-5” 一詞註冊商標，意味將推出推出GPT-5，並計劃推出名為 GPTBot 的網絡爬蟲機械人，以擴大其用於訓練下一代 AI 系統的數據集。然而，這一舉措引發了私隱和同意問題的關注。較早前 OpenAI 已經將 “GPT-5” 一詞註冊商標，這表明他們正在訓練下一代模型。這意味著新模型可能涉及大規模的網絡爬取，以更新和擴展其訓練數據。根據 OpenAI 說明，GPTBot 將收集公開可用的網站數據，但將避免收集付費、敏感和禁止的內容。該系統默認選擇退出，即假設可訪問的信息是可以使用的。為了防止 OpenAI 的網絡爬蟲爬取網站，網站擁有人必須在服務器上添加拒絕訪問規則。然而，這一做法引發了一些人的關注。一些用戶認為，OpenAI 需要收集更多數據，以提升其生成式 AI 工具的功能。他們認為，如果人們希望未來擁有一個功能強大的 AI 工具，就需要提供更多的數據。然而，另一些人則關注私隱問題。他們指出，OpenAI 在沒有徵求同意的情況下使用互聯網上的信息，這可能對用戶的私隱造成潛在威脅。但亦有意見指：「他們仍然需要當前數據，否則他們的 GPT 模型將永遠停留在 2021 年 9 月。」倫理學家認為推出GPT-5應該更加注重透明度然而，一些技術倫理學家認為，這種做法仍然引發了同意問題。他們認為，OpenAI 應該更加注重透明度，徵求用戶的同意，並確保使用者的數據受到適當的保護。 GPTBot 指，將收集公開可用的網站數據，但將避免收集付費、敏感和禁止的內容。該系統默認選擇退出，即假設可訪問的信息是可以使用的。為了防止 OpenAI 的網絡爬蟲爬取網站，網站擁有人必須在服務器上添加拒絕訪問規則。 OpenAI 的網絡爬蟲和 GPT-5 的推出將繼續引發關注和討論。隨著人工智能領域的發展，將需要解決這些問題，以確保技術的合理和負責任的應用。 ChatGPT 現時每月活躍用戶超過15億。微軟對 OpenAI 的 100 億美元投資似乎很有前瞻性，因為 ChatGPT的集成提升了必應的能力。目前，OpenAI在炙手可熱的AI領域中處於領先地位，技術巨頭們競相追趕。如社交媒體巨頭 Meta 提供了一個開源的語言模型，用戶可以免費使用該模型，並且可以使用自己的數據集來微調模型。Meta…

聊天機器人的代價 ChatGPT涉數據盜竊而被控集體訴訟

Admin3 years ago3 years ago01 mins

OpenAI 旗下 ChatGPT涉數據盜竊而被控集體訴訟。該公司開發的 ChatGPT 被指控非法收集了數百萬用戶的社交媒體評論、博客文章、維基百科文章和家庭食譜等數據，並未經相應用戶同意進行訓練。本案於 6 月 28 日在美國加州北部地區聯邦地區法院受理，原告由 Clarkson Law Firm 代表，涉及16名原告和 OpenAI 以及微軟。延伸閱讀：一文看清｜生成式人工智能Generative AI歷史及運作方式該訴訟聲稱，OpenAI 侵犯了數百萬互聯網用戶的版權和私隱。如果屬實，OpenAI 將違反《計算機欺詐和濫用法》—— 一項在網絡爬蟲案件中有先例的法律。 OpenAI 被指控使用被盜私人信息，包括可識別個人身份的信息，從數億互聯網用戶中收集，包括所有年齡段的兒童，而這些信息未經他們知情或同意。本案的原告之一表示：「我認為 OpenAI 的行為嚴重侵犯了我和其他人的私隱和版權，他們擅自使用了我們的數據，而我們在此過程中沒有給予任何同意或授權。」 ChatGPT涉數據盜竊涉社交媒體、博客文章、新聞文章等 OpenAI 是一家人工智慧研究機構，該公司的ChatGPT聊天機器人憑藉其自然語言處理技術而聲名大噪。然而，本案的涉及範圍不僅限於 ChatGPT ，而是涉及 OpenAI 的整個產品線。該訴訟還聲稱，OpenAI 產品使用被盜私人信息，包括可識別個人身份的信息，而這些信息未經他們知情或同意。此案的訴訟文件指出，OpenAI 使用的數據來源包括社交媒體、博客文章、新聞文章、維基百科和其他公開數據庫等，而這些數據是從互聯網上收集而來的。在聲明中，原告聲稱，OpenAI 使用這些數據來訓練其人工智慧模型，而這些數據中包含了許多私人信息和個人身份信息。值得留意的是，微軟是 OpenAI 的主要投資者之一，因此也被列為被告之一。微軟並未對此案件發表評論。