
太多垃圾數據!Grok或迎徹底改造 避免被繼續污染
近日,伊隆·馬斯克通過社交平台X,宣布將徹底改造Grok的訓練機制。他明確指出,當前所有基礎模型的訓練資料,都因含有大量「雜訊與錯誤」而存在根本缺陷。「我們將使用Grok 3.5(也許應稱為4)來重寫整個人類知識體系,」馬斯克寫道,「然後用這個版本重新訓練模型,避免再從垃圾資料中學習。」
馬斯克的「淨化」宣言:用AI重塑AI的基石
此宣言標誌著一種與業界主流截然不同的解決路徑。目前,多數科技巨頭主要透過複雜的篩選演算法與大量人工標註,來「清洗」從互聯網抓取的數據。相較之下,馬斯克的方案更為激進,他打算跳過「挑揀」步驟,直接「創造」一個全新的、更理想的數據源。其構想是,先開發出具備高階推理能力的Grok 4.0,再利用這個頂級AI去系統性地審查、修正並補全現有的人類知識,最終產出一套經AI驗證的全新知識體系,以此作為下一代Grok的唯一訓練基礎。此舉若成功,xAI或將打造出在準確性與邏輯性上遠超對手的AI,但其挑戰同樣巨大,包括如何驗證由AI重寫的知識庫的客觀性。
AI的訓練數據困境
馬斯克口中的「垃圾數據」,是大型語言模型(LLM)發展至今最大的挑戰。這些「垃圾」主要涵蓋數個層面。首先是事實性錯誤與虛假資訊,互聯網上充斥的錯誤內容會被AI無差別吸收。其次是偏見與刻板印象,源於人類社會的訓練數據,自然也反映了其中存在的各種歧視,AI學習後會在回答中複製這些偏見。再者是邏輯矛盾與低質內容,網路論壇的爭論、內容農場的文章都會損害AI的推理能力。最後,還存在「模型崩潰」的風險,即新一代AI若學習了由前代AI生成的、可能存在缺陷的內容,將陷入品質不斷下降的惡性循環。
當模型在充滿「垃圾」的數據上訓練,其後果會直接影響終端用戶。最常見的負面影響是模型產生一本正經的「胡說八道」,即所謂的「AI幻覺」,這對於依賴AI進行專業決策的用戶可能導致嚴重損失。同時,一個在偏見數據上訓練的模型,會給出帶有歧視性的回答,不僅冒犯用戶,更在無形中加劇社會矛盾。最終,一個頻繁出錯、邏輯混亂的AI,會迅速摧毀用戶的信任,使其作為生產力工具的價值大打折扣。
行業的應對與Grok的另闢蹊徑
面對數據污染的挑戰,各大科技公司都在積極尋找出路。目前業界的核心技術之一是「人類回饋強化學習」(RLHF)。此流程相當於讓大量人類評審對AI生成的答案進行評分和排序,引導模型產出更符合人類價值觀的內容。此外,建立高品質的「精選數據集」也是關鍵策略,企業會投入巨資購入專業書籍、學術論文等版權內容,以高權重數據「稀釋」來自公開網絡的低質數據影響。
這些方法都面臨成本高昂、規模受限以及人類標註者自身也可能帶有偏見等問題。正因如此,馬斯克提出的「用AI淨化數據」方案才顯得如此與眾不同,它試圖從根源上解決問題,而非僅是修補。
Text by BusinessFocus Editorial
免責聲明:本網頁一切言論並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力自行作出投資決定,如因相關言論招致損失,概與本公司無涉。投資涉及風險,證券價格可升可跌。