序#
近期人工智能很火。“環 CN” 的 ChatGPT、Claude、Bing AI、Google Bard;CN 的 文心一言、訊飛星火 …… 而且它們都在飛快進化。ChatGPT 的網頁最底部有一行小字,標識了當前的版本,現在已經進化到了 ChatGPT May 24 Version
。那這些人工智能能夠一直這樣飛快地進化下去嗎?
人工智能的本質,可以被描述為,通過使用數學模型和算法來模擬人類的智能行為和決策過程。
參數是指人工智能模型中可調整的變量,它們用於控制模型的行為和性能。參數越多,模型所考慮的各種可能性越多,模型的輸出結果越全面;參數的值,通常是根據訓練數據來學習得到的,訓練材料越多,模型的輸出結果越優。增加參數和優化參數的值都需要大量的數據。而任意時刻,我們可以利用的學習數據是有限的。
在論文《Will we run out of ML data? Evidence from projecting dataset size trends》中,分析了 “我們是否會用尽機器學習數據” 的問題。
- 2026 年:用完 “高質量數據”
- 2030 年~ 2050 年:用完所有的語言數據
- 2030 年~ 2060 年:用完所有的視覺數據
下面為該論文主要部分的翻譯:
(如果希望直接閱讀原文,請點擊文末鏈接)
基於我們對數據集規模趨勢的先前分析,我們對語言和視覺領域的數據集規模增長進行了預測。我們通過估算未來幾十年內可用的無標籤數據總量來探索這一趨勢的極限。
摘要#
我們分析了自然語言處理和計算機視覺中使用的數據集大小的增長,並利用兩種方法進行了外推;使用歷史增長率和估算未來預測計算預算的計算最優數據集大小。我們通過估計互聯網上未來幾十年可用的未標記數據的總庫存來研究數據使用量的增長。我們的分析表明,高質量語言數據的庫存很快將耗尽;可能在 2026 年之前。相比之下,低質量語言數據和圖像數據的庫存將在更晚的時間耗尽;低質量語言數據在 2030 年至 2050 年之間,圖像數據在 2030 年至 2060 年之間。我們的工作表明,如果不大幅提高數據效率或者有新的數據來源可用,依賴龐大數據集的持續增長的機器學習模型的當前趨勢可能會放緩。
主要觀點#
- 我們使用歷史增長率和基於當前擴展定律和現有計算可用性估計的計算最優數據集大小,來預測視覺和語言模型的訓練數據集的增長(第 III-A 節)。
- 我們還預測了未標記數據總庫存的增長,包括高質量的語言數據(第 III-B 節)。
- 截至 2022 年 10 月,語言數據集每年呈指數增長,增長率超過 50%,其中包含 2e12 個單詞(第 IV-A 節)。
- 目前,語言數據的庫存每年增長 7%,但我們的模型預測到 2100 年將減緩至 1%。這個庫存目前介於 7e13 和 7e16 個單詞之間,比當前使用的最大數據集大 1.5 到 4.5 個數量級(第 IV-B1 節)。
- 根據這些趨勢,我們很可能在 2030 年至 2050 年之間耗盡語言數據(第 IV-D 節)。
- 然而,語言模型通常是基於高質量數據進行訓練的。高質量語言數據的庫存介於 4.6e12 和 1.7e13 個單詞之間,比最大數據集大不到一個數量級(第 IV-B2 節)。
- 我們距離耗盡高質量數據只有一個數量級的差距,這很可能會在 2023 年至 2027 年之間發生(第 IV-D 節)。
- 相較於語言數據,對圖像數據集未來增長的預測就不那麼明顯,因為歷史趨勢在過去四年停止了(出現了使用比以往更多數據的新模型,詳見
[1]
)。然而,增長率似乎可能在每年 18% 至 31% 之間。當前最大的數據集包含 3e9 張圖像(第 IV-A 節)。 - 目前,視覺數據的庫存每年增長 8%,但最終會在 2100 年減速至 1%。目前,它的庫存介於 8.11e12 和 2.3e13 張圖像之間,比當前使用的最大數據集大三到四個數量級(第 IV-C 節)。
- 根據這些趨勢的預測,我們很可能在 2030 年至 2070 年之間耗盡視覺數據(第 IV-D 節)。
I. 介紹#
訓練數據是決定機器學習(ML)模型性能的三個主要因素之一,與算法和計算能力一起共同作用。根據當前對擴展定律的理解,未來的機器學習能力將嚴重依賴於大量可用的數據用於訓練大型模型 [2, 3]
。
之前的研究編制了一個包含 200 多個用於機器學習模型的訓練數據集的數據庫 [1]
,並估計了視覺和語言模型數據集大小的歷史增長率。
為了了解這種趨勢的限制,我們開發了概率模型,估計了 2022 年至 2100 年間可用的圖像和語言數據的總量。基於我們對數據集大小趨勢的預測,我們進一步估計了由於可用數據耗盡而導致這些趨勢的極限。
II. 以往的研究#
數據庫存:關於互聯網規模和可用信息的大小已經有過多種估計[4, 5, 6]
。然而,近年來,這類報告並沒有提供不同數據類型(例如圖像、視頻或博客文章)的詳細分析,而是將所有數據類型彙總成字節的單一數值[7]
。
機器學習中的數據瓶頸:在[8]
中,作者估計了高質量數據的庫存,並使用擴展定律[3]
預測,即使使用計算最優擴展方法,數據庫存也無法使語言模型的規模超過 DeepMind 的 Chinchilla 語言模型[3]
的 1.6 倍。我們通過創建數據集大小增長的明確模型和隨時間變化的數據庫存的更詳細估計來改進這種分析,這使我們能夠預測數據集將變得與總數據庫存一樣大的日期。
III. 研究方法#
A. 預測訓練數據集規模的增長#
先前的研究編制了不同應用領域數據集大小的歷史趨勢(圖 2 所包含的領域包括視覺、語言、推薦、語音、繪畫和遊戲。然而,只有視覺和語言領域的數據具有重要性。)[1]
。
我們對數據集大小的定義是模型訓練所使用的唯一數據點的數量。每個領域對於 "數據點" 的定義不同。特別是,對於語言數據,我們將數據點定義為一個單詞;對於圖像數據,我們將數據點定義為一張圖像。關於這種數據集大小指標選擇的更多細節可以在[1]
中找到。
利用歷史趨勢和迄今為止使用的最大數據集的規模,我們可以估計數據集大小的未來演變。然而,這種預測假設過去的趨勢將無限期地持續下去。實際上,模型能夠訓練的數量存在限制。其中最重要的限制之一是計算可用性。這是因為增加給定模型的訓練數據量需要額外的計算資源,而可以使用的計算資源量受到硬件供應和購買或租用硬件的成本的限制。
為了考慮這一限制,我們進行了另一種預測,基於計算可用性和計算最優數據集大小。擴展定律可用於預測在給定計算預算(以 FLOP 為單位)下,模型大小和數據集大小的最佳平衡[2, 3]
。具體而言,最佳數據集大小與計算預算的平方根成正比:
先前的研究[9]
對未來的可用計算資源進行了預測,針對最大的訓練任務(圖 3 請注意,這個預測存在廣泛的不確定性,並包括了一些情景,其中計算資源的支出可能會增長數個數量級,達到當前水平的 1% GDP 的水平。)。我們利用這些預測來估計在每個未來年份可實現的最佳訓練數據集大小。
B. 估計數據積累速率#
近年來,無監督學習已成功地創建了基礎模型,可以利用少量標記數據和大量無標記數據進行微調,針對多個任務。此外,無監督模型還能夠為無標記數據生成有價值的伪標籤[10]
。出於這些原因,我們將重點關注無標記數據的庫存和積累速度,即使標記數據的數量較少(圖 4 請注意,儘管遷移學習極大地減少了對標記數據的需求,但並沒有完全消除它。此外,相對於無標記數據,標記數據通常更難獲取。因此,儘管所需數量較小,但標記數據可能會成為一個瓶頸。)。
在深入討論細節之前,讓我們考慮一個理論框架,即我們對數據積累速度的預期。絕大部分數據是用戶生成的,並存儲在社交媒體平台、博客、論壇等地。有三個因素決定了在一定時期內產生多少內容:人口數量、互聯網滲透率以及每個互聯網用戶產生的平均數據量。人口數量已經進行了廣泛的研究,因此我們使用標準的聯合國預測數據[11]
。互聯網滲透率(使用互聯網的人口比例)從 1990 年的 0 % 增長到 2018 年的 50 % ,現在已經超過 60 % [12]
。我們將其建模為時間的 sigmoid 函數,並將其擬合到[12]
中的數據。
用戶產生的平均數據量根據地理和時間的互聯網使用趨勢而變化,並且不容易進行分析(這將需要考慮不同國家和時期的文化、人口統計和社會經濟發展的影響,這超出了本文的範圍。)。為簡單起見,讓我們假設用戶產生的平均數據量隨時間保持恆定。
這個互聯網用戶數量的模型與歷史上的互聯網用戶數量非常吻合(圖 2)。為了測試它在預測互聯網數據生成方面的能力,我們對 Reddit 提交數據進行了實證測試,將這個模型與指數模型和 Sigmoid 模型進行了比較。結果顯示,這個模型與數據的擬合效果更好(詳見附錄 C)。
C. 高質量數據的積累速率#
我們已經開發了一個用於用戶生成內容積累速度的模型。然而,對於語言數據而言,這類內容往往比書籍或科學論文等更專業的語言數據質量較低。在後者的數據上訓練的模型表現更好[13]
,因此在訓練語言模型時常常使用這類數據[14, 15, 3]
。對於圖像模型的數據質量以及如何識別高質量的圖像數據,我們了解甚少(除了像圖像分辨率這樣非常粗略的指標之外,還有其他指標可以評估圖像數據的質量。例如,比較在不同常用數據集上訓練的圖像 - 文本模型在分佈變化下的魯棒性,結果顯示沒有單一的數據集可以在所有變化下都產生更好的魯棒性[16]
。),因此在本節中我們將重點關注語言。
由於我們對使用高質量與低質量數據涉及的權衡方面的研究了解有限,我們分別提供了高質量數據和低質量數據的估計和增長預測。為了確定高質量數據,我們依賴從業者的專業知識,並查看用於訓練大型語言模型的數據集的組成。這些數據集中最常見的來源包括書籍、新聞文章、科學論文、維基百科和經過篩選的網絡內容(篩選後的網絡內容是使用質量的代理度量選擇的常規網絡內容,例如在 Reddit 上共享的鏈接的點讚數,MassiveWeb 和 WebText 數據集就是以這種方式構建的;其他常見的數據來源包括 GitHub(用於代碼)、教育視頻的字幕和轉錄、播客或議會會議的記錄,以及電子郵件)。
這些數據來源的一個共同特點是它們包含經過有用性或質量篩選的數據。例如,在新聞、科學文章或開源代碼項目的情況下,有用性篩選是由專業標準(如同行評審)所強制的。在維基百科的情況下,篩選是通過在一個致力於編輯的社區中經歷時間考驗來實現的。在經過篩選的網絡內容的情況下,篩選是通過獲得許多用戶的積極參與來實現的。儘管存在不完美的情況,但這個特性可以幫助我們識別高質量數據的其他來源,因此我們將其作為我們對高質量數據的工作定義。
一些高質量數據,如經過篩選的網絡內容和維基百科,是由專注於互聯網的貢獻者生成的。這意味著我們可以使用同樣的模型來處理一般用戶生成的內容。
然而,其他高質量數據的來源是由領域專家(如科學家、作者和開源開發人員)生成的。在這種情況下,生成速率不是由人口或互聯網滲透率決定,而是由經濟規模和經濟中用於創意領域(如科學和藝術)的份額決定。
在過去的 20 年中,經合組織(OECD)國家的研發支出大致上佔據了其國內生產總值(GDP)的 2 % [17]
。儘管這個數字在緩慢增長,但我們將假設它基本上保持穩定。因此,數據積累速率應該與世界經濟規模大致成比例,而世界經濟每年增長約為 4 % 。這個預測與科學出版物的觀察增長一致[18]
。
我們通過查看現有數據集並將它們的子組件分類到不同的類別中,來估計高質量數據中這兩類數據(專注貢獻者和專業人士)的比例。
D. 限制因素#
我們對數據集大小增長率的估計可能存在一些錯誤的原因:
-
未來可能需要更少的數據才能達到相同水平的性能。這種可能性特別高,因為在其他領域曾經出現過大規模的數據效率提升
[19, 8]
。 -
計算資源的可用性可能增長速度低於預期,原因可能包括技術上的效率提升障礙、供應鏈中斷或者減少願意投入的情況。
-
當前的縮放規律可能是錯誤的,就像過去發生過的情況一樣(在
[2]
中,作者建議每增加 10 倍的計算資源,將訓練數據集大小增加五倍。而在較近的[3]
中,他們重新審視了這個問題,並建議每增加 10 倍的計算資源,將訓練數據集大小增加三倍。)。即使沒有額外的數據效率提升,可能存在使用更少數據的更好的縮放方式。 -
多模態模型可能通過遷移學習表現更好,這將有效地將數據庫擴展到包括所有數據模態的組合。
此外,我們對數據庫估計存在一些限制:
- 使用合成數據可以使數據庫幾乎無限。我們對合成數據的有用性和訓練成本存在不確定性。
- 大規模採用自動駕駛汽車可能會導致前所未有數量的道路視頻記錄,這種經濟變革可能會顯著影響數據的產生。
- 同樣,具有大量預算的行為者(如政府或大型企業)可能能夠通過足夠的投資增加數據的生產,尤其是在利基領域的高質量數據方面。一些可能性包括廣泛的屏幕錄製或大規模監視。
- 我們可能會找到更好的方法從低質量的來源中提取高質量的數據,例如通過設計穩健的自動質量度量標準。
IV. 分析#
A. 數據集大小的趨勢#
前期的研究[1]
確定了不同領域訓練數據集的歷史增長率。由於語言和視覺領域是唯一具有大量數據的領域,我們將限定我們的分析在這兩個領域進行。這些趨勢已在 表格 I 中概述。
B. 語言數據#
1) 低質量數據#
我們使用了五種不同的模型來估計數據量和積累速度。表格 II 總結了這些不同的模型,其中在圖 3a 中進行了進一步的說明,並在附錄 A 中進行了更詳細的解釋。綜合模型估計當前總庫存量在 6.9e13 到 7.1e16 個單詞之間,當前增長率在每年 6.41% 到 17.49% 之間。
需要注意的是,這一估計的高端來自於我們最不信任的兩個高度理論化的模型。我們對這個範圍的解釋是:1e14 個單詞是像谷歌這樣的單一、資金充裕的參與者非常可能擁有的;1e15 個單詞是所有主要參與者(即所有科技公司)集體擁有的;1e16 個單詞是人類可能能夠通過全球範圍內、持續多年的努力來共同產生的,採用一些目前在 Overton 窗口之外的實踐方法,如記錄所有的短信、電話和視頻會議。
將綜合數據庫存模型作為數據集擴展的上限,我們對訓練數據集的大小進行了預測,發現它在耗尽數據庫存之前迅速增長。在此點之後,增長速度顯著減慢(圖 3c)。
表格 II
2) 高質量數據#
我們通過研究幾個高質量數據集的組成,以及確定每個組成部分的可擴展性,來研究高質量數據。我們考慮了三個數據集:The Pile [13]
,MassiveText [3]
和 PaLM 預訓練數據集 [15]
。
從這些數據集中,我們可以看到高質量數據集通常由以下組成部分構成:50% 的用戶生成內容(如 Pile-CC、OpenWebText2、社交媒體對話、篩選後的網頁、MassiveWeb、C4),15-20% 的書籍,10-20% 的科學論文,<10% 的代碼和 < 10% 的新聞。此外,它們都包含了諸如維基百科等已知的小型高質量數據集(圖 4a)。
我們估計了數字化圖書、公共 GitHub 倉庫和科學論文中的可用文本數量。假設這些文本佔據了假設的高質量數據集的 30 % 到 50 %,我們可以得到 9e12 [4.6e12; 1.7e13]
個單詞。我們假設高質量數據的數量以每年 4-5 % 的速度增長,與全球經濟趨勢保持一致,如介紹中所解釋的(參見圖 4b)。模型的詳細信息可以在附錄 A 中找到。
使用高質量數據庫存作為上限來預測語言數據集的增長,而不是使用低質量數據庫存,我們發現了相同的減速模式,但不同之處在於減速發生得更早,在 2026 年之前就開始(圖 4c)。
C. 視覺數據#
對於視覺領域,我們使用了兩種不同的估計方法:一種是由 Rise Above Research [20]
提供的估計,另一種是使用了發布在最流行社交媒體平台上的圖像和視頻的組合。綜合模型顯示,今天互聯網上的圖像數量在 8.11e12 到 2.3e13 之間,當前年增長率約為 8%。這些模型在表格 III 和圖 5a 中進行了總結。
將綜合數據庫存模型作為數據集擴展的上限,我們根據歷史趨勢和計算優化的外推,預測了訓練數據集的大小。由於我們尚不清楚最近的高異常值是否表明了一種新的更高增長趨勢,因此歷史投影是非常不確定的。與語言相比,計算投影也更加不確定,因為我們對於視覺領域的擴展規律沒有很好的理解。(這是因為圖像可以具有不同的分辨率,所以圖像的分詞處理比文本的分詞處理更加多變。)
與語言情況類似,數據集的大小在達到數據庫存大小之前呈指數增長,此後增長速度顯著減慢(圖 5c)。
我們對於未標記的視覺數據的數據質量及如何區分高質量數據的影響尚不清楚,因此我們沒有嘗試對其進行估計。
TABLE III
D. 數據是否會成為瓶頸?#
到目前為止,我們發現數據庫存的增長速度遠遠低於訓練數據集的大小(參見圖 3c、4c 和 5c)。這意味著如果當前趨勢持續下去,耗盡我們的數據庫存是不可避免的。此外,高質量數據庫存的規模遠遠小於低質量數據庫存的規模。基於歷史趨勢和計算可用性的數據集大小預測在最初幾年非常相似,但之後開始出現分歧。
我們計算了每年數據庫存和數據集大小耗尽的概率(圖 6)。儘管低質量語言和視覺庫存的耗盡日期存在相當大的不確定性,但在 2030 年之前或 2060 年之後耗盡的可能性似乎不大。然而,如果當前趨勢持續下去,高質量語言庫存幾乎肯定會在 2027 年之前耗盡。這些分佈的分位數在表格 IV 中顯示。
V. 討論#
語言模型的擴展規律表明,擴展性取決於可用數據的數量 [3, 8]
。在這種觀點下,過去四年中語言模型改進的大約一半來自於在更多數據上進行訓練。如果沒有進一步的數據擴展空間,這將導致人工智能進展的放緩。
無論是從歷史上還是從計算限制的角度來看,語言和視覺模型的數據積累速度遠遠慢於我們迄今觀察到的數據集大小的增長。因此,我們可能會面臨訓練數據的瓶頸。這將在 2030 年至 2040 年之間對語言模型產生影響,並在 2030 年至 2060 年之間對圖像模型產生影響(圖 6)。
對於高質量的語言數據而言,這一點尤其明顯,它似乎可能在 2027 年之前就會耗盡。目前尚不清楚大型數據集是否可以替代質量較差的數據,但即使如此,這也不足以完全避免放緩,因為我們擴展訓練數據集的能力也受到計算可用性的限制。
根據這些預測,人們可能會認為放緩是不可避免的。然而,我們有足夠的理由相信,我們的模型沒有充分捕捉到機器學習進展的演變(參見 限制因素 部分)。
尤其是數據效率的未來演變和數據質量對性能的影響對於預測未來的數據需求至關重要。不幸的是,我們對這些變量的理解還不足以提供詳細的預測。未來的工作可以嘗試將這些考慮因素納入分析中。
VI. 結論#
我們已經預測了訓練數據集大小和數據庫存的增長。數據庫存的增長速度遠遠慢於數據集大小的增長速度,因此如果當前趨勢持續下去,由於數據耗盡的原因,數據集最終將停止增長。根據我們的模型,這可能會在 2030 年至 2040 年之間發生在語言數據上,而在視覺數據上可能會在 2030 年至 2060 年之間發生。此外,高質量語言數據將在 2026 年之前耗盡。
如果我們的假設是正確的,數據將成為擴展機器學習模型的主要瓶頸,並且我們可能會因此看到人工智能進展的放緩。然而,正如前面所述,有多個理由懷疑這些趨勢會按照預測的方式持續下去,例如在數據效率方面可能存在算法創新的可能性。
其他#
參考資料 等部分,請前往英文原文查看: Will we run out of ML data? Evidence from projecting dataset size trends
那麼數據資源的枯竭之後呢?
存在一些潛在的解決方案和可能的發展方向:
- 數據增強技術:數據增強是一種利用現有數據生成更多訓練樣本的技術。通過應用各種數據變換、擾動和合成方法,可以擴充訓練數據的規模和多樣性。數據增強可以在一定程度上幫助模型更好地學習和泛化,即使在有限的原始數據集上也能獲得較好的效果。
- 遷移學習:遷移學習是利用已有的知識和模型來幫助解決新問題的技術。通過將已經訓練好的模型或者部分模型應用到新的任務上,可以利用已有的知識和經驗,從而減少對大量新數據的依賴。遷移學習可以在數據有限的情況下實現模型的優化和加速。
- 強化學習和自主學習:強化學習是一種通過與環境的互動來學習最優行為的技術。相對於傳統的監督學習,強化學習可以更好地適應少量數據的情況。此外,自主學習技術也可以使機器能夠從環境中主動收集信息和經驗,並通過不斷的自我訓練和探索來提升自身能力。
- 數據共享和合作:在數據資源有限的情況下,合作和數據共享可以成為一種解決方案。通過不同機構、研究者或企業之間的合作,共享數據資源可以加快模型的進步和研發。同時,遵循隱私保護和數據安全的原則,合理地開展數據共享可以為機器學習的發展提供更多的可能性。
需要指出的是,以上解決方案並非全部,機器學習領域仍在不斷發展和創新。未來可能還會湧現出更多應對數據稀缺的技術和方法。此外,隨著技術的進步和新的數據收集手段的出現,我們也可以期待更多的數據資源可供使用,從而促進機器學習的進一步發展。