c

c

世上本没有路
tg_channel
mastodon
pleroma

我们是否会用尽机器学习数据?基于数据集规模趋势的证据

#

近期人工智能很火。“环 CN” 的 ChatGPT、Claude、Bing AI、Google Bard;CN 的 文心一言、讯飞星火 …… 而且它们都在飞快进化。ChatGPT 的网页最底部有一行小字,标识了当前的版本,现在已经进化到了 ChatGPT May 24 Version 。那这些人工智能能够一直这样飞快地进化下去吗?

人工智能的本质,可以被描述为,通过使用数学模型和算法来模拟人类的智能行为和决策过程。

参数是指人工智能模型中可调整的变量,它们用于控制模型的行为和性能。参数越多,模型所考虑的各种可能性越多,模型的输出结果越全面;参数的值,通常是根据训练数据来学习得到的,训练材料越多,模型的输出结果越优。增加参数和优化参数的值都需要大量的数据。而任意时刻,我们可以利用的学习数据是有限的。

在论文《Will we run out of ML data? Evidence from projecting dataset size trends》中,分析了 “我们是否会用尽机器学习数据” 的问题。

  • 2026 年:用完 “高质量数据”
  • 2030 年~ 2050 年:用完所有的语言数据
  • 2030 年~ 2060 年:用完所有的视觉数据

下面为该论文主要部分的翻译:

(如果希望直接阅读原文,请点击文末链接)


基于我们对数据集规模趋势的先前分析,我们对语言和视觉领域的数据集规模增长进行了预测。我们通过估算未来几十年内可用的无标签数据总量来探索这一趋势的极限。

摘要#

我们分析了自然语言处理和计算机视觉中使用的数据集大小的增长,并利用两种方法进行了外推;使用历史增长率和估算未来预测计算预算的计算最优数据集大小。我们通过估计互联网上未来几十年可用的未标记数据的总库存来研究数据使用量的增长。我们的分析表明,高质量语言数据的库存很快将耗尽;可能在 2026 年之前。相比之下,低质量语言数据和图像数据的库存将在更晚的时间耗尽;低质量语言数据在 2030 年至 2050 年之间,图像数据在 2030 年至 2060 年之间。我们的工作表明,如果不大幅提高数据效率或者有新的数据来源可用,依赖庞大数据集的不断增长的机器学习模型的当前趋势可能会放缓。

主要观点#

  • 我们使用历史增长率和基于当前扩展定律和现有计算可用性估计的计算最优数据集大小,来预测视觉和语言模型的训练数据集的增长(第 III-A 节)。
  • 我们还预测了未标记数据总库存的增长,包括高质量的语言数据(第 III-B 节)。
  • 截至 2022 年 10 月,语言数据集每年呈指数增长,增长率超过 50%,其中包含 2e12 个单词(第 IV-A 节)。
  • 目前,语言数据的库存每年增长 7%,但我们的模型预测到 2100 年将减缓至 1%。这个库存目前介于 7e13 和 7e16 个单词之间,比当前使用的最大数据集大 1.5 到 4.5 个数量级(第 IV-B1 节)。
  • 根据这些趋势,我们很可能在 2030 年至 2050 年之间耗尽语言数据(第 IV-D 节)。
  • 然而,语言模型通常是基于高质量数据进行训练的。高质量语言数据的库存介于 4.6e12 和 1.7e13 个单词之间,比最大数据集大不到一个数量级(第 IV-B2 节)。
  • 我们距离耗尽高质量数据只有一个数量级的差距,这很可能会在 2023 年至 2027 年之间发生(第 IV-D 节)。
  • 相较于语言数据,对图像数据集未来增长的预测就不那么明显,因为历史趋势在过去四年停止了(出现了使用比以往更多数据的新模型,详见 [1])。然而,增长率似乎可能在每年 18% 至 31% 之间。当前最大的数据集包含 3e9 张图像(第 IV-A 节)。
  • 目前,视觉数据的库存每年增长 8%,但最终会在 2100 年减速至 1%。目前,它的库存介于 8.11e12 和 2.3e13 张图像之间,比当前使用的最大数据集大三到四个数量级(第 IV-C 节)。
  • 根据这些趋势的预测,我们很可能在 2030 年至 2070 年之间耗尽视觉数据(第 IV-D 节)。

I. 介绍#

训练数据是决定机器学习(ML)模型性能的三个主要因素之一,与算法和计算能力一起共同作用。根据当前对扩展定律的理解,未来的机器学习能力将严重依赖于大量可用的数据用于训练大型模型 [2, 3]

之前的研究编制了一个包含 200 多个用于机器学习模型的训练数据集的数据库 [1],并估计了视觉和语言模型数据集大小的历史增长率。

为了了解这种趋势的限制,我们开发了概率模型,估计了 2022 年至 2100 年间可用的图像和语言数据的总量。基于我们对数据集大小趋势的预测,我们进一步估计了由于可用数据耗尽而导致这些趋势的极限。

II. 以往的研究#

数据库存:关于互联网规模和可用信息的大小已经有过多种估计[4, 5, 6]。然而,近年来,这类报告并没有提供不同数据类型(例如图像、视频或博客文章)的详细分析,而是将所有数据类型汇总成字节的单一数值[7]

机器学习中的数据瓶颈:在[8]中,作者估计了高质量数据的库存,并使用扩展定律[3]预测,即使使用计算最优扩展方法,数据库存也无法使语言模型的规模超过 DeepMind 的 Chinchilla 语言模型[3]的 1.6 倍。我们通过创建数据集大小增长的明确模型和随时间变化的数据库存的更详细估计来改进这种分析,这使我们能够预测数据集将变得与总数据库存一样大的日期。

image

III. 研究方法#

A. 预测训练数据集规模的增长#

image

先前的研究编制了不同应用领域数据集大小的历史趋势(图 2 所包含的领域包括视觉、语言、推荐、语音、绘画和游戏。然而,只有视觉和语言领域的数据具有重要性。)[1]

我们对数据集大小的定义是模型训练所使用的唯一数据点的数量。每个领域对于 "数据点" 的定义不同。特别是,对于语言数据,我们将数据点定义为一个单词;对于图像数据,我们将数据点定义为一张图像。关于这种数据集大小指标选择的更多细节可以在[1]中找到。

利用历史趋势和迄今为止使用的最大数据集的规模,我们可以估计数据集大小的未来演变。然而,这种预测假设过去的趋势将无限期地持续下去。实际上,模型能够训练的数据量存在限制。其中最重要的限制之一是计算可用性。这是因为增加给定模型的训练数据量需要额外的计算资源,而可以使用的计算资源量受到硬件供应和购买或租用硬件的成本的限制。

为了考虑这一限制,我们进行了另一种预测,基于计算可用性和计算最优数据集大小。扩展定律可用于预测在给定计算预算(以 FLOP 为单位)下,模型大小和数据集大小的最佳平衡[2, 3]。具体而言,最佳数据集大小与计算预算的平方根成正比:

DCD \propto \sqrt{C}

先前的研究[9]对未来的可用计算资源进行了预测,针对最大的训练任务(图 3 请注意,这个预测存在广泛的不确定性,并包括了一些情景,其中计算资源的支出可能会增长数个数量级,达到当前水平的 1% GDP 的水平。)。我们利用这些预测来估计在每个未来年份可实现的最佳训练数据集大小。

B. 估计数据积累速率#

近年来,无监督学习已成功地创建了基础模型,可以利用少量标记数据和大量无标记数据进行微调,针对多个任务。此外,无监督模型还能够为无标记数据生成有价值的伪标签[10]。出于这些原因,我们将重点关注无标记数据的库存和积累速度,即使标记数据的数量较少(图 4 请注意,尽管迁移学习极大地减少了对标记数据的需求,但并没有完全消除它。此外,相对于无标记数据,标记数据通常更难获取。因此,尽管所需数量较小,但标记数据可能会成为一个瓶颈。)。

在深入讨论细节之前,让我们考虑一个理论框架,即我们对数据积累速度的预期。绝大部分数据是用户生成的,并存储在社交媒体平台、博客、论坛等地。有三个因素决定了在一定时期内产生多少内容:人口数量、互联网渗透率以及每个互联网用户产生的平均数据量。人口数量已经进行了广泛的研究,因此我们使用标准的联合国预测数据[11]。互联网渗透率(使用互联网的人口比例)从 1990 年的 0 % 增长到 2018 年的 50 % ,现在已经超过 60 % [12]。我们将其建模为时间的 sigmoid 函数,并将其拟合到[12]中的数据。

用户产生的平均数据量根据地理和时间的互联网使用趋势而变化,并且不容易进行分析(这将需要考虑不同国家和时期的文化、人口统计和社会经济发展的影响,这超出了本文的范围。)。为简单起见,让我们假设用户产生的平均数据量随时间保持恒定。

这个互联网用户数量的模型与历史上的互联网用户数量非常吻合(图 2)。为了测试它在预测互联网数据生成方面的能力,我们对 Reddit 提交数据进行了实证测试,将这个模型与指数模型和 Sigmoid 模型进行了比较。结果显示,这个模型与数据的拟合效果更好(详见附录 C)。

C. 高质量数据的积累速率#

我们已经开发了一个用于用户生成内容积累速度的模型。然而,对于语言数据而言,这类内容往往比书籍或科学论文等更专业的语言数据质量较低。在后者的数据上训练的模型表现更好[13],因此在训练语言模型时常常使用这类数据[14, 15, 3]。对于图像模型的数据质量以及如何识别高质量的图像数据,我们了解甚少(除了像图像分辨率这样非常粗略的指标之外,还有其他指标可以评估图像数据的质量。例如,比较在不同常用数据集上训练的图像 - 文本模型在分布变化下的鲁棒性,结果显示没有单一的数据集可以在所有变化下都产生更好的鲁棒性[16]。),因此在本节中我们将重点关注语言。

由于我们对使用高质量与低质量数据涉及的权衡方面的研究了解有限,我们分别提供了高质量数据和低质量数据的估计和增长预测。为了确定高质量数据,我们依赖从业者的专业知识,并查看用于训练大型语言模型的数据集的组成。这些数据集中最常见的来源包括书籍、新闻文章、科学论文、维基百科和经过筛选的网络内容(筛选后的网络内容是使用质量的代理度量选择的常规网络内容,例如在 Reddit 上共享的链接的点赞数,MassiveWeb 和 WebText 数据集就是以这种方式构建的;其他常见的数据来源包括 GitHub(用于代码)、教育视频的字幕和转录、播客或议会会议的记录,以及电子邮件)。

这些数据来源的一个共同特点是它们包含经过有用性或质量筛选的数据。例如,在新闻、科学文章或开源代码项目的情况下,有用性筛选是由专业标准(如同行评审)所强制的。在维基百科的情况下,筛选是通过在一个致力于编辑的社区中经历时间考验来实现的。在经过筛选的网络内容的情况下,筛选是通过获得许多用户的积极参与来实现的。尽管存在不完美的情况,但这个特性可以帮助我们识别高质量数据的其他来源,因此我们将其作为我们对高质量数据的工作定义。

一些高质量数据,如经过筛选的网络内容和维基百科,是由专注于互联网的贡献者生成的。这意味着我们可以使用同样的模型来处理一般用户生成的内容。

然而,其他高质量数据的来源是由领域专家(如科学家、作者和开源开发人员)生成的。在这种情况下,生成速率不是由人口或互联网渗透率决定,而是由经济规模和经济中用于创意领域(如科学和艺术)的份额决定。

在过去的 20 年中,经合组织(OECD)国家的研发支出大致上占据了其国内生产总值(GDP)的 2 % [17]。尽管这个数字在缓慢增长,但我们将假设它基本上保持稳定。因此,数据积累速率应该与世界经济规模大致成比例,而世界经济每年增长约为 4 % 。这个预测与科学出版物的观察增长一致[18]

我们通过查看现有数据集并将它们的子组件分类到不同的类别中,来估计高质量数据中这两类数据(专注贡献者和专业人士)的比例。

D. 限制因素#

我们对数据集大小增长率的估计可能存在一些错误的原因:

  • 未来可能需要更少的数据才能达到相同水平的性能。这种可能性特别高,因为在其他领域曾经出现过大规模的数据效率提升[19, 8]

  • 计算资源的可用性可能增长速度低于预期,原因可能包括技术上的效率提升障碍、供应链中断或者减少愿意投入的情况。

  • 当前的缩放规律可能是错误的,就像过去发生过的情况一样(在[2]中,作者建议每增加 10 倍的计算资源,将训练数据集大小增加五倍。而在较近的[3]中,他们重新审视了这个问题,并建议每增加 10 倍的计算资源,将训练数据集大小增加三倍。)。即使没有额外的数据效率提升,可能存在使用更少数据的更好的缩放方式。

  • 多模态模型可能通过迁移学习表现更好,这将有效地将数据库扩展到包括所有数据模态的组合。

此外,我们对数据库估计存在一些限制:

  • 使用合成数据可以使数据库几乎无限。我们对合成数据的有用性和训练成本存在不确定性。
  • 大规模采用自动驾驶汽车可能会导致前所未有数量的道路视频记录,这种经济变革可能会显著影响数据的产生。
  • 同样,具有大量预算的行为者(如政府或大型企业)可能能够通过足够的投资增加数据的生产,尤其是在利基领域的高质量数据方面。一些可能性包括广泛的屏幕录制或大规模监视。
  • 我们可能会找到更好的方法从低质量的来源中提取高质量的数据,例如通过设计稳健的自动质量度量标准。

IV. 分析#

A. 数据集大小的趋势#

前期的研究[1]确定了不同领域训练数据集的历史增长率。由于语言和视觉领域是唯一具有大量数据的领域,我们将限定我们的分析在这两个领域进行。这些趋势已在 表格 I 中概述。

image

B. 语言数据#

1) 低质量数据#

image

image

我们使用了五种不同的模型来估计数据量和积累速度。表格 II 总结了这些不同的模型,其中在图 3a 中进行了进一步的说明,并在附录 A 中进行了更详细的解释。综合模型估计当前总库存量在 6.9e13 到 7.1e16 个单词之间,当前增长率在每年 6.41% 到 17.49% 之间。

需要注意的是,这一估计的高端来自于我们最不信任的两个高度理论化的模型。我们对这个范围的解释是:1e14 个单词是像谷歌这样的单一、资金充裕的参与者非常可能拥有的;1e15 个单词是所有主要参与者(即所有科技公司)集体拥有的;1e16 个单词是人类可能能够通过全球范围内、持续多年的努力来共同产生的,采用一些目前在 Overton 窗口之外的实践方法,如记录所有的短信、电话和视频会议。

将综合数据库存模型作为数据集扩展的上限,我们对训练数据集的大小进行了预测,发现它在耗尽数据库存之前迅速增长。在此点之后,增长速度显著减慢(图 3c)。

表格 II

2) 高质量数据#

我们通过研究几个高质量数据集的组成,以及确定每个组成部分的可扩展性,来研究高质量数据。我们考虑了三个数据集:The Pile [13],MassiveText [3]和 PaLM 预训练数据集 [15]

image

从这些数据集中,我们可以看到高质量数据集通常由以下组成部分构成:50% 的用户生成内容(如 Pile-CC、OpenWebText2、社交媒体对话、筛选后的网页、MassiveWeb、C4),15-20% 的书籍,10-20% 的科学论文,<10% 的代码和 < 10% 的新闻。此外,它们都包含了诸如维基百科等已知的小型高质量数据集(图 4a)。

我们估计了数字化图书、公共 GitHub 仓库和科学论文中的可用文本数量。假设这些文本占据了假设的高质量数据集的 30 % 到 50 %,我们可以得到 9e12 [4.6e12; 1.7e13]个单词。我们假设高质量数据的数量以每年 4-5 % 的速度增长,与全球经济趋势保持一致,如介绍中所解释的(参见图 4b)。模型的详细信息可以在附录 A 中找到。

使用高质量数据库存作为上限来预测语言数据集的增长,而不是使用低质量数据库存,我们发现了相同的减速模式,但不同之处在于减速发生得更早,在 2026 年之前就开始(图 4c)。

C. 视觉数据#

image

image

对于视觉领域,我们使用了两种不同的估计方法:一种是由 Rise Above Research [20]提供的估计,另一种是使用了发布在最流行社交媒体平台上的图像和视频的组合。综合模型显示,今天互联网上的图像数量在 8.11e12 到 2.3e13 之间,当前年增长率约为 8%。这些模型在表格 III 和图 5a 中进行了总结。

将综合数据库存模型作为数据集扩展的上限,我们根据历史趋势和计算优化的外推,预测了训练数据集的大小。由于我们尚不清楚最近的高异常值是否表明了一种新的更高增长趋势,因此历史投影是非常不确定的。与语言相比,计算投影也更加不确定,因为我们对于视觉领域的扩展规律没有很好的理解。(这是因为图像可以具有不同的分辨率,所以图像的分词处理比文本的分词处理更加多变。)

与语言情况类似,数据集的大小在达到数据库存大小之前呈指数增长,此后增长速度显著减慢(图 5c)。

我们对于未标记的视觉数据的数据质量及如何区分高质量数据的影响尚不清楚,因此我们没有尝试对其进行估计。

TABLE III

D. 数据是否会成为瓶颈?#

到目前为止,我们发现数据库存的增长速度远远低于训练数据集的大小(参见图 3c、4c 和 5c)。这意味着如果当前趋势持续下去,耗尽我们的数据库存是不可避免的。此外,高质量数据库存的规模远远小于低质量数据库存的规模。基于历史趋势和计算可用性的数据集大小预测在最初几年非常相似,但之后开始出现分歧。

image

image

我们计算了每年数据库存和数据集大小耗尽的概率(图 6)。尽管低质量语言和视觉库存的耗尽日期存在相当大的不确定性,但在 2030 年之前或 2060 年之后耗尽的可能性似乎不大。然而,如果当前趋势持续下去,高质量语言库存几乎肯定会在 2027 年之前耗尽。这些分布的分位数在表格 IV 中显示。

V. 讨论#

语言模型的扩展规律表明,扩展性取决于可用数据的数量 [3, 8]。在这种观点下,过去四年中语言模型改进的大约一半来自于在更多数据上进行训练。如果没有进一步的数据扩展空间,这将导致人工智能进展的放缓。

无论是从历史上还是从计算限制的角度来看,语言和视觉模型的数据积累速度远远慢于我们迄今观察到的数据集大小的增长。因此,我们可能会面临训练数据的瓶颈。这将在 2030 年至 2040 年之间对语言模型产生影响,并在 2030 年至 2060 年之间对图像模型产生影响(图 6)。

对于高质量的语言数据而言,这一点尤其明显,它似乎可能在 2027 年之前就会耗尽。目前尚不清楚大型数据集是否可以替代质量较差的数据,但即使如此,这也不足以完全避免放缓,因为我们扩展训练数据集的能力也受到计算可用性的限制。

根据这些预测,人们可能会认为放缓是不可避免的。然而,我们有足够的理由相信,我们的模型没有充分捕捉到机器学习进展的演变(参见 限制因素 部分)。

尤其是数据效率的未来演变和数据质量对性能的影响对于预测未来的数据需求至关重要。不幸的是,我们对这些变量的理解还不足以提供详细的预测。未来的工作可以尝试将这些考虑因素纳入分析中。

VI. 结论#

我们已经预测了训练数据集大小和数据库存的增长。数据库存的增长速度远远慢于数据集大小的增长速度,因此如果当前趋势持续下去,由于数据耗尽的原因,数据集最终将停止增长。根据我们的模型,这可能会在 2030 年至 2040 年之间发生在语言数据上,而在视觉数据上可能会在 2030 年至 2060 年之间发生。此外,高质量语言数据将在 2026 年之前耗尽。

如果我们的假设是正确的,数据将成为扩展机器学习模型的主要瓶颈,并且我们可能会因此看到人工智能进展的放缓。然而,正如前面所述,有多个理由怀疑这些趋势会按照预测的方式持续下去,例如在数据效率方面可能存在算法创新的可能性。


其他#

参考资料 等部分,请前往英文原文查看: Will we run out of ML data? Evidence from projecting dataset size trends

那么数据资源的枯竭之后呢?

存在一些潜在的解决方案和可能的发展方向:

  1. 数据增强技术:数据增强是一种利用现有数据生成更多训练样本的技术。通过应用各种数据变换、扰动和合成方法,可以扩充训练数据的规模和多样性。数据增强可以在一定程度上帮助模型更好地学习和泛化,即使在有限的原始数据集上也能获得较好的效果。
  2. 迁移学习:迁移学习是利用已有的知识和模型来帮助解决新问题的技术。通过将已经训练好的模型或者部分模型应用到新的任务上,可以利用已有的知识和经验,从而减少对大量新数据的依赖。迁移学习可以在数据有限的情况下实现模型的优化和加速。
  3. 强化学习和自主学习:强化学习是一种通过与环境的交互来学习最优行为的技术。相对于传统的监督学习,强化学习可以更好地适应少量数据的情况。此外,自主学习技术也可以使机器能够从环境中主动收集信息和经验,并通过不断的自我训练和探索来提升自身能力。
  4. 数据共享和合作:在数据资源有限的情况下,合作和数据共享可以成为一种解决方案。通过不同机构、研究者或企业之间的合作,共享数据资源可以加快模型的进步和研发。同时,遵循隐私保护和数据安全的原则,合理地开展数据共享可以为机器学习的发展提供更多的可能性。

需要指出的是,以上解决方案并非全部,机器学习领域仍在不断发展和创新。未来可能还会涌现出更多应对数据稀缺的技术和方法。此外,随着技术的进步和新的数据收集手段的出现,我们也可以期待更多的数据资源可供使用,从而促进机器学习的进一步发展。

Loading...
Ownership of this post data is guaranteed by blockchain and smart contracts to the creator alone.