序#
近期人工知能は非常に注目されています。「環 CN」の ChatGPT、Claude、Bing AI、Google Bard;CN の文心一言、讯飞星火…… そしてそれらは急速に進化しています。ChatGPT のウェブページの最下部には小さな文字で現在のバージョンが表示されており、現在は ChatGPT May 24 Version
に進化しています。では、これらの人工知能はこのまま急速に進化し続けることができるのでしょうか?
人工知能の本質は、数学モデルとアルゴリズムを使用して人間の知的行動と意思決定プロセスを模倣することとして説明できます。
パラメータとは、人工知能モデル内で調整可能な変数を指し、モデルの動作と性能を制御するために使用されます。パラメータが多いほど、モデルが考慮するさまざまな可能性が増え、モデルの出力結果がより包括的になります。パラメータの値は通常、トレーニングデータに基づいて学習され、トレーニング材料が多いほど、モデルの出力結果は優れたものになります。パラメータを増やしたり、最適化したりするには大量のデータが必要です。しかし、いつでも利用できる学習データは限られています。
論文「Will we run out of ML data? Evidence from projecting dataset size trends」では、「私たちは機械学習データを使い果たすのか?」という問題が分析されています。
- 2026 年:高品質データを使い果たす
- 2030 年~2050 年:すべての言語データを使い果たす
- 2030 年~2060 年:すべての視覚データを使い果たす
以下はその論文の主要部分の翻訳です:
(原文を直接読みたい場合は、文末のリンクをクリックしてください)
私たちのデータセット規模の傾向に関する以前の分析に基づき、言語と視覚分野のデータセット規模の成長を予測しました。私たちは、今後数十年内に利用可能な無ラベルデータの総量を推定することによって、この傾向の限界を探ります。
摘要#
私たちは自然言語処理とコンピュータビジョンで使用されるデータセットのサイズの増加を分析し、2 つの方法を用いて外挿しました;歴史的成長率を使用し、将来の予測計算に基づいて最適なデータセットサイズを推定しました。私たちは、インターネット上で今後数十年にわたって利用可能な未ラベルデータの総在庫を推定することによってデータ使用量の増加を研究しました。私たちの分析は、高品質の言語データの在庫がすぐに枯渇することを示しています;おそらく 2026 年以前に。対照的に、低品質の言語データと画像データの在庫は、より遅い時期に枯渇します;低品質の言語データは 2030 年から 2050 年の間に、画像データは 2030 年から 2060 年の間に枯渇します。私たちの研究は、データ効率を大幅に向上させるか、新しいデータソースが利用可能でない限り、膨大なデータセットに依存する機械学習モデルの現在の傾向が鈍化する可能性があることを示しています。
主要观点#
- 私たちは歴史的成長率と現在の拡張法則および既存の計算可能性に基づいて推定された最適なデータセットサイズを使用して、視覚と言語モデルのトレーニングデータセットの成長を予測しました(第 III-A 節)。
- 私たちはまた、高品質の言語データを含む未ラベルデータの総在庫の成長を予測しました(第 III-B 節)。
- 2022 年 10 月現在、言語データセットは毎年指数的に成長しており、成長率は 50%を超え、2e12 語を含んでいます(第 IV-A 節)。
- 現在、言語データの在庫は毎年 7%成長していますが、私たちのモデルは 2100 年までに 1%に減速すると予測しています。この在庫は現在 7e13 語と 7e16 語の間にあり、現在使用されている最大のデータセットよりも 1.5 から 4.5 桁大きいです(第 IV-B1 節)。
- これらの傾向に基づいて、私たちは 2030 年から 2050 年の間に言語データを使い果たす可能性が高いと考えています(第 IV-D 節)。
- しかし、言語モデルは通常、高品質データに基づいてトレーニングされています。高品質の言語データの在庫は 4.6e12 語と 1.7e13 語の間にあり、最大データセットよりも 1 桁少ないです(第 IV-B2 節)。
- 私たちは高品質データを使い果たすまでに 1 桁の差しかなく、これは 2023 年から 2027 年の間に起こる可能性が高いです(第 IV-D 節)。
- 言語データに比べて、画像データセットの将来の成長予測はそれほど明確ではありません。なぜなら、過去 4 年間に歴史的傾向が停止したからです(以前よりも多くのデータを使用する新しいモデルが登場しました、詳細は
[1]
を参照)。しかし、成長率は毎年 18%から 31%の間である可能性があります。現在の最大データセットは 3e9 枚の画像を含んでいます(第 IV-A 節)。 - 現在、視覚データの在庫は毎年 8%成長していますが、最終的には 2100 年までに 1%に減速します。現在、その在庫は 8.11e12 枚と 2.3e13 枚の間にあり、現在使用されている最大データセットよりも 3 から 4 桁大きいです(第 IV-C 節)。
- これらの傾向の予測に基づいて、私たちは 2030 年から 2070 年の間に視覚データを使い果たす可能性が高いと考えています(第 IV-D 節)。
I. 介绍#
トレーニングデータは、機械学習(ML)モデルの性能を決定する 3 つの主要な要因の 1 つであり、アルゴリズムや計算能力と共に相互作用します。現在の拡張法則に関する理解に基づくと、将来の機械学習能力は、大規模なモデルをトレーニングするために利用可能な大量のデータに大きく依存することになります[2, 3]
。
以前の研究では、200 以上の機械学習モデル用のトレーニングデータセットのデータベースを編纂し[1]
、視覚および言語モデルのデータセットサイズの歴史的成長率を推定しました。
この傾向の限界を理解するために、私たちは確率モデルを開発し、2022 年から 2100 年の間に利用可能な画像と言語データの総量を推定しました。データセットサイズの傾向に関する予測に基づき、利用可能なデータが枯渇することによってこれらの傾向の限界をさらに推定しました。
II. 以往的研究#
データベース在庫:インターネットの規模と利用可能な情報のサイズに関するさまざまな推定が行われています[4, 5, 6]
。しかし、近年、これらの報告は異なるデータタイプ(例えば、画像、動画、ブログ記事など)の詳細な分析を提供せず、すべてのデータタイプをバイトの単一の数値にまとめています[7]
。
機械学習におけるデータボトルネック:[8]
では、著者は高品質データの在庫を推定し、拡張法則[3]
を使用して、計算最適な拡張方法を使用しても、データベース在庫が DeepMind の Chinchilla 言語モデル[3]
の 1.6 倍を超えることはできないと予測しました。私たちは、データセットサイズの成長の明確なモデルを作成し、時間の経過に伴うデータベース在庫のより詳細な推定を行うことで、この分析を改善しました。これにより、データセットが総データベース在庫と同じサイズになる日を予測することができました。
III. 研究方法#
A. 予測トレーニングデータセット規模の成長#
以前の研究では、さまざまな応用分野のデータセットサイズの歴史的傾向を編纂しました(図 2 に含まれる分野には視覚、言語、推薦、音声、絵画、ゲームが含まれます。ただし、視覚と言語の分野のデータのみが重要です。)[1]
。
私たちのデータセットサイズの定義は、モデルのトレーニングに使用される唯一のデータポイントの数です。各分野での「データポイント」の定義は異なります。特に、言語データの場合、データポイントは 1 つの単語と定義します;画像データの場合、データポイントは 1 枚の画像と定義します。このデータセットサイズ指標の選択に関する詳細は[1]
で確認できます。
歴史的傾向とこれまでに使用された最大データセットの規模を利用して、データセットサイズの将来の進化を推定できます。しかし、この予測は過去の傾向が無期限に続くと仮定しています。実際には、モデルがトレーニングできるデータ量には制限があります。その中で最も重要な制限の 1 つは計算可能性です。これは、特定のモデルのトレーニングデータ量を増やすには追加の計算リソースが必要であり、利用可能な計算リソースの量はハードウェアの供給とハードウェアの購入またはレンタルのコストによって制限されるためです。
この制限を考慮するために、計算可能性と計算最適なデータセットサイズに基づいて別の予測を行いました。拡張法則は、与えられた計算予算(FLOP 単位)で、モデルサイズとデータセットサイズの最適なバランスを予測するために使用できます[2, 3]
。具体的には、最適なデータセットサイズは計算予算の平方根に比例します:
以前の研究[9]
では、将来の利用可能な計算リソースを予測し、最大のトレーニングタスクに対して(図 3 に注意してください。この予測には広範な不確実性があり、計算リソースの支出が数桁増加し、現在のレベルの 1%GDP に達するシナリオが含まれています。)これらの予測を利用して、各未来の年に実現可能な最適なトレーニングデータセットサイズを推定しました。
B. データ蓄積速度の推定#
近年、無監督学習は、少量のラベル付きデータと大量のラベルなしデータを利用して基礎モデルを作成することに成功しました。さらに、無監督モデルはラベルなしデータに対して有用な擬似ラベルを生成することもできます[10]
。これらの理由から、私たちはラベルなしデータの在庫と蓄積速度に焦点を当てます。ラベル付きデータの量が少なくても(図 4 に注意してください。移転学習はラベル付きデータの必要性を大幅に減少させますが、完全には排除しません。さらに、ラベル付きデータはラベルなしデータに比べて取得が難しいことが多いです。したがって、必要な量が少なくても、ラベル付きデータはボトルネックになる可能性があります)。
詳細に入る前に、データ蓄積速度に関する理論的枠組みを考えましょう。ほとんどのデータはユーザー生成のものであり、ソーシャルメディアプラットフォーム、ブログ、フォーラムなどに保存されています。一定の期間内にどれだけのコンテンツが生成されるかは、人口、インターネット普及率、各インターネットユーザーが生成する平均データ量の 3 つの要因によって決まります。人口は広範に研究されているため、私たちは国連の標準予測データ[11]
を使用します。インターネット普及率(インターネットを使用している人口の割合)は、1990 年の 0%から 2018 年の 50%に増加し、現在は 60%を超えています[12]
。私たちはこれを時間のシグモイド関数としてモデル化し、[12]
のデータにフィットさせます。
ユーザーが生成する平均データ量は、地理的および時間的なインターネット使用傾向によって変化し、分析が難しいです(これには異なる国や時期の文化、人口統計、社会経済発展の影響を考慮する必要があり、この記事の範囲を超えています)。簡単に言えば、ユーザーが生成する平均データ量は時間とともに一定であると仮定しましょう。
このインターネットユーザー数のモデルは、歴史的なインターネットユーザー数と非常によく一致しています(図 2)。このモデルがインターネットデータ生成の予測能力を持っているかをテストするために、Reddit の投稿データを実証テストし、このモデルを指数モデルおよびシグモイドモデルと比較しました。結果は、このモデルがデータに対してより良いフィットを示すことを示しました(詳細は付録 C を参照)。
C. 高品質データの蓄積速度#
私たちはユーザー生成コンテンツの蓄積速度のモデルを開発しました。しかし、言語データに関しては、この種のコンテンツは書籍や科学論文などのより専門的な言語データよりも質が低いことが多いです。後者のデータでトレーニングされたモデルはより良いパフォーマンスを示すため[13]
、言語モデルのトレーニングにはこの種のデータがよく使用されます[14, 15, 3]
。画像モデルのデータ品質や高品質の画像データを識別する方法については、私たちはあまり理解していません(画像解像度のような非常に粗い指標を除いて、画像データの品質を評価するための他の指標もあります。例えば、異なる一般的なデータセットでトレーニングされた画像 - テキストモデルの分布変化に対するロバスト性を比較した結果、すべての変化に対してより良いロバスト性を示す単一のデータセットは存在しないことが示されました[16]
)。したがって、このセクションでは言語に焦点を当てます。
高品質データと低品質データのトレードオフに関する研究が限られているため、高品質データと低品質データの推定と成長予測をそれぞれ提供します。高品質データを特定するために、私たちは専門家の知識に依存し、大規模言語モデルのトレーニングに使用されるデータセットの構成を調査しました。これらのデータセットで最も一般的なソースには、書籍、ニュース記事、科学論文、ウィキペディア、およびフィルタリングされたウェブコンテンツが含まれています(フィルタリングされたウェブコンテンツは、Reddit で共有されたリンクの「いいね」数などの質の代理指標を使用して選択された一般的なウェブコンテンツであり、MassiveWeb および WebText データセットはこの方法で構築されました。他の一般的なデータソースには、GitHub(コード用)、教育ビデオの字幕とトランスクリプト、ポッドキャストや議会の記録、電子メールなどが含まれます)。
これらのデータソースの共通の特徴は、有用性または品質のフィルタリングを受けたデータを含んでいることです。例えば、ニュース、科学記事、またはオープンソースコードプロジェクトの場合、有用性のフィルタリングは専門的な基準(例えば、ピアレビュー)によって強制されます。ウィキペディアの場合、フィルタリングは編集に専念するコミュニティの中で時間の試練を経ることによって実現されます。フィルタリングされたウェブコンテンツの場合、フィルタリングは多くのユーザーの積極的な参加を通じて実現されます。不完全な状況が存在するものの、この特徴は高品質データの他のソースを特定するのに役立つため、私たちはこれを高品質データの作業定義とします。
フィルタリングされたウェブコンテンツやウィキペディアのような高品質データの一部は、インターネットに特化した貢献者によって生成されています。これは、一般ユーザー生成コンテンツを処理するために同じモデルを使用できることを意味します。
しかし、他の高品質データのソースは、分野の専門家(科学者、著者、オープンソース開発者など)によって生成されています。この場合、生成速度は人口やインターネット普及率によって決まるのではなく、経済規模と経済の中で創造的な分野(科学や芸術など)に割り当てられる割合によって決まります。
過去 20 年間、OECD 諸国の研究開発支出は、国内総生産(GDP)の約 2%を占めています[17]
。この数字は緩やかに増加していますが、基本的には安定していると仮定します。したがって、データ蓄積速度は世界経済規模と概ね比例し、世界経済は毎年約 4%成長しています。この予測は、科学出版物の観察された成長と一致しています[18]
。
私たちは既存のデータセットを調査し、それらのサブコンポーネントを異なるカテゴリに分類することによって、高品質データのこれら 2 つのデータ(特化した貢献者と専門家)の割合を推定しました。
D. 制限要因#
私たちのデータセットサイズ成長率の推定には、いくつかの誤りの原因があるかもしれません:
-
将来的には、同じレベルの性能を達成するために必要なデータ量が減少する可能性があります。この可能性は特に高く、他の分野では大規模なデータ効率の向上が見られたことがあります
[19, 8]
。 -
計算リソースの可用性が予想よりも遅く成長する可能性があります。理由には、技術的な効率向上の障害、サプライチェーンの中断、または投資を減らすことが含まれます。
-
現在のスケーリング法則が誤っている可能性があります。過去にそうであったように(
[2]
では、計算リソースが 10 倍増加するごとにトレーニングデータセットサイズを 5 倍増加させることを提案していますが、最近の[3]
では、この問題を再検討し、計算リソースが 10 倍増加するごとにトレーニングデータセットサイズを 3 倍増加させることを提案しています)。追加のデータ効率の向上がなくても、より少ないデータを使用するより良いスケーリング方法が存在する可能性があります。 -
マルチモーダルモデルは、移転学習によってより良いパフォーマンスを示す可能性があり、これによりデータベースがすべてのデータモダリティの組み合わせを含むように拡張されます。
さらに、私たちのデータベース推定にはいくつかの制限があります:
- 合成データを使用することで、データベースはほぼ無限にすることができます。私たちは合成データの有用性とトレーニングコストについて不確実性があります。
- 自動運転車の大規模な採用は、前例のない数の道路動画記録をもたらす可能性があり、この経済的変革はデータ生成に大きな影響を与える可能性があります。
- 同様に、大規模な予算を持つ行為者(政府や大企業など)は、特にニッチな分野の高品質データにおいて、十分な投資を通じてデータ生成を増加させることができるかもしれません。広範なスクリーン録画や大規模な監視など、いくつかの可能性があります。
- 私たちは、低品質のソースから高品質のデータを抽出するより良い方法を見つけるかもしれません。例えば、堅牢な自動品質測定基準を設計することによって。
IV. 分析#
A. データセットサイズの傾向#
前期の研究[1]
は、異なる分野のトレーニングデータセットの歴史的成長率を特定しました。言語と視覚の分野は、大量のデータを持つ唯一の分野であるため、私たちはこの 2 つの分野に分析を限定します。これらの傾向は表 I に概説されています。
B. 言語データ#
1) 低品質データ#
私たちはデータ量と蓄積速度を推定するために 5 つの異なるモデルを使用しました。表 II はこれらの異なるモデルをまとめており、図 3a でさらに説明され、付録 A で詳細に説明されています。統合モデルは、現在の総在庫量が 6.9e13 から 7.1e16 語の間にあり、現在の成長率が毎年 6.41%から 17.49%の間であると推定しています。
この推定の高端は、私たちが最も信頼していない 2 つの高度に理論化されたモデルから来ていることに注意が必要です。この範囲の解釈は次のとおりです:1e14 語は、Google のような単一の資金力のある参加者が非常に可能性が高い;1e15 語は、すべての主要な参加者(すなわち、すべてのテクノロジー企業)が共同で持つものである;1e16 語は、人類が世界中で数年にわたって共同で生成できるものであり、すべてのテキストメッセージ、電話、ビデオ会議を記録するなど、現在の Overton ウィンドウの外にあるいくつかの実践的な方法を採用することです。
統合データベースモデルをデータセット拡張の上限として使用し、トレーニングデータセットのサイズを予測したところ、在庫が枯渇する前に急速に成長することがわかりました。この時点を過ぎると、成長速度は著しく減速します(図 3c)。
表 II
2) 高品質データ#
私たちはいくつかの高品質データセットの構成を研究し、各構成要素のスケーラビリティを特定することによって、高品質データを研究しました。私たちは 3 つのデータセットを考慮しました:The Pile [13]
、MassiveText [3]
、および PaLM 事前トレーニングデータセット [15]
。
これらのデータセットから、高品質データセットは通常、次の構成要素で構成されていることがわかります:50%のユーザー生成コンテンツ(Pile-CC、OpenWebText2、ソーシャルメディアの対話、フィルタリングされたウェブ、MassiveWeb、C4)、15-20%の書籍、10-20%の科学論文、<10%のコードおよび < 10%のニュース。また、すべてのデータセットには、ウィキペディアなどの既知の小規模高品質データセットが含まれています(図 4a)。
私たちはデジタル化された書籍、公共の GitHub リポジトリ、および科学論文における利用可能なテキストの量を推定しました。これらのテキストが仮定された高品質データセットの 30%から 50%を占めると仮定すると、9e12 [4.6e12; 1.7e13]
語が得られます。私たちは高品質データの量が毎年 4-5%の速度で成長すると仮定し、これは紹介で説明された世界経済の傾向と一致しています(図 4b)。モデルの詳細は付録 A で確認できます。
高品質データベース在庫を上限として使用して言語データセットの成長を予測すると、低品質データベース在庫を使用する場合と同様の減速パターンが見られますが、減速は 2026 年以前に始まります(図 4c)。
C. 視覚データ#
視覚分野に関しては、2 つの異なる推定方法を使用しました:1 つは Rise Above Research [20]
からの推定で、もう 1 つは最も人気のあるソーシャルメディアプラットフォームに公開された画像と動画の組み合わせを使用しました。統合モデルは、今日のインターネット上の画像の数が 8.11e12 から 2.3e13 の間にあり、現在の年成長率は約 8%であることを示しています。これらのモデルは表 III と図 5a でまとめられています。
統合データベースモデルをデータセット拡張の上限として使用し、歴史的傾向と計算最適化の外挿に基づいてトレーニングデータセットのサイズを予測しました。最近の高い異常値が新しいより高い成長傾向を示すかどうかは不明であるため、歴史的投影は非常に不確実です。言語に比べて、計算投影も不確実性が高く、視覚分野の拡張法則についての理解が不十分です(画像は異なる解像度を持つ可能性があるため、画像のトークン化はテキストのトークン化よりも変動が大きいです)。
言語の状況と同様に、データセットのサイズはデータベース在庫サイズに達する前に指数的に成長し、その後成長速度は著しく減速します(図 5c)。
私たちは未ラベルの視覚データのデータ品質や高品質データを区別する方法についての影響を十分に理解していないため、推定を試みていません。
TABLE III
D. データはボトルネックになるのか?#
これまでのところ、私たちはデータベース在庫の成長速度がトレーニングデータセットのサイズよりもはるかに遅いことを発見しました(図 3c、4c、5c を参照)。これは、現在の傾向が続く場合、データベース在庫を使い果たすことが避けられないことを意味します。さらに、高品質データベース在庫の規模は低品質データベース在庫の規模よりもはるかに小さいです。歴史的傾向と計算可能性に基づくデータセットサイズの予測は、最初の数年間は非常に似ていますが、その後は分岐が始まります。
私たちは毎年のデータベース在庫とデータセットサイズの枯渇の確率を計算しました(図 6)。低品質の言語と視覚在庫の枯渇日にはかなりの不確実性がありますが、2030 年以前または 2060 年以降に枯渇する可能性は低いようです。しかし、現在の傾向が続く場合、高品質の言語在庫はほぼ確実に 2027 年以前に枯渇します。これらの分布の分位数は表 IV に示されています。
V. 讨论#
言語モデルの拡張法則は、拡張性が利用可能なデータの量に依存することを示しています[3, 8]
。この観点から見ると、過去 4 年間の言語モデルの改善の約半分は、より多くのデータでトレーニングすることから来ています。さらなるデータ拡張の余地がなければ、これは人工知能の進展の鈍化を引き起こすことになります。
歴史的にも計算制限の観点からも、言語と視覚モデルのデータ蓄積速度は、これまで観察されたデータセットサイズの成長よりもはるかに遅いです。したがって、トレーニングデータのボトルネックに直面する可能性があります。これは 2030 年から 2040 年の間に言語モデルに影響を与え、2030 年から 2060 年の間に画像モデルに影響を与えるでしょう(図 6)。
高品質の言語データに関しては、特に明らかであり、2027 年以前に枯渇する可能性があるようです。大規模なデータセットが質の低いデータの代わりになるかどうかは不明ですが、そうであっても、データの拡張能力も計算可能性の制限を受けているため、完全に鈍化を回避するには不十分です。
これらの予測に基づいて、鈍化は避けられないと考えられるかもしれません。しかし、私たちのモデルが機械学習の進展の進化を十分に捉えていないという十分な理由があります(制限要因のセクションを参照)。
特に、データ効率の将来の進展とデータ品質が性能に与える影響は、将来のデータ需要を予測する上で重要です。不幸なことに、これらの変数に対する私たちの理解は、詳細な予測を提供するには不十分です。今後の研究では、これらの考慮事項を分析に組み込むことを試みることができます。
VI. 结论#
私たちはトレーニングデータセットサイズとデータベース在庫の成長を予測しました。データベース在庫の成長速度はデータセットサイズの成長速度よりもはるかに遅いため、現在の傾向が続く場合、データの枯渇によりデータセットは最終的に成長を停止します。私たちのモデルによれば、これは 2030 年から 2040 年の間に言語データで発生し、視覚データでは 2030 年から 2060 年の間に発生する可能性があります。さらに、高品質の言語データは 2026 年以前に枯渇します。
私たちの仮定が正しければ、データは機械学習モデルの拡張の主要なボトルネックとなり、人工知能の進展が鈍化する可能性があります。しかし、前述のように、これらの傾向が予測された方法で持続することに疑問を持つ理由がいくつかあります。データ効率の面でのアルゴリズム革新の可能性があるためです。
其他#
参考資料等の部分については、英語の原文をご覧ください:Will we run out of ML data? Evidence from projecting dataset size trends
では、データ資源が枯渇した後はどうなるのでしょうか?
いくつかの潜在的な解決策と可能な発展方向があります:
- データ拡張技術:データ拡張は、既存のデータを利用してより多くのトレーニングサンプルを生成する技術です。さまざまなデータ変換、摂動、合成方法を適用することで、トレーニングデータの規模と多様性を拡充できます。データ拡張は、限られた原始データセットでもモデルがより良く学習し、一般化するのを助けることができます。
- 移転学習:移転学習は、既存の知識やモデルを利用して新しい問題を解決する技術です。すでにトレーニングされたモデルや部分モデルを新しいタスクに適用することで、既存の知識と経験を活用し、大量の新データへの依存を減らすことができます。移転学習は、データが限られている場合でもモデルの最適化と加速を実現できます。
- 強化学習と自主学習:強化学習は、環境との相互作用を通じて最適な行動を学習する技術です。従来の監視学習に比べて、強化学習は少量のデータに適応しやすいです。さらに、自主学習技術により、機械は環境から積極的に情報と経験を収集し、自己トレーニングと探索を通じて能力を向上させることができます。
- データ共有と協力:データ資源が限られている場合、協力とデータ共有が解決策となる可能性があります。異なる機関、研究者、企業間の協力を通じて、データ資源を共有することで、モデルの進展と研究開発を加速できます。同時に、プライバシー保護とデータセキュリティの原則に従い、合理的にデータ共有を行うことで、機械学習の発展にさらなる可能性を提供できます。
これらの解決策はすべてではなく、機械学習分野は常に進化し、革新しています。今後、データ不足に対処するための新たな技術や方法が登場する可能性があります。さらに、技術の進歩や新しいデータ収集手段の登場により、より多くのデータ資源が利用可能になることが期待され、機械学習のさらなる発展を促進するでしょう。