大規模言語モデル(LLM)の学習には大量のデータが必要だが、インターネット上の良質なデータは26年には枯渇するとみられている。
そこで、モデル開発各社は高額なコンテンツ使用許諾契約の締結に加え、特にデータの入手が困難かプライバシーの懸念がある分野では、AIモデルの学習を補うためにテキストや画像などのデータを人工的に生成する合成データに目を向けている。
学習データの合成を手掛ける企業は約50社で、そのうち30社近くが22年以降にエクイティ(株式)により資金を調達している。だが、巨大テックがこの分野をチャンスとみなし、生成AI自体もLLMが主流化する前に創業したデータシミュレーション企業のビジネスモデルに打撃を及ぼしているため、合成データ生成企業の資金調達は低迷している。
合成データを購入した企業へのインタビューや各社の資金調達状況、従業員数の増減などのCBインサイツのデータに基づき、合成データ分野の新たな機会や、企業による合成データの導入について調べた。
ポイント
・未公開市場は減速しているが、表形式&テキストデータの合成企業は勢いを示している。未公開市場への投資は減速しているが、イタリアのAindoや英シンセサイズド(Synthesized)など業界に特化した合成テキストデータを生成する多くのスタートアップはこの1年で従業員数を増やしている。
・合成データプラットフォームを使えばプライバシー保護と規制順守を確保しながらAIを開発できる。個人情報(PII)はリスクが高いため、この点は医療・ヘルスケアや金融サービスなど機密性の高いデータを扱う部門で特に重要だ。
・データ生成スタートアップは巨大テックとの激しい競争に直面するだろう。マイクロソフトやメタなどのテック大手はAIを活用して独自の合成テキストデータを生成している。一方、IBMとエヌビディアは開発者向けに合成データ生成ツールを提供している。
未公開市場は減速しているが、表形式&テキストデータの合成企業は勢い
合成学習データ(表形式&テキスト、メディア)企業の24年に入ってからの資金調達件数は5件と、22年通年の21件を大きく下回る。
一方、従業員数がこの1年で横ばいまたは減少した企業は半数近くに上る。特に、米パラレル・ドメイン(Parallel Domain)や米シンセシスAI(Synthesis.ai)など自動運転車用の合成データを提供する企業の従業員数が大きく減っている。18年に創業し、7200万ドルを調達したデータジェン(Datagen、イスラエル)は、拡散モデルの進化を受けて同社の合成ビジュアルデータ基盤の重要性が下がり、24年に経営破綻した。
もっとも、多くのプラットフォームが従業員を増やし、引き続き活発に活動している。主要4社(従業員10人以上)はいずれもテキスト&表形式の合成データ企業だ。
イタリアのAindoは最も積極的な企業の一つで、従業員数はこの1年で48%増えた。金融、医療・ヘルスケア、ガブ(行政)テックなど様々な業界の用途に対応している。例えば顧客企業が自社データの合成コピーを生成し、プライバシー規制を守れるよう支援する。
注目すべきは、この1年で従業員数が増えたか横ばいのデータ合成企業(従業員10人以上)のうち、米国以外に拠点を置く企業が74%に上る点だ。これは世界各地でプライバシーを保てるデータへのニーズがあることを示している。
シンセサイズドなどはAIモデルの学習と微調整を支える表形式&テキストの合成データに力を入れている。同社は例えば、中南米のある金融機関の不正検知システムの学習とテスト向け、代表的な不正事例を生成できる合成取引データセットを開発した。さらに、グーグル・クラウドと提携し、米グーグルのAI開発プラットフォーム「Vertex(バーテックス) AI」のユーザーにソフトウエア開発キット(SDK)を提供している。
こうした合成データスタートアップは当初は勢いがあったが、今では市場再編に直面している。データジェンの経営破綻に加え、22年1〜3月期以降に表形式&テキスト合成データスタートアップ2社が買収されている。ドイツのスタティス(Statice)は米データセキュリティー企業Anonosに、レプリカ・アナリティクス(Replica Analytics、カナダ)はリアルワールドデータ(RWD)を提供する米エイティオン(Aetion)にそれぞれ買収された。
合成学習データプラットフォーム、プライバシー保護と規制順守を確保しながらAI開発を可能に
企業は合成データを活用することで、個人のプライバシーを侵害したり、厳しい規制に抵触したりすることなく、現実に即したデータを使ってAIモデルの開発とテストができる。
例えば、フォーチュン500社のAI部門責任者は23年12月のCBインサイツとのインタビューで、モデル学習プラットフォームの主な差異化要因として合成データのプライバシーがいかに重要かを説明した。
「合成データは合成データ生成モデルか、社内のデータセットに基づいて全く新たなデータセットを生成してくれる業者を活用することで手に入る。こうしたデータは統計的には同一だが、新たに生成された人工的なデータであるため、顧客や従業員のデータを使わずに済み、個人情報のリスクを減らせる」。
一部の合成学習データプラットフォームは特定の業界を対象にしている。例えば、米グレーテル(Gretel)は(業界特有の性質から)RWDに制限があるか入手が困難な金融などの業界に注目し、不正検知モデルに使う現実的な合成金融データの生成を支援している。
一方、syntheticAIdata(デンマーク)は自動車業界の歩行者検知や、農業の遠隔環境モニタリングなど、様々な業界の特有のビジュアル学習データを提供している。
データ生成スタートアップ、巨大テックとの激しい競争に直面
合成データ生成スタートアップはここ数年、投資家の関心を集めている。その一方で、マイクロソフトなどのテック大手はAIを活用して独自の合成データを生成している。
マイクロソフトはこのほど、モデルが多様なデータに触れられるよう、小規模言語モデル(SLM)「Phi(ファイ)-3」の学習の一部にLLMが生成した合成コンテンツを活用した。一方、メタは合成データを使ってLLM「Llama(ラマ)3」の学習用の長文を生成した。
開発者向けツールを手掛けるテック大手もある。
IBMは24年7月、モデルの微調整に使う合成データを生成する新たなツール「インストラクトラボ」を発表した。
IBMのアービンド・クリシュナ最高経営責任者(CEO)は24年4〜6月期決算の説明会で「当社はこのほど、合成データを生成してモデルの微調整を効率化するツール『インストラクトラボ』の提供を開始した。顧客は自社のデータと専門知識を活用し、モデルのカスタマイズを効率化できる」と話した。
エヌビディアも24年6月、商用LLMの学習に使う合成データを生成するモデル群「Nemotron(ネモトロン)-4 340B」の提供を開始した。
今後の見通し
米オープンAIのサム・アルトマンCEOは24年5月、同社が「大量の合成データの生成」を試みていることを明らかにした一方で「必要なのは良質なデータだ。質の低い合成データもあれば、質の低い人間が作成したデータもある」と強調した。
合成データはデータの入手が困難かプライバシーの懸念があるモデルに役立つ可能性がある。一方、実世界を反映しないリスクもはらむ。多様性が欠如すれば、モデルの出力の偏りが固定化する恐れがある。
企業は合成データの実世界でのパフォーマンスに目を光らせつつ、機密性の高い用途に使う場合のプライバシー面のメリットを考慮すべきだ。さらに、巨大テックの役割が増しつつある点や、業界特化型スタートアップは資金調達が低迷していても将来性がある点も認識しておくべきだ。
鄭重声明:本文の著作権は原作者に帰属します。記事の転載は情報の伝達のみを目的としており、投資の助言を構成するものではありません。もし侵害行為があれば、すぐにご連絡ください。修正または削除いたします。ありがとうございます。