Definity、パイプライン内蔵型AIエージェントで1200万ドル調達

実行中に障害を検知

Spark内部エージェント常駐
実行中のデータ品質をリアルタイム監視
不良データの下流伝播を未然に遮断

導入効果と資金調達

トラブル対応工数70%削減
最適化機会の33%を初週で特定
シリーズAで1200万ドル調達
GreatPoint Ventures主導で実施

外部監視との違い

JVMエージェントを1行で導入
パイプライン完了後でなく実行中に介入
詳細を読む

データパイプライン運用のスタートアップDefinityは、Sparkパイプラインの内部にAIエージェントを組み込む独自アーキテクチャを発表しました。従来の監視ツールがジョブ完了後にメトリクスを読み取るのに対し、Definityは実行中にデータ品質の問題を検知し、不良データが下流システムに到達する前に介入できます。同社はシリーズAラウンドで1200万ドルを調達しました。

技術的な特徴は、JVMエージェントをパイプラインの実行レイヤーに直接インストールする点です。1行のコード追加で導入でき、クエリ実行の挙動やメモリ負荷、データの偏り、シャッフルパターンなどを実行中にリアルタイムで把握します。事前定義されたデータカタログは不要で、パイプラインとテーブル間のリネージを動的に推定します。

広告テクノロジー企業Nexxenは、オンプレミス環境で大規模Sparkパイプラインを運用する初期ユーザーです。導入初週に最適化機会の33%を特定し、トラブルシューティングと最適化にかかるエンジニアリング工数を70%削減しました。クラウドの弾力性がないオンプレミス環境では非効率がコストに直結するため、この効果は大きいと同社は述べています。

既存のパイプライン監視ツール、たとえばDatadog傘下のMetaplaneやDatabricksのシステムテーブル、Unravel Data、Acceldata等はいずれも実行レイヤーの外側からアプローチします。Definityの差別化要因は、障害発生後ではなく発生時に対処できる点にあります。CEOのRoy Daniel氏は「エージェント型データ運用には、リアルタイムのフルスタックコンテキスト、パイプラインの制御権、フィードバックループでの検証能力が必要だ」と語っています。

AIワークロードがデータパイプラインに依存する度合いは高まっており、パイプライン障害はダッシュボードの停止にとどまらず、AI本番システムの停止を意味するようになっています。Definityのアプローチは、データエンジニアリングチームがリアクティブな障害対応からプロアクティブな最適化へ移行するための基盤となりえます。