2015年、PayPalはリアルタイムで不正検知を管理するため、50テラバイト(TB)のデータに対してAerospikeをKey-Value型のNoSQLデータベースとして使用し始めました。
より速く、一貫したパフォーマンスを実現し、比較的小さなサーバーフットプリントでこれを実現したことから、2019年にAerospike上でリアルタイムグラフ機能を構築することにしました。現在、彼らはAerospikeクラスター上で約9ペタバイト(PB)を管理しています。
現在、同社はAerospike Cluster上で約9ペタバイト(PB)を管理しています。
銀行のグラフ・テクノロジーのユースケースと同様に、Eコマースのシナリオでは世界で71%にも上るカート放棄を避けるために、AIモデルが数ミリ秒のうちに不正の確率を計算する必要があります。
ここでもグラフは、高リスクを示す隠れた関係を発見するのに役立つのです。
訓練された不正検査官がブラックリストやホットリストのタグ付けに使用する視覚的なグラフと組み合わせることで、このような技術のコストを低く抑えながら、スピードを損なわない実現可能な方法で技術を導入する方法が課題となります。
実現可能な方法でグラフ技術を導入するにはどうすればよいのか
PayPalはAerospikeを使ってグラフ・プラットフォームを実装し、効果的な方法で管理しています。
同じグラフ・データベース上で3つのサービスが同時に稼働しています。
定期的なバッチ・ベースのサービスは、グラフ・アルゴリズムを使ってエンティティ間の新しい不正リングの検出をトリガーするだけでなく、見逃されたデータなどでグラフを更新します。
インタラクティブなグラフは、訓練された不正検査官によって定期的に使用され、新たに疑わしいエンティティに不正または非不正のタグを付けます。
すべてのイベント(財務および非財務)は、エンティティ間の新たなつながりを発見する目的で、ほぼリアルタイムで更新のトリガーとなります。
これらのイベントは単独ではあまり意味がないかもしれないが、時系列グラフの文脈で考えると、高い不正リスクを意味する可能性があります。
- 新規登録
- ログインイベント
- プロファイルの変更
- 購入
- 現金の引き出しと送金
- 異議申し立てとチャージバック
最後に、金融取引、つまり購入や現金取引は、数ミリ秒以内に複数のホップを含むクエリ結果を取得するリアルタイムのグラフクエリサービスによって決定されます。
これらの結果は、不正の可能性をチェックするために、他の機能とともにAIモデルで使用されます。
PayPalは、TigerGraphやJanusGraphのような市場で人気のある他のグラフデータベースも検討しましたが、どれも彼らのパフォーマンス要件をサポートできないと結論づけました。
そこで、Aerospikeデータベースの上にApache Tinkerpopレイヤーを追加し、Gremlin Query Languageを活用して独自のグラフデータベースを構築しました。
Aerospikeは現在、この機能を製品の一部として提供しています。
PayPalは何年にもわたり不正検知能力を大幅に向上させ、誤検知を30分の1に減らし、不正行為をほぼ98%削減しました。
この記事は2023年12月26日「How PayPal leverages real time graph capabilities in fraud detection」の翻訳です。