重要で複雑な入力を迅速かつシンプルな意思決定に変える
一部のデータワークロードは、リアルタイムの結果を必要としない場合があります。
そして、すべてのアプリケーションがさまざまなソースからデータを取得したり、さまざまなデータモデルの柔軟性を必要としたりするわけでもありません。
しかし、このパフォーマンスと柔軟性を必要とする組織の割合が急速に増加しています。
本記事では、リアルタイムのマルチモデルデータベースの必要性を示す 1 つのユースケース、つまり「不正検出」について調査します。
消費者として、私たちは詐欺の証拠や不正行為の検出を毎日目にしており、小売および金融の各やり取りの複雑さとスピードの必要性を認識しています。
詐欺師は革新する: 金融詐欺モデルは適応する必要があり、データベースは柔軟でなければなりません
不正行為と不正行為の検出は複雑であり、詐欺師による高度な戦術の使用とテクノロジーの急速な進歩により、常に進化しています。
通常、検出は 1 秒以内に行われ、データへのアクセスと処理に消費されるのはそのうちの数百ミリ秒だけです。データの読み込みに時間がかかるほど、不正検出アルゴリズムを適用する時間が短くなります。
検出には、トランザクション データ、ユーザー プロファイル データ、デバイス データ、地理位置情報データ、行動データなど、さまざまな形式の大量のデータを分析する必要があります。
このデータは構造化または非構造化であり、正規の顧客取引とは異なる異常を特定するには、数日から数か月にわたる期間にわたって分析する必要があります。
このデータは、リアルタイムでトランザクションの有効性を評価する機械学習モデルにまとめられる必要があります。
詐欺モデルに必要なさまざまなデータタイプを組み込む場合、基盤となるデータベースの柔軟性が非常に重要です。
エアロスパイクでは、JSON、Protobuf、Avro などのドキュメントデータを含む、不正モデルのさまざまなデータタイプを処理することができます。
コレクションデータ型 (CDT) を使用し、各行をドキュメントとして保存することで、任意の数のネストされた列とフィールドを含むリスト、マップ、セットを柔軟にモデル化できます。
関係モデルとカラムベースのデータベースは、これを処理するのにはあまり適していません。
文書モデルと CDTsの価値を説明するために、過去 24 時間と過去 30 日間の顧客の平均支出が入力に含まれる不正検出モデルを考えてみましょう。
これらは不正評価の瞬間からのスライディングウィンドウをカバーしているため、データを事前に計算することはできません。
アプリケーションは、過去 30 日間の顧客のトランザクションをすべて読み取る必要があり、一部の顧客では 100 件を超える読み取りが必要になりますが、不正リスクが最も高い外れ値では数千件を超える可能性があります。
読み取りが 1 ミリ秒であっても、これらの 100 ミリ秒以上だけでも、不正行為の検出には法外に遅い可能性があります。
ただし、CDT sを使用すると、リアルタイムの集計を構築して、読み取りを予測可能な数に最小限に抑えることができます。
たとえば、毎日またはより詳細な取引金額と件数を各レコード内にリストとして保存できます。
この例では、最もアクティブなアカウントであっても読み取り数は 1 桁であり、不正検出モデルのパフォーマンスが大幅に向上します。これがどのように機能するかを知るには、こちらの動画をご覧ください。
エアロスパイクの柔軟性とパフォーマンスが顧客の不正行為の検出にどのように役立つかを示す例をいくつか紹介します。
PayPal: 金融詐欺の被害を 30 分の 1 に削減
PayPal は、世界中のユーザーに資金を送金、受取り、保有を可能にする世界的なオンライン決済会社です。エアロスパイクは、PayPalの不正被害を 30 分の 1 に減らすのに役立ちました。
エアロスパイクの拡張性と信頼性は、PayPal の不正検出ソリューションにおいて重要な役割を果たします。
PayPal は毎年数十億件のトランザクションを処理するため、この量のトラフィックを処理できるデータベースが必要です。
エアロスパイクは、メモリと SSD を組み合わせた特許取得済みのハイブリッド メモリ アーキテクチャ (HMA TM) によって効率的に拡張できるため、PayPal は増加するトラフィックをシームレスに管理できます。
PayPal は当初、エアロスパイクを Key-Value モデルとして導入し、機械学習モデルが分析するデータ量を 10 倍の 100 テラバイトに増加しました。
しかし、彼らは最近、その不正モデルを補完するグラフ機能を追加し、データの総量をペタバイト規模に押し上げました。
このグラフアプローチは、影響力、強さ、確率レベルを示すデータポイント間の関連性を判断するのに役立ちます。
これにより、グラフ内の隠れた最終受益者や不正なノードが事実上明らかになりました。
PayPal のグラフアプローチの詳細については、こちらをご覧ください。
Barclays: 大規模な機械学習のための効率的なアーキテクチャ
バークレイズは、世界中の企業と消費者に幅広い金融商品とサービスを提供しています。
バークレイズは、エアロスパイクを使用してカードの不正検出ソリューションを強化しており、これには上記で説明したフローティングウィンドウ計算が組み込まれています。
バークレイズでは毎日数百万件の取引を処理しており、その不正検出ソリューションは Aerospike Databaseの拡張性と信頼性を活用しています。Aerospike HMA を使用して、この大規模なボリュームをリアルタイムで処理し、インデックスを RAM に保存し、データをディスクに保存しています。
その結果、エアロスパイクはバークレイズのアーキテクチャを簡素化し、必要なプラットフォームの数を削減しながら、6 倍に増加するデータにもシームレスに対応しました。
エアロスパイクは、バークレイズにとって不可欠な強力な一貫性とセキュリティ要件を実現しながら、バークレイズの不正検出の遅延を短縮するのに役立ちました。エアロスパイクがバークレイズによる金融詐欺との戦いをどのように支援しているか、詳しくはこちらの動画をご覧ください。
TransUnion: 銀行の金融詐欺モデルを改善するために遅延を 80% 削減
トランスユニオンは、信用調査、個人情報盗難防止、金融詐欺防止などの幅広いサービスを企業や消費者に提供する世界的な情報および洞察企業です。
トランスユニオンは エアロスパイクを使用して不正検出ソリューションを強化しています。エアロスパイクの拡張性、信頼性、セキュリティは、この要求の厳しいアプリケーションに適しています。
トランスユニオンの不正検出ソリューションは、トランザクション、ユーザー プロファイル、デバイス、IP アドレス インテリジェンス、地理位置情報、電気通信、行動データなど、さまざまなデータ ソースを使用します。
エアロスパイクは、これらすべてのデータを単一のデータベースに保存することで、さまざまなデータ ポイントを分析し、不正行為を特定することを容易にします。
エアロスパイクを使用した結果、トランスユニオンはこれを顧客のリアルタイム不正検出モデルに安全に組み込むことができました。エアロスパイクの柔軟なアーキテクチャはこれを大規模にサポートし、遅延を 80% 削減しました。
リアルタイムとマルチモデルの重要性
エアロスパイクは、大規模なリアルタイム パフォーマンスで高い評価を得ています。
当社のルーツは Key-Value データベースですが、リアルタイムの世界と顧客からの意見に基づいて、サポートするデータ モデルを拡大し続けています。
当社はドキュメントベースのモデルに対する強力なサポートと、SQL を使用して エアロスパイクデータにアクセスする機能を提供し、グラフと時系列の作業を継続しています。
これにより、これらの顧客や他の顧客が金融詐欺をリアルタイムで検出するために使用する強力なマルチモデル データベースが構築されます。
10 分の 1 の時間で 10 倍のデータをロードできると、機械学習アルゴリズムの精度が向上し、不正行為と顧客の遅延の両方を減らすことができます。
本ブログは2023年5月17日How three leading financial firms stay ahead of innovative fraudstersの翻訳です。