企業がより費用対効果の高い技術的ソリューションを求め続ける中、Cassandraのオープンソースライセンスは魅力的な選択肢の一つです。
しかし、Cassandraにはライセンス料がないにもかかわらず、多くの組織はCassandraクラスターが生成するパフォーマンスの問題(特にレイテンシー)、スループット、一貫性に関する問題によって運用コストが高くなることに直面しています。
本記事では、7つの事例を通して、どのようにCassandraの監視効率の低さやスケーラビリティの問題に直面したのか、またより良いパフォーマンスとコスト効率を求めてAerospikeへの移行した過程について紹介します。
1. TransUnion TruAudience:優れたTCOと運用
課題
信用情報機関であるTransUnionは、マーケティングプラットフォームTruAudienceを他の機能と共にアイデンティティ解決に使用していました。
既存のデータストアはCassandraデータベース上で動作しています。
しかし、使用するにつれてコストが増大し、信頼性が低下し、パフォーマンスが劣化。
同社の収益性に悪影響を及ぼしていました。
また、データレイテンシーが大きく不安定で、頻繁にデータベースの問題やダウンタイムが発生し、業務プロセスに支障をきたしていました。
その運用にはコストがかかり、クラスターの維持は困難で時間がかかりました。
また、パフォーマンスが一貫せず、99パーセンタイルで約4秒のレイテンシが発生していました。
信頼性の低さにより、インシデントやダウンタイムが増加し、SLA(サービスレベルアグリーメント)の達成が困難になっていました。
「Aerospike導入前は、Cassandraの保守と管理に時間を費やすことが増え、新しい製品提供の構築に費やす時間が減っていました。Aerospikeを導入した今、我々はロードマップを一掃し、顧客向けのプラットフォームに新機能を追加することだけに集中しています。」
TransUnion TruAudienceエグゼクティブバイスプレジデント兼最高技術責任者 Jason Yanowitz氏
解決策
TransUnionはCassandraをAerospikeに置き換えることで、サーバー数を450台から60台に削減。
その結果、TransUnionの運用フットプリントが縮小し、インフラ費用も削減。
地域間でのリアルタイムデータレプリケーションがサポートされ、p99 SLAが読み取り10ミリ秒(ms)未満、書き込み1秒未満に改善、全体的な信頼性と稼働時間が向上しました。
効果
- 3年間でTCOが68%削減
- 99パーセンタイルでパフォーマンスが100倍向上
- ビジネスプロセスの実行が90%以上高速化
2. LexisNexis Risk Solutions:コスト削減とスケールの実現
課題
以前ThreatMetrixとして知られていたLexisNexis Risk Solutionsは、顧客(主にeコマースと金融サービス)のために不正検出を行っています。
既存のCassandraクラスターは低レイテンシー要件を満たすことができず、顧客満足度を損なう要因にもなっていました。
このパフォーマンス問題を解決するために、LexisNexisはより高いスループットと信頼性のあるデータベースソリューションを探していました。
Cassandra使用時は、LexisNexis Risk Solutionsはパフォーマンスの課題、特にレイテンシーと応答時間の一貫性に直面していました。
低レイテンシーの応答は、顧客が不正を素早く回避するための正しい決定を下すために重要です。
オンラインウェブサイトでの操作に時間がかかればかかるほど、カート放棄が増え、顧客の損失につながります。
「我々は基本的に以前のデータベースで行き詰まっていました。リクエスト処理時間が顧客に悪影響を与えていました。なぜなら、割り当てられた時間内にリスク判断を下すことができなかったからです。」
LexisNexis Risk SolutionsのWorldwide Engineeringバイスプレジデント Matthias Baumhof氏
解決策
LexisNexis Risk SolutionsをCassandraからAerospikeに移行したことで、サーバー数は96台から28台に削減。
これにより、平均レイテンシーは120 msから30 msに減少しました。
効果
- サーバーフットプリントが3.4倍削減
- 平均リクエストレイテンシーが4倍減少
- 330万ドルのコスト削減
3. The Trade Desk:ホットデータとコールドデータの運用
課題
The Trade Deskは、メディアバイヤーがデジタル広告を購入するセルフサービスのオムニチャネルプラットフォームを提供する広告テクノロジー企業です。
The Trade Deskは長期ストレージに膨大なデータプールを保持しています。
同社は、コールドストアにCassandraを使用していました。
必要な高い書き込みスループットを得るためのデータ構造は、一部の読み取りケースで効果的でないことがありました。
これを解決するために、圧縮やトゥームストーン(削除されたデータのマーク)を使用していたため、データサイズに対してCPUの利用が多くなっていました。
「Cassandraで必要なスループットを得るために、ディスクに比べて多くのCPUを持つ多数のマシンに数を増やす必要がありました。Aerospikeは私たちに別の選択肢を提供しました。」
The Trade Deskのエンジニアリングディレクター Matt Cochran氏
解決策
Aerospikeに移行したことで、The Trade Deskはホットキャッシュとコールドストアを組み合わせるアーキテクチャに変更し、より多くの入札機会とより効率的なインフラストラクチャを提供しました。
効果
- サーバー数を300台以上から60台に削減、ノード数が9倍減少
- コールドストアからデータを解凍するのに8 ms未満
- 1 PBのコールドキャッシュに1秒あたり3000万のキーバリューチューブルを書き込み
詳細については、The Trade Deskのユーザーストーリーをお読みください。
4. Adform:ノード数を半減させながらスケールを4倍に
課題
Cassandra環境を安定させた後、AdformのITチームはCassandraクラスターを4倍にスケールするという困難な課題に直面しました。
Cassandraのパフォーマンスが特にレイテンシーやスループットの面で悪化し続けたため、システムは大幅なデータベースの監視とチューニングが必要であることが明らかになりました。
そして、この運用上の負担は、より戦略的なプロジェクトからリソースを奪っていたのです。
ヨーロッパの広告配信ソフトウェア会社Adformのエンジニアたちは、コンサルタントから「Cassandraに問題があるなら、運用の仕方が間違っているはずだ」と指摘されました。
しかし、すでにCassandraシステムを安定させるためにチューニングに全ての時間を費やしており、会社が大規模な拡張を進めたいと考えていたときに問題が生じていました。
「Aerospikeにより、Cassandraサーバーの数を大幅に削減でき、大きなコスト削減につながりました。さらに重要なのは、Aerospikeで得られる超高速のキーバリューストアと非常に予測可能な性能です。これにより、混雑したインターネットとモバイル市場で競争するために顧客が求める応答性を提供できます。」
CTO Jakob Bak氏
解決策
ITチームはCassandra環境を4倍にスケールする現実に直面していました。
代わりに、Adformは2つのデータセンターにそれぞれ32ノードのCassandraクラスターを、3ノードのAerospikeクラスターに移行しました。
効果
- Intel SSD上で1TBのデータを管理
- 1秒あたり12万回の読み取りと8千回の書き込みを処理
- 20万TPSのピークを処理
5.Wayfair:家具を販売するテクノロジー企業
課題
WayfairのAdTechグループは、低レイテンシ、スケーラビリティ、高い信頼性を備えたデータベースを必要としていました。
しかし、CassandraクラスターはJava仮想マシン(JVM)の大規模なチューニングを必要とし、運用が複雑でリソース集約型になっていました。
また、読み取りパフォーマンスを一貫して維持するのに苦労していたため、より高性能な代替案を模索することになりました。
CassandraはJVMのチューニングなど、運用面で大きな労力を必要とし、Wayfairはそのスキルを持つ従業員の確保に苦労していました。
さらに、Cassandraは水平スケーリングに依存しているため、各ノードが処理できるデータ量が限られており、必要なサーバー数が増加する問題も抱えていました。
「Cassandraでは、より多くの設定とチューニングが必要でした。Aerospikeは、ほぼそのままで数回の変更だけで使用できました。」
WayfairのNoSQLデータアーキテクト Ken Bakunas氏
解決策
WayfairがAerospikeに切り替えた結果、より低コストで読み取りと書き込み操作が高速化されました。
3年間で、全体的なライセンス、ハードウェア、運用コスト、およびデータセンターの不動産コストが低下しました。
効果
- サーバー数が60台から7台に削減
- 個々のオンプレミスクラスターは平均して1秒あたり約10万回の読み取りと2万回の書き込みを処理し、時折100万回までバーストする
- ほぼすべてのレイテンシーが1ミリ秒未満
6.InMobi:モバイル広告プラットフォームの強化
課題
InMobiは100カ国以上からのユーザーリクエストに対応するグローバルなモバイル広告ネットワークです。速度と低レイテンシーが重要な考慮事項です。
プロジェクトには3つの基本要件がありました。
- 1秒あたり最大50万件のリクエストという大量の書き込み負荷を処理できること
- 大量の読み取り負荷を処理できること
- そしてオペレーターの介入をあまり必要とせずに冗長性やその他の障害メカニズムを処理できること
そしてこれらすべてがリアルタイムで行われる必要がありました。
Cassandraでは、会社が望まないトレードオフを行う必要がありました。
「HBaseやCassandraなど他の技術も評価しましたが、大幅なパフォーマンスチューニングが必要でした。対照的に、Aerospikeはほぼゼロの運用オーバーヘッドで、そのまま動作しました。」
InMobiのテクノロジー担当上級副社長 Sachin Kanodia氏
解決策
Aerospikeの低レイテンシーにより、InMobiは広告へのレスポンスが速くなり、より良い決定を素早く下せるようになり、その結果、ユーザー体験が向上し、広告主の転換率が高くなりました。
AerospikeのXDR機能によるクロスデータセンター同期と顧客サポートも重要でした。
効果
- 毎日100億から120億のイベントを取り込む
- データベースは5ミリ秒未満でユーザーデータを提供
- ほとんどの広告に30-50ミリ秒以内で応答
7.医療機器メーカー:データの流れを維持する
課題
多国籍医療機器会社とそのパートナーは、グルコースレベルを読み取り、データを直接リーダーとスマートフォンのモバイル追跡アプリに統合するウェアラブルセンサーを特徴とする連続血糖モニタリングソリューションを生産しています。
新しいグルコース測定値は無線でクラウドシステムに送信され、糖尿病などの疾患をリアルタイムでモニタリングします。
Cassandraをベースにした以前のシステムは、特にレプリケーション係数と読み取りレイテンシーの面でパフォーマンスのボトルネックに悩まされていました。
そのため、データベースのパフォーマンスと可用性が重要な成功要因となっています。
同社の以前のデータベースソリューションは、ノードがダウンした際に問題が発生し、ノードがバックアップから復元されるまで健康メッセージが遅延していました。
これは、開発者がデータを確実に複製するために、データベースの周りに大量のコードを追加する必要があったことを意味します。
「我々のビジネスには静かな環境というものはありません。昔は、ボリュームがそれほど高くなかったころは、深夜のメンテナンスで問題を解決できると考えていました。しかし今日では、システムのどの部分もダウンさせる余裕はありません。」
同社 クラウドソリューション総支配人
解決策
Aerospikeの高可用性アーキテクチャが、この多国籍医療機器会社に全体的なソリューションを選ばせました。
さらに、Aerospikeはパフォーマンスの面で「Cassandraを圧倒しました」。
効果
- 常時40,000オブジェクト
- 10テラバイトのユニークデータ
- コスト削減が「少なくとも2倍」
Aerospikeへの移行準備はできましたか?
これら7つの事例は、Cassandraのパフォーマンスを示すとともに、代替データソリューションがより高いパフォーマンス、効率性の向上、および大幅なコスト削減をもたらす可能性があることを明らかにしています。
最適なデータマネジメントツールを慎重に選択することで、企業は変革を推進し、市場での競争力を維持することができます。
本記事は2024年9月10日「Seven case studies where Cassandra performance fell short」の翻訳です。