COLUMNニューソンコラム

2025.03.31

クラウド特性を活かすデータ活用基盤構築 ~ クラウドの柔軟性を最大限に引き出す移行戦略と実践 ~

  • クラウド
  • DX
  • AWS
  • データ活用
  • データレイク
  • データウェアハウス
  • DWH
  • ETL
  • BI

「DX(デジタルトランスフォーメーション)」に関連する取り組みの中でも、データレイク、データウェアハウス、データマートなどの分析基盤の構築は一般的です。これらのシステムはクラウドとの親和性が非常に高く、クラウド上へのシステム移行や構築のプロジェクトを多く見かけます。

今回は、データウェアハウスとクラウドが相性の良い理由、そしてその実現に向けた具体的なポイントについて、小売業のお客様がオンプレミス環境から AWS へ移行した事例をもとにご紹介します。
本事例では、拡張性の限界、データの分散、運用負荷の増大といった課題を抱えていたお客様が、クラウド移行する中で選定した構成や成功につながった理由についてまとめています。

単なるクラウドネイティブ化ではなく、ビジネスの成長に伴うデータ活用の最適化 をどのように実現したのか、移行の意思決定から実際の導入プロセスまで、具体的な検討内容を交えて解説します。

 

お客様要件のあらまし

お客様の要件は以下のようなものでした。

  • オンプレミスのデータウェアハウスが EOL を迎える、またデータ上限に達しているためシステム更改したい
  • 様々なシステムに分散しているデータをさらに集約し、ビジネスに活用できるデータ分析基盤を構築したい
  • 社内向け、エンドユーザ向け、内容に応じてなど、最適な分析ツールを提供したい
  • 運用コストを低減したい

これらの要件に対し、検討した結果、拡張性・コスト効率・運用負荷の削減という観点から、クラウドへの移行を決定しました。
AWS のサービスを中心にデータの集約・分析を行えるクラウド基盤の構築を実現しています。利用したサービスと構成を以下記載します。

  • データレイクは AWS の S3(オブジェクトストレージ)を利用する
  • データウェアハウス・データストアは Snowflake を利用する
  • ETL は AWS Glue を利用する
  • BI ツールは利用者に合わせ、Tableau Server とコンテナ上で動くスクラッチのアプリケーションを使い分ける
  • 基盤は Terraform で管理、アプリケーションやスクリプトは Git(CodeCommit)で管理し、CodeBuild や CodeDeploy でリリースする
  • 監視は CloudWatch と DataDog を組み合わせる
概要図
クラウドネイティブ

上記はマネージドサービス、コンテナ、オブジェクトストレージ、IaC や CI/CD など、クラウドネイティブに採用される要素を網羅しています。

クラウドネイティブについては、ニュースレター『活発化するクラウドネイティブ開発のアーキテクチャ解説と導入事例紹介』をご参照ください。




データレイク・データウェアハウスとクラウド

データ基盤とクラウドの相性がよい、と言われる所以はコストにあります。
日々増えていくデータ、新たに集約するデータを予測して、自社データセンターに分析環境を構築しようとすると、サーバーの手配や設定、運用に大きな時間とコストがかかります。
ご紹介するプロジェクトでは、200TB 弱のデータがデータレイクに保管されており日々増加し続けていますが、データ保管の利用料は月間で 4,000 ドル強、データの出し入れやオペレーションにかかるコストを加えても 6,500 ドル強です。

データレイクにあるデータは、ETL を利用してデータウェアハウスである Snowflake に日々インポートされます。Snowflake のストレージは 750TB 弱利用されており、Snowflake の AWS 東京リージョンでキャパシティプランの場合は1TBあたり 25ドル(2025/3現在)ですので、データ容量にかかるコストは月間で約18,750ドルです。
Snowflake には構造化されたデータ(分析に使えるデータ)が入っているので、500TB 以上のストレージをもつデータベースであるとみなせば低コストであるといえるでしょう。
(※ データベースとデータウェアハウスは異なるので、まったく同じものとしての比較はできません。)

データレイクやデータウェアハウスに蓄積されるデータは日々増加し続けているため、柔軟なスケーラビリティとコスト効率を両立できるクラウドは、最適な選択肢の一つ となります。

ETL とクラウド

AWS Glue を採用することで、サーバーレス ETL を実現し、運用コストを大幅に削減しました。必要な時に必要な分だけリソースを消費する AWS Glue は、オンプレミス環境での固定リソース確保に比べて低コストを実現します。マネージドサービスで運用コストが低減できることもメリットです。
Glue はデータレイクのデータを加工し、主に SQL で Snowflake にインポートを行いますが、多様なパターンに対応できるよう目的別の Glue ジョブ(受信・加工・配信など)を、設定値と SQL ファイルで分岐させるなどして汎用化し、可読性が高くメンテナンスしやすいジョブを構築しました。

また Glue を実行するジョブ管理には JP1 AJS を利用して、運用上の利便も図っています。使える人が多いツールの採用は、システム全体の運用を高めます。

BI ツール(アプリケーション)とクラウド

BI ツールは「社内から BI のカスタマイズや作成を行いたい」とのご要望で、お客様が Tableau Server が選定されました。実は社内利用者が増えて想定より負荷が高く、Tableau Server の HAクラスタ構成を拡張していますが、夜間停止で拡張を実現できるのはクラウドならではといえます。
一方エンドユーザ向けの BI は複雑なものではなく、時間や季節によってアクセスが変動するため、コンテナを採用して変化するリソースに対応しています。

継続開発、運用フェーズにも活きるクラウドネイティブアーキテクチャ

このプロジェクトは運用フェーズに入っていますが、継続・追加開発も行われています。
運用しつつ新たな機能の追加や改修を行うにも、前述のクラウドネイティブの特徴を活かした設計が活かされています。新規サービス検討、コスト最適化、可観測性(Observability)、安全にリリースできることなどを押さえておくことが肝要です。
新規サービスの立ち上げ時には将来的な拡張性や変更のしやすさを考慮し、リソースのスケール調整が容易な構成を採用することが求められます。またコスト最適化の観点では、利用状況に応じた サーバーレス技術の活用やリソースの自動スケーリングなどにより、無駄なコストを削減できます。
さらに、運用の安定性を確保するために、システムの状態をリアルタイムに監視できる可観測性を強化し、ログやメトリクスを活用した異常検知・トラブルシューティングの迅速化を図ることも重要です。安全なリリースのために、CI/CD パイプラインを活用した自動デプロイを取り入れることで、システムの安定性を維持しつつ、新機能をスムーズに展開できます。

これらの要素を設計段階から組み込んでおくことで、継続的な開発と運用の効率化を図り、持続可能なシステム基盤を構築することが可能となります。

クラウドを最大限に活用できる基盤構築をお考えでしたら、ぜひ当社にご相談ください。豊富な実績とノウハウを活かし、貴社の課題に最適なソリューションをご提案・ご支援いたします。

クラウドネイティブについては、ニューソンコラムの連載を併せてご覧ください。

執筆者

Oosawa
大澤 俊博
基盤サービス事業部 第一技術統括部 クラウド技術担当
EC サイトの構築、ディレクションや WEB アプリケーション開発などを経験。現在はパブリッククラウド(主に AWS)を利用したシステム開発のインフラを担当。

監修

Obata
小畑 愛実
基盤サービス事業部 第一技術統括部 クラウド技術担当
データ活用プロジェクトを多数経験したのち、現在はパブリッククラウドを活用した基盤構築案件の管理を中心に担当。現場経験を活かし、社内外のプロジェクト推進に取り組む。

ニュースレター

クラウドネイティブに関するニュースレターはこちらです。是非ご覧ください。