Google Cloud を活用したデータ基盤構築事例 6 選

Google Cloud を活用したデータ基盤構築事例 6 選

Google Cloud技術ブログ

Google Cloud を活用したデータ基盤構築事例 6 選

昨今、データ活用の重要性が強く叫ばれており、企業は自社が保有するデータを分析し、様々なアクションに役立てる必要性に迫られています。そして、 Google が提供するパブリッククラウド「 Google Cloud 」を利用することで、高品質なデータ基盤を効率的に構築できます。

本記事では、データ基盤の概要や Google Cloud でデータ基盤を構築するメリット、 Google Cloud を活用したデータ基盤の事例などを一挙にご紹介します。自社でデータ活用を検討されている方は、ぜひ最後までご覧ください。

なお、 Google Cloud に関しては以下の記事で詳しく解説しています。サービスの特徴やメリット、利用シーンなど、あらゆる観点からご説明していますので、あわせてご覧いただければと思います。

まずは、データ基盤の基礎知識について理解しておきましょう。

データ基盤とは、

  • データの蓄積
  • データの加工
  • データの保管(用途ごと)

など、データ活用における各プロセスを一気通貫で実行できる基盤のことです。

以下、データ基盤のイメージを図で示します。

上図を見てわかる通り、データ基盤は領域ごとに使われるサービスが異なっており、それぞれのサービスの集合体としてデータ基盤が構成されています。それでは、データ基盤にはどのようなサービスが内包されているのでしょうか?

以下、一般的なデータ基盤に利用されているサービスを表にまとめます。

用途サービス概要
データレイクデータの蓄積あらゆるデータをそのままの状態(生データ)で格納するためのツール
ETLデータの加工様々な社内システムからデータを抽出し、加工・書き出しするためのツール
データウェアハウスデータの加工・整理データを保存し、加工・整理するためのツール
データマートデータの保管(用途ごと)整理したデータを用途ごとに分けて保管しておくためのツール

データ基盤では、はじめにデータを「データレイク」に生データのまま蓄積します。そして、「 ETL 」 や「データウェアハウス」などで加工した後、「データマート」で用途ごとに分けて保管します。

このように、一口に「データ基盤」と言っても、その中で使われるサービスは多岐にわたります。データ活用における基礎知識として、データ基盤に内包される各サービスの概要を理解しておきましょう。

Google Cloud を活用することで、高品質なデータ基盤を効率的に構築できます。本章では、 Google Cloud でデータ基盤を構築する 5 つのメリットについてご紹介します。

高速なデータ処理(リアルタイムデータ処理)

Google Cloud は高速データ処理が大きな特徴の一つであり、 Pub/Sub (リアルタイムメッセージングサービス)や Dataflow (フルマネージドなデータ処理サービス)などを活用することで、リアルタイムなデータ処理を実現できます。例えば、株価や為替のように日々変動する情報を取り扱っている金融業界で Google Cloud を活用すれば、少ないタイムラグでリアルタイムな情報をユーザーに届けることが可能になります。

柔軟なスケーリング

Google Cloud は 100 % クラウドで提供されているため、オンプレミスのように物理サーバーやネットワーク機器などを自社で用意する必要はありません。データ量が大きくなった場合でもリソース追加が容易であり、状況に応じて柔軟にスケーリングできるため、設備投資などのコストを大幅に削減できます。この点は、クラウドサービスとして提供されている Google Cloud の大きなメリットだと言えるでしょう。

高いセキュリティレベル

Google Cloud の特徴として、第三者認証取得のハイレベルなセキュリティを備えている点が挙げられます。例えば、 HIPAA (保護された健康情報の合法的な使用と開示の概要を示す一連の連邦規制基準)や ISO (スイスの非政府機関が制定している国際規格)など、様々なコンプライアンス基準に準拠しています。

そのため、ビジネスシーンでも安心して利用できますし、 Data Catalog (基盤となるストレージシステムから提供されるメタデータ・権限を反映するための読み取りサービス)や Cloud DLP (機密データの漏洩や損失などを防ぐためのサービス)などを活用することで、データの検出・分類・保護を効果的に行える点も魅力的なポイントです。

使いやすいユーザーインターフェース

データ基盤で膨大なデータを取り扱う場合、データベースに関する専門知識が求められるケースが一般的です。その点、 Google Cloud は使いやすいユーザーインターフェースが大きな特徴であり、専門知識を持たない人でも簡単に操作できるように設計されています。そのため、データ基盤の構築・運用にかかる属人化を回避でき、組織全体でデータ活用を推進するための文化の醸成に繋がります。

豊富なソリューション

Google Cloud には、 Cloud Storage (データレイク)や BigQuery (データウェアハウス)など、データ基盤に求められる様々なソリューションが搭載されています。これにより、データ活用における全てのプロセスを一気通貫で実行でき、生産性の向上や迅速な意思決定などに繋がります。さらに、 Looker という BI ツールも搭載されているため、データ基盤に保管した情報の分析・可視化についても、 Google Cloud の世界の中で完結できます。

次に、データ基盤の構築に使える Google Cloud サービスを 3 つご紹介します。どれも高品質なデータ基盤を構築するうえでは重要なツールであるため、ぜひ内容を理解しておきましょう。

BigQuery

BigQuery とは、 Google Cloud に搭載されているデータウェアハウスです。高速なデータ処理が BigQuery の大きな特徴であり、ペタバイトを超えるような大容量データだとしても、高速で分析・処理を行うことができます。

また、データウェアハウスとしての役割だけではなく、 ETL の領域をカバーしている点も BigQuery の強みの一つであり、クエリ結果を BigQuery のテーブルとして出力することが可能です。さらに、他の Google Cloud サービスとシームレスに連携できるため、あらゆるデータ処理を一気通貫で行うことができます。

Dataflow

Dataflow とは、 Google Cloud に搭載されている ETL ツールです。フルマネージドかつサーバーレスで提供されているため、運用・保守にかかる工数を削減でき、物理サーバーなどのインフラ設備を用意する必要もありません。

また、 Dataflow には標準テンプレートが備わっており、これらを使うことで作業を効率的に進めることが可能です。さらに、テンプレートを使わずに Python や Java で処理を作り込むこともできるため、自社の状況に合わせて柔軟な運用が可能になります。

Looker

Looker とは、 Google Cloud に搭載されている BI ツールです。なお、 BI ツールとは、膨大なデータを分析し、その結果を表やグラフなどを用いてわかりやすく見える化するためのツールです。

Looker を活用することで、データ基盤に保管されている情報を人間が理解しやすい形で表現できます。これにより、分析結果をもとに有益なインサイト(洞察)を取得することができ、今後のアクション検討や迅速な意思決定に繋がります。

ここまで、 Google Cloud について詳しく解説してきましたが、実際に多くの企業が Google Cloud を活用して自社のデータ基盤を構築しています。本章では、 Google Cloud を活用したデータ基盤の事例をご紹介します。

日本経済新聞社

日本経済新聞社では、「 Vessel 」と呼ばれる日経電子版のデータ基盤を Google Cloud の Google Kubernetes Engine (以下、 GKE と記載)と Anthos を中心に構築しています。従来、同社は GKE 上でサービスを提供していましたが、サービスに影響を与えることなく、 GKE クラスタをアップデートしなければならない点が課題となっていました。

そこで、同社は Anthos の Multi Cluster Ingress を使用し、複数の GKE クラスタにトラフィックを振り分けることで、クラスタレベルでの GKE のローリングアップデートを実現したのです。また、 Anthos Service Mesh を活用することで、開発・運用にかかる負荷を軽減し、これまでは約 15 日かかっていた作業を 2 日以内で完了できるようになりました。

このように、 Google Cloud の活用により、自社のデータ基盤を効率的に構築・運用している好事例となっています。

以下、参考までに Vessel の構成図を掲載しておきます。

※参照元: Google 公式サイト「日本経済新聞社:日経電子版のアプリ基盤と全社データ分析基盤の刷新で開発・運用の負荷軽減とコスト削減を実現

セブンイレブン・ジャパン

セブンイレブン・ジャパンでは、自社のシステムがレガシー化し、管理・運用が煩雑化している点が大きな課題となっていました。そこで同社は、デジタルトランスフォーメーション( DX )を実現するための IT 戦略の一つとして、データ活用基盤「セブンセントラル」を Google Cloud で構築したのです。

Google Cloud を採用した理由としては、高いセキュリティ性とオープン性の 2 点が大きな決め手となりました。安全な環境で自社の機密データを保護するとともに、ベンダー依存のリスクを排除するためにオープン性の高い Google Cloud を導入しています。

特に BigQuery と Apigee を有効活用しており、 BigQuery は大規模データの高速処理、 Apigee はデータとビジネスロジックの分離など、目的や用途に合わせて様々なサービスを使い分けています。その結果、初期コストの低減やデータのサイロ化の回避、データの利用状況の見える化など、様々なメリットを享受しています。

以下、参考までにセブンセントラルのシステム構成図を掲載しておきます。

※参照元: Google 公式サイト「セブン-イレブン・ジャパン:これからの IT 戦略を支えるデジタルデータ基盤「セブンセントラル」を Google Cloud 上に構築

ぐるなび

ぐるなびでは、自社が運営する飲食店情報サイト「ぐるなび」の利便性向上や飲食店・ユーザーのマッチング強化が大きな課題となっていました。そこで、これらの課題を解決するために、同社は Google Cloud を活用したデータ基盤の刷新に乗り出したのです。

従来、同社はオンプレミスのデータウェアハウスを利用しており、運用負荷やコストの面で多くの課題が残っていましたが、 Google Cloud に搭載されている BigQuery を活用することで、高速データ処理や高いスケーラビリティを実現し、コストを抑えながら効率的にデータ基盤を運用できるようになりました。

また、 ETL の領域にはマネージドサービスである Cloud Composer を使い、コードベース管理や運用負荷軽減、ライセンスコスト削減などを実現しています。さらに、 Cloud Composer の導入に伴い、ジョブの失敗をビジネスチャットに通知する機能を盛り込むことで、障害発生から検知までの時間を短縮できた点も大きなメリットだと言えるでしょう。

以下、参考までにぐるなびのシステム構成図を掲載しておきます。

※参照元: Google 公式サイト「ぐるなび:BigQuery を中心にデータ収集からデータの可視化や活用まで Google Cloud でデータ分析基盤を刷新

LIXIL

LIXIL では、会社全体で「データの民主化」というコンセプトを掲げ、 Google Cloud を活用したデータ基盤の構築に取り組んでいます。

同社が構築したデータ基盤は「 LIXIL Data Platform (以下、 LDP と記載)」と呼ばれており、

  • 基幹システム
  • Web アプリケーションサーバー
  • 生産設備
  • IoT ログデータ

など、あらゆるシステムから様々なデータが LDP に蓄積され、 LIXIL の標準データ基盤として全社員に活用されています。

LDP は BigQuery を中心に構成されており、 BigQuery の高速データ処理を活用することで、迅速かつ高精度な分析・意思決定が可能になりました。また、 Data Catalog と BigQuery の連携により、 BigQuery で View が作成されると即座にカタログに反映されるため、メンテナンスコストを最小限に抑えたデータカタログの仕組みを実現しています。

加えて、同社は「 LDP データ検索サイト」という社内向けのアプリケーションを自社開発しました。これは、 BigQuery に格納されているデータを瞬時に検索するための仕組みであり、必要な情報を必要なタイミングですぐに取り出せる環境を整備しています。

これにより、社員のデータ活用を推進し、組織全体の「データの民主化」の実現に繋げた好事例だと言えるでしょう。

以下、参考までに LDP のアーキテクチャを掲載しておきます。

※参照元: Google 公式サイト「LIXIL:BigQuery を中心としたデータ活用基盤 LIXIL Data Platform を構築、"データ活用の民主化" を推進

DeNA

DeNA では、厚生労働省が提供している新型コロナウイルス接触確認アプリ「 COCOA 」の稼働状況を可視化するためのシステムを構築しており、その仕組みを支えるデータ基盤として Google Cloud を活用しています。

COCOA の稼働状況可視化システムは、

  • センサー デバイスによるデータ取得
  • BigQuery によるデータ集約
  • データポータルによるデータの可視化

という 3 つの機能で構成されています。

また、 COCOA のインストールを判定するセンサーデバイスはシングルボードコンピュータをベースに開発しており、各センサーデバイスはインターネットを介して BigQuery に直接データを書き込む仕組みになっています。

さらに、 Looker Studio (旧 Google データポータル)を BigQuery と連携させることで、 BigQuery に蓄積された「リアルタイムの COCOA 有効デバイス数」や「時系列の COCOA デバイス数」などのデータをわかりやすく可視化しています。これにより、イベント参加者の COCOA 利用状況をリアルタイムに見える化し、イベント開始前から終了後までの来場者の行動をモニタリングできるようになりました。

以下、参考までに DeNA のシステム構成図を掲載しておきます。

※参照元: Google 公式サイト「DeNA:データ分析基盤の構築でリアルタイムなデバイスデータの収集・分析を実現。コロナ禍の安心・安全なイベント開催に貢献

ギフティ

個人向けのカジュアルギフトサービス「 giftee 」を展開するギフティでは、サービスのリニューアルをきっかけにデータベースを 2 つに分けていました。しかし、異なるデータベースがそれぞれ存在することで、新旧データベースに保管されている情報の統合・分析にかかる工数が増大し、この点が課題の一つとして顕在化していました。

そこで同社は、 Google Cloud を活用して 2 つのデータベースを統合し、自社データベースの運用効率化や生産性向上を目指したのです。具体的には、あらゆるデータを BigQuery へ集約し、 BigQuery に保存されている日々のアクセス数やユーザー数、送られたギフト数などの情報を Looker Studio で可視化しています。

その結果、自社が保有するデータを一元的に管理・分析・活用できるようになり、運用負荷の軽減や迅速な意思決定を実現しました。このように、 Google Cloud は新規でデータ基盤を構築するだけではなく、データベースの統合にも有効なソリューションであると言えます。

なお、当社センティリオンシステム 大阪事業所では、データ基盤の新規構築はもちろんのこと、本事例のようなデータベース統合に関するコンサルティング・アドバイスも提供しています。関心のある方は、問い合わせフォームからお気軽にご連絡ください。

最後に、 Google Cloud でデータ基盤を構築する際のポイントを 3 つご紹介します。前述した活用事例の内容も踏まえながら、どのような点を意識すべきなのかを見ていきましょう。

自社の状況にマッチしたサービスを選択する

Google Cloud には、多種多様なサービスが揃っているため、自社の状況に応じて最適なサービスを選択することが大切です。先程の事例で言えば、日本経済新聞社は作業負荷の軽減、ギフティは複数データベースの統合など、特定の課題が社内に存在しており、その課題を解決するために Google Kubernetes Engine ( GKE )や BigQuery などの最適なソリューションを選択しています。このように、まずは自社の課題を明確化し、それを起点として自社にマッチしたサービスを選ぶことが重要なポイントになります。

BigQuery を積極的に活用する

今回ご紹介した多くの企業では、データ基盤の構築に BigQuery を活用していました。 BigQuery は超高速なデータ処理が可能なデータウェアハウスであり、効率的なデータ基盤の構築に大いに役立つサービスです。また、コストパフォーマンスが非常に高いため、コストを抑えながら高品質なデータ基盤を構築したい場合は、 BigQuery が心強い武器になると言えるでしょう。

以下の記事で BigQuery の使い方や BigQuery を活用したデータ基盤の構築事例をご紹介しています。自社で取り組む際の参考になると思いますので、ぜひあわせてご覧ください。

事前にコストシミュレーションを行う

セブンイレブン・ジャパンやぐるなびの事例のように、 Google Cloud の導入がコスト削減に繋がるケースは珍しくありません。しかし、 Google Cloud は従量課金制のサービスであり、使用量に応じて料金が変動するため、何も考えずに使っていると思いがけない高額請求に繋がるリスクがあります。 Google 公式サイトには料金計算ツールが用意されているため、事前にコストシミュレーションを行い、発生する費用を把握しておくとよいでしょう。

なお、料金計算ツールの使い方について解説した記事もあるので、合わせてご覧ください。

本記事では、データ基盤の概要や Google Cloud でデータ基盤を構築するメリット、 Google Cloud を活用したデータ基盤の事例などを一挙にご紹介しました。

Google Cloud でデータ基盤を構築することで、高速なデータ処理や使いやすいインターフェースなど、様々なメリットを享受できます。この記事を読み返して、 Google Cloud の特徴や具体的な導入事例について理解しておきましょう。

当社センティリオンシステム 大阪事業所はこれまでの多くのクラウド開発を支援してきた知見を活かし、クラウドを活用した内製化に取り組まれるお客様を全力でサポートします。

以下のような課題をお持ちの方は、ぜひお気軽にご相談ください。

  • SRE を実現したい
  • クラウド活用を推進するための開発体制作りが進まない
  • 既存資産をどのようにクラウド移行するか検討する知見が不足している
  • 内製化するためのクラウド開発スキルを持った人材が不足している
  • コスト削減の実現方法に悩んでいる

貴社の状況に合わせて、体制づくり支援や開発計画支援、クラウド開発スキルアップ支援など、様々な支援メニューを提供しています。

クラウド移行の作業をすべて外部委託する場合は高いコストが発生しますが、コンサルティングやアドバイスだけに留めることで、コストを削減できるとともに社内へのナレッジ蓄積にも繋がります。当社でもクラウド移行に関するコンサルティングやアドバイスを提供しているため、関心のある方は問い合わせフォームからお気軽にお問い合わせください。

本記事を参考にして、 Google Cloud の導入およびデータ基盤の構築を検討してみてはいかがでしょうか?