データ活用を効率的に行うためには、高品質なデータ基盤の構築が必要不可欠です。そして、 Google が提供するパブリッククラウド「 Google Cloud 」には、データ基盤の構築に役立つサービスが多数搭載されています。
本記事では、 Google Cloud のデータ基盤構築サービスを一挙にご紹介します。計 20 のサービスを取り上げていますので、自社で Google Cloud の導入を検討されている方は、ぜひ最後までご覧ください。
目次
Google Cloud とは?
Google Cloud は Google 社が提供するパブリッククラウドであり、以前は Google Cloud Platform ( GCP )という名称で親しまれていました。全世界で圧倒的なユーザー数を誇り、様々な企業が Google Cloud を活用して自社の生産性向上を実現しています。
Google Cloud と同じ種別のサービスとしては、 Microsoft 社の Microsoft Azure や Amazon 社の AWS などが挙げられます。これらは「 3 大クラウドサービス」と呼ばれており、数あるクラウドサービスの中でも、特に有名なものとして広く認知されています。
また、 Google Cloud では、 Gmail や YouTube など、 Google の代表的なサービスと同じインフラを採用しています。そのため、盤石なシステム基盤の上に構築されており、ビジネスシーンでも安心して利用できる点が、 Google Cloud の大きな魅力となっています。
さらに、 Google Cloud はデータベースやストレージなどの各種機能に加えて、 AI や機械学習のサービスも数多く展開しています。昨今、 ChatGPT をはじめとした「生成 AI 」が大きな注目を集めていますが、 Google Cloud には生成 AI に関連するサービスも多数搭載されています。
このように、 Google Cloud には様々な機能・サービスが備わっており、これらを活用することで、自社のビジネスを大きく成長させることができます。 Google の最先端のテクノロジーをフル活用したい方は、 Google Cloud が有効な選択肢の一つになると言えるでしょう。
関連記事
データ基盤とは?
次に、データ基盤の基礎知識について理解しておきましょう。
データ基盤とは、
- データの蓄積
- データの加工
- データの保管(用途ごと)
など、データ活用における各プロセスを一気通貫で実行できる基盤のことです。
以下、データ基盤のイメージを図で示します。
上図を見てわかる通り、データ基盤は領域ごとに使われるサービスが異なっており、それぞれのサービスの集合体としてデータ基盤が構成されています。それでは、データ基盤にはどのようなサービスが内包されているのでしょうか?
以下、一般的なデータ基盤に利用されているサービスを表にまとめます。
用途 | サービス | 概要 |
---|---|---|
データレイク | データの蓄積 | あらゆるデータをそのままの状態(生データ)で格納するためのツール |
ETL | データの加工 | 様々な社内システムからデータを抽出し、加工・書き出しするためのツール |
データウェアハウス | データの加工・整理 | データを保存し、加工・整理するためのツール |
データマート | データの保管(用途ごと) | 整理したデータを用途ごとに分けて保管しておくためのツール |
データ基盤では、はじめにデータを「データレイク」に生データのまま蓄積します。そして、「 ETL 」 や「データウェアハウス」などで加工した後、「データマート」で用途ごとに分けて保管します。
このように、一口に「データ基盤」と言っても、その中で使われるサービスは多岐にわたります。データ活用における基礎知識として、データ基盤に内包される各サービスの概要を理解しておきましょう。
なお、今回ご紹介した各サービスは別の記事で詳しく解説していますので、関心のある方はあわせてご覧ください。
データ基盤に求められる要素
データ基盤に求められる機能は多岐にわたり、
- ストレージとデータベース
- データ処理
- アナリティクス
- データガバナンスとセキュリティ
- AI と機械学習
などが代表的な要素として挙げられます。
以下、それぞれの要素について詳しく解説します。自社でデータ基盤を構築する際の参考になると思いますので、ぜひ内容を理解しておきましょう。
ストレージとデータベース
高品質なデータ基盤を構築するうえでは、データを適切に保存するためのストレージと、それらのデータを整理するためのデータベースが必要不可欠です。この時、データの可用性や信頼性、拡張性などが重要なポイントになるため、これらの要素を十分に考慮してデータ基盤を構築することが大切です。また、自社が扱うデータの種類や用途に応じて、最適なデータベースを選択することも忘れてはいけません。
データ処理
データ基盤では、大量のデータを効率的に処理する能力が求められます。そのため、データの抽出や変換、ロード(読み込み)、バッチ処理など、様々な処理を効率化できる IT ツールやプラットフォームが必要になります。これにより、データの統合や変換、処理を効率化し、迅速な意思決定や分析を行うことが可能になります。
アナリティクス
データ基盤に求められる要素として、データを分析し、有益なインサイト(洞察)を得るためのアナリティクス(分析)機能が挙げられます。データは保存してあるだけでは意味がなく、それらを分析・活用して、自社の運用改善や意思決定に反映して初めて価値が生まれます。そのため、膨大なデータを効率的に分析するためのアナリティクス機能は、データ基盤にとって必要不可欠なものであると言えるでしょう。
データガバナンスとセキュリティ
データ基盤には、自社の機密情報を含む貴重なデータが数多く保管されています。そのため、それらのデータを保護するためのデータガバナンスやセキュリティは、確実に意識すべきポイントだと言えます。例えば、データへのアクセス制御やデータの整合性の維持、コンプライアンス要件の遵守など、データの安全性を確保するためのポリシーやセキュリティ対策を実装することが大切です。
AI と機械学習
昨今、ビジネスシーンにおける AI 活用が大きな注目を集めていますが、これはデータ基盤においても例外ではありません。データ基盤に AI を実装することで、データ処理の自動化や予測分析、パターン認識など、様々なメリットを享受できます。また、データ分析の精度を高めるためには、機械学習で AI モデルをトレーニングし、 AI が高度なタスクを実行できるような環境を構築することが大切です。
ここまで、データ基盤に求められる要素をご紹介しましたが、 Google Cloud にはデータ基盤の構築に役立つサービスが多数搭載されています。そのため、 Google Cloud を活用すれば、効率的なデータ基盤の構築が可能になります。
次章からは、前述した要素ごとにカテゴリ分けを行い、それぞれに関連する Google Cloud のデータ基盤構築サービスの概要についてご紹介します。
Google Cloud のデータ基盤構築サービス(ストレージとデータベース)
まずは、ストレージとデータベースに関連する Google Cloud のサービスをご紹介します。
1.Cloud Storage
Cloud Storage は Google Cloud に搭載されているストレージサービスであり、保存できるデータ量に制限がないため、保存したデータを必要に応じて何度でも取得可能です。さらに、 Cloud Storage に保存したデータは Google Cloud の他サービスとシームレスに連携できるため、データ分析の一連のプロセスを円滑に進めることが可能になります。なお、 Cloud Storage をデータ基盤の機能として考える際には、大量の非構造化データを一元的に格納するデータレイクとしての活用が想定されます。
2.Cloud Spanner
Cloud Spanner とは、 Google が提供しているリレーショナルデータベース(以下 RDB と記載)です。なお、 RDB は日本語で「関係データベース」と呼ばれており、データを複数の表として管理し、それぞれの関係性を定義することにより、複雑なデータ処理を実行できるデータベースのことです。
ただし、一般的なリレーショナルデータベース管理システム( RDBMS )を水平にスケーリングしようとすると、データの一貫性が大きな問題となります。そこで、この課題を解決するために、 RDB 構造のメリットと水平スケーリングを組み合わせた新たなデータベースとして Cloud Spanner が生み出されました。
Cloud Spanner は Google の専用ネットワーク上に構築されているため、状況を問わずに安定した稼働を見込むことができます。さらに、一般的なデータベースシステムは、設計・運用において専門知識が求められるケースが多いですが、 Cloud Spanner は使いやすいユーザーインターフェースが大きな特徴であり、公式ドキュメントなどの学習リソースも豊富に提供されているため、初心者でも安心して利用可能です。
このように、 Cloud Spanner は高性能かつ使いやすいデータベースであるため、データ基盤に保存されているデータを Cloud Spanner で効率的に処理することで、自社のデータ活用を大きく加速できます。
Cloud Spanner に関心のある方は以下の記事で詳しく解説しています。
関連記事
3.Cloud SQL
Cloud SQL は Google Cloud 上で動作する RDB であり、主に MySQL や PostgreSQL 、 SQL Server の 3 つのエンジンをサポートしています。フルマネージドサービスとして提供されており、データベースの設定・管理は Google が担当してくれるため、ユーザーはアプリケーションの開発や運用に集中できます。
また、自動バックアップや自動フェイルオーバー、高可用性などの機能を提供しており、自由自在にスケーリングできる点も Cloud SQL の大きな特徴となっています。 Cloud Spanner と同様、 Cloud SQL も様々なメリットを兼ね備えたデータベースであるため、データ基盤に保存されているデータを手間なく効率的に処理することが可能になります。
4.Firestore
Firestore は Googleの NoSQL データベース( RDB 以外のデータベースの総称)であり、リアルタイムなデータ同期とクエリをサポートしています。 JSON ドキュメント形式でデータを保存し、リアルタイムな変更を他のクライアントと同期できる点が Firestore の大きな特徴となっています。
また、柔軟なデータモデルと自動スケーリングにより、 Web アプリケーションやモバイルアプリケーションの開発を簡素化できる点も Firestore の魅力の一つです。
ただし、 Firestore 単体でデータウェアハウス( DWH )やデータレイクとして使うことはまれで、 Firestore に格納されているアプリケーションのデータを BigQuery へエクスポートして利用するなど、他の Google Cloud サービスと組み合わせて使用するケースが多いです
データウェアハウス( DWH )とデータベースとの違いについては、以下の記事で解説しておりますので、合わせてご覧いただけると理解が深まるでしょう。
関連記事(近日公開)
関連記事:データウェアハウス( DWH )とは?メリットや選定時のポイント、活用事例まで徹底解説!
5.Bigtable
Bigtable は大容量のストリーミングデータや時系列データを処理できる NoSQL データベースであり、高速なデータ処理や柔軟なスケーリングが特徴のサービスとなっています。他の Google Cloud サービスと同様、 Bigtable は Google 社内で利用されている技術をもとに設計されているため、高いパフォーマンスと信頼性を提供しています。
そのため、高いスループットと低レイテンシが求められるアプリケーションなどに最適なデータベースだと言えるでしょう。 Google Cloud には様々なデータベースサービスが存在しますが、特にストリーミングデータや時系列データを扱うようなデータ基盤を構築する際には、 Bigtable の活用が有効な選択肢になります。
Google Cloud のデータ基盤構築サービス(データ処理)
次に、データ処理に関連する Google Cloud のサービスをご紹介します。
6.Cloud Dataflow
Cloud Dataflow は Apache Beam (オープンソースの統合プラグラミングモデル)をベースとした Google Cloud の代表的な ETL ツールであり、サーバレスかつ高速なデータ処理が特徴のサービスです。処理を構築する際には Python や Java などの言語を利用でき、処理を実行するリソースの自動プロビジョニングと管理を行うことも可能です。
また、フルマネージドで提供されているため、自社の作業工数を大幅に削減できる点も魅力的なポイントの一つです。データ基盤の中で Cloud Dataflow を使えば、複数の社内システムに点在するデータを効率的にデータレイクやデータウェアハウス( DWH )などに移すことができます。
ETL に関心のある方は以下の記事が参考になります。
7.Cloud Pub/Sub
Cloud Pub/Sub は Google Cloud で提供されているメッセージングサービスであり、アプリケーション間・システム間における非同期なデータの受け渡しを行うことが可能です。メッセージの送信元と受信先が疎結合(各部分の依存関係を少なくした状態のこと)になる点が Cloud Pub/Sub の大きな特徴で、これによりシステムのスケーラビリティや柔軟性を向上させることができます。
なお、 Cloud Pub/Sub の具体的な利用シーンとしては、大規模なデータストリーム処理やリアルタイムデータ分析などが挙げられます。そのため、リアルタイムなデータ処理が求められるデータ基盤においては、 Cloud Pub/Sub が心強い味方になると言えるでしょう。
8.Cloud Composer
Cloud Composer は Apache Airflow を基にしたフルマネージドのワークフローオーケストレーションサービスです。ワークフローをコードで定義し、スケジュール管理や監視を行うことが可能です。
また、複雑なデータパイプラインや処理フローを自動化し、データの処理や処理の流れを効率化できるため、手間をかけずにデータを処理したい場合には、 Cloud Composer が有効な選択肢になると言えるでしょう。データ基盤においては、データレイクからデータウェアハウス( DWH )、 DWH からデータマートなど、データを効率的に受け渡す場面で効果的に活用できます。
9.Cloud Data Fusion
Cloud Data Fusion は Google Cloud に搭載されている ETL ツールの一つであり、コードを意識せずにマウスだけで視覚的に操作できるインターフェースが大きな特徴です。また、事前構成されたコネクタと変換について、 150 以上の豊富なライブラリを追加コストなしで利用できるため、初心者でも安心して利用できます。
さらに、 Cloud Dataflow と同様に、サーバーレスかつフルマネージドで提供されており、様々なデータソースを組み合わせてデータを統合することが可能です。 Cloud Dataflow と同様、 Cloud Data Fusion は複数のデータソースからデータ基盤へデータを移す際に有効活用できるサービスとなっています。
Google Cloud のデータ基盤構築サービス(アナリティクス)
次に、データ処理に関連する Google Cloud のサービスをご紹介します。
10.BigQuery
BigQuery とは、 Google Cloud に搭載されている DWH ツールであり、超高速なデータ処理が特徴のサービスです。膨大なデータを短時間で処理できるため、ビッグデータ解析の用途で用いられることも珍しくありません。また、 BigQuery もサーバーレスで提供されており、使用リソースを自由自在に増減できます。これにより、自社の状況に合わせて必要な分のみを利用できるため、自社のコスト最適化にも直結します。
BigQuery については以下の記事で詳しく解説しています。
Google Cloud のデータ基盤構築サービス(データガバナンスとセキュリティ)
次に、データガバナンスとセキュリティに関連する Google Cloud のサービスをご紹介します。
なお、本章でご紹介する 5 つのサービスについては、データ基盤で直接利用することは多くありません。データ基盤と連携させて活用することで、データ基盤の安全性を高めたり、運用効率を上げたりするためのサービスであるため、この点はあらかじめご承知おきください。
11.Cloud Data Loss Prevention ( DLP )
Cloud Data Loss Prevention (以下 DLP と記載)は、機密データの検出や分類、保護などを行うためのサービスです。例えば、データのスキャン・分析により機密情報を特定し、適切な対処を行うことができます。加えて、データの暗号化やマスキング、削除などのポリシーを設定可能なため、 DLP を活用することで、データ漏洩のリスク低減に繋がります。
12.Cloud Key Management Service ( KMS )
Cloud Key Management Service (以下 KMS と記載)は、暗号鍵の生成や保管、管理を行うためのサービスです。データの暗号化・復号化を安全に行うことができるため、データ基盤のセキュリティ強化に繋がります。また、ユーザーが独自の暗号鍵を生成し、データの保護をカスタマイズできる点も KMS のメリットの一つだと言えるでしょう。
13.Cloud Identity and Access Management ( IAM )
Cloud Identity and Access Management (以下 IAM と記載)は Google Cloud 上のリソースへのアクセス権限を管理するためのポリシーサービスです。ユーザーやグループ、ロールなどの概念を活用し、細かなアクセス制御を行うことができるため、データ基盤のセキュリティを強化したい場合に有効に使えます。また、役割ベースのアクセス制御を実装することも可能であり、データへの不正アクセスの防止にも繋がります。
14.Cloud Security Command Center
Cloud Security Command Center は、 Google Cloud 環境におけるセキュリティポリシーの管理および監視を行うためのセキュリティマネジメントツールです。セキュリティの脅威やリスクをわかりやすく可視化してくれるため、改善に向けた迅速なアクションを行うことが可能になります。また、リアルタイムのアラートやセキュリティ診断など、豊富な機能が提供されているため、あらゆる観点から自社のセキュリティを強化できます。
15.Cloud Data Catalog
Cloud Data Catalog は Google Cloud で提供されているメタデータ管理サービスです。データの検索や分類、発見などを容易に行うことが可能であり、データ資産の価値を最大化できます。また、メタデータの自動生成にも対応しているため、メタデータの生成・管理の効率化にも繋がります。
Google Cloud のデータ基盤構築サービス( AI と機械学習)
最後に、 AI と機械学習に関連する Google Cloud のサービスをご紹介します。
16.Vertex AI
Vertex AI は Google が提供しているマネージドな機械学習のプラットフォームであり、
- 機械学習 API の活用
- 機械学習モデルの保存
- 機械学習モデルのデプロイ
- 予測のリクエスト
など、機械学習における様々な作業を行うことが可能です。
Vertex AI は Google Cloud に搭載されている数多くのサービスを一元的に集約し、統合されたユーザーインターフェースや API のもとで機械学習モデルを構築できる点が大きな特徴の一つです。また、 Vertex AI では、クラウドやオンプレミスなど、多種多様な環境のユーザーに対して、機械学習モデルを手間なく構築するためのツールを多数提供しています。
これらを活用することで、 UI ベースのモデル開発やコードベースのモデル開発など、様々なアクションを実現することが可能になります。そして、開発したモデルをもとに必要なデータを抽出したり、多角的に分析したりすることが可能なため、 Vertex AI はデータ基盤を効率的に構築するうえで有効なサービスであると言えるでしょう。
Vertex AI に関心のある方は以下の記事で詳しく解説しています。
関連記事(近日公開)
17.Vertex AI AutoML
Vertex AI AutoML は、機械学習モデルの構築やトレーニングを自動化するためのサービスです。元々は Cloud AutoML という名称でサービス提供されていましたが、 Vertex AI への統合に伴い、従来の Cloud AutoML よりも多くの機能を提供する新サービスとして生まれ変わりました。
Vertex AI AutoML は、 Vertex AI の使い慣れたインターフェースを利用可能であり、直感的に操作できるように設計されているため、専門知識がなくてもカスタムの機械学習モデルを構築・展開できます。また、自動的な特徴量エンジニアリングやハイパーパラメータのチューニングなどを行える点に加えて、データ量や処理量に合わせて柔軟にスケーリングすることも可能なため、機械学習のプロセスを簡素化できます。
なお、 Vertex AI AutoML をデータ基盤で利用する場合には、データ処理やデータ分析など、データ基盤の中で AI をどのように活用するのかを明確化し、その AI 活用を効率化する目的で使うとよいでしょう。
18.BigQuery ML
BigQuery ML とは、 BigQuery 上でロジスティック回帰や線形回帰などの分析を行うことができる AI サービスです。なお、前述した通り、 BigQuery は Google Cloud に搭載されているデータウェアハウス( DWH )であり、超高速なデータ処理が特徴のサービスです。
BigQuery ML を使えば、複雑かつ膨大なデータを短時間で処理・分析できるため、より品質の高いデータ基盤を構築することが可能になります。そして、分析結果をビジネスに反映することで、自社の課題改善やビジネス成長に直結します。
19.Cloud Natural Language API
Cloud Natural Language API とは、ユーザーが入力したテキスト(文章)をもとに感情を分析できる AI サービスです。例えば、顧客から届いた声を Cloud Natural Language API で分析すれば、その内容がポジティブ・ネガティブのどちらに該当するのかを分析でき、その結果をもとにサービス改善に繋げることで、解約阻止や顧客満足度の向上などを実現できます。
なお、 Cloud Natural Language API はデータ基盤で直接利用するわけではなく、データ基盤と連携させて活用することで、より効果的なデータ分析を実現可能になります。そのため、データソースとしてデータレイクへ取り込む前のデータを解析するサービスだとご理解ください。
20.Cloud Vision API
Cloud Vision API とは、画像データから様々な情報を取得できる AI サービスです。前項でご説明した「 Cloud Video Intelligence API 」の画像版だと考えるとイメージしやすいでしょう。 Cloud Vision API は Google 独自の機械学習モデルを採用しており、高精度な画像認識を実行可能なため、ビジネスシーンでも有効に活用できます。
なお、 Cloud Vision API も前項でご説明した Cloud Natural Language API と同様、データソースとしてデータレイクへ取り込む前のデータを解析するサービスです。 Cloud Vision API をデータ基盤で直接利用することはないため、この点には注意しておきましょう。
Google Cloud で構築するデータ基盤の参考アーキテクチャ
最後に、 Google Cloud でデータ基盤を構築する際の参考アーキテクチャをご紹介します。今回は E コマースプラットフォームの場合を例にとり、具体的な内容を見ていきましょう。
前提条件として、この E コマースプラットフォームでは、ユーザーの行動データや商品の注文・在庫データなどを管理しており、これらを活用してリアルタイムなマーケティング活動や売上分析、在庫管理などを実現したいと考えています。
そして、このプラットフォームでは、以下のようなデータが生成されます。
- ストリーミングデータ: Web サイトやアプリでのユーザーの行動データ(クリック、ページビュー、検索クエリなど)
- バッチデータ:日次売上データ、マーケティングキャンペーンの効果データ、顧客レビューの分析データ
- トランザクションデータ:注文データ、支払い情報、顧客情報
これらのデータを有効活用するためには、どのようなアーキテクチャを設計すればよいのでしょうか?ここからは、 Google Cloud でデータ基盤を構築する際の参考アーキテクチャの一例について解説します。
はじめに、様々なデータソースから取得したデータを Cloud Pub/Sub を通して Cloud Storage へ格納します。そして、 Cloud Dataflow で使いやすい形に加工した後、それらを BigQuery へ移すことで、高速かつ高品質なデータ分析を行うことが可能になります。
また、 BigQuery で分析したデータをわかりやすく可視化したい場合は BI ツールである Looker を利用するとよいでしょう。さらに、 Data Studio を使えば、様々なデータソースを紐付けて、それらに格納されているデータを組み合わせながら見える化できます。
加えて、ガバナンスやセキュリティの観点も忘れてはいけません。 Cloud IAM で細やかなアクセス制御を実装したり、 Cloud Data Catalog でメタデータ管理を効率化したりするなど、データ基盤の品質・安全性を向上させるための工夫を施してください。
なお、今回のようにストリーミングデータやバッチデータ、トランザクションデータなど、扱うデータの種類が多岐にわたる場合は、それぞれを最適なデータベースに保存し、それらを統合することで、包括的なデータ分析とビジネスインテリジェンスを実現できます。
その結果、リアルタイムなユーザー行動分析や日次売上報告、顧客取引の管理など、多種多様なデータニーズに対応することが可能になります。 Google Cloud には豊富な機能が搭載されているため、自社が取り扱うデータの特性や実現したい内容に合わせて、最適なサービスを選択することが大切です。
ちなみに、今回の参考アーキテクチャでは、
- データ品質管理
- 機械学習の活用
- マイクロサービスアーキテクチャ
- コスト最適化
などは考慮しておらず、データ基盤における一般的なアーキテクチャをご紹介していますので、参考にされる場合はこの点をご留意いただければと思います。
当社センティリオンシステム 大阪事業所では、 Google Cloud を活用したデータ基盤構築のサポートやコンサルティングを提供しています。無料相談も可能なため、まずは問い合わせフォームからお気軽にご連絡ください。
まとめ
本記事では、 Google Cloud のデータ基盤構築サービスを一挙にご紹介しました。
Google Cloud には、データ基盤の構築に役立つサービスが多数搭載されています。これらを活用することで、高品質なデータ基盤を手間なく構築できるため、この記事を読み返して、 Google Cloud の具体的なサービスについて理解しておきましょう。
当社センティリオンシステム 大阪事業所はこれまでの多くのクラウド開発を支援してきた知見を活かし、クラウドを活用した内製化に取り組まれるお客様を全力でサポートします。
以下のような課題をお持ちの方は、ぜひお気軽にご相談ください。
- SRE を実現したい
- クラウド活用を推進するための開発体制作りが進まない
- 既存資産をどのようにクラウド移行するか検討する知見が不足している
- 内製化するためのクラウド開発スキルを持った人材が不足している
- コスト削減の実現方法に悩んでいる
貴社の状況に合わせて、体制づくり支援や開発計画支援、クラウド開発スキルアップ支援など、様々な支援メニューを提供しています。
無料で相談できるため、まずは問い合わせフォームからご連絡いただければと思います。
本記事を参考にして、 Google Cloud の導入およびデータ基盤の構築を検討してみてはいかがでしょうか?