Google Cloud のデータ分析がすごい?最先端の IT ツール活用で生産性向上を実現!

Google Cloud のデータ分析がすごい?最先端の IT ツール活用で生産性向上を実現!

データ分析技術ブログ

Google Cloud のデータ分析がすごい?最先端の IT ツール活用で生産性向上を実現!

昨今、データ分析の重要性が強く叫ばれており、企業は自社が保有するデータを分析し、その結果を具体的なアクション検討に役立てることが求められています。そして、 Google が提供するパブリッククラウドサービス「 Google Cloud 」を活用することで、データ分析を効率的に進めることが可能になります。

本記事では、データ分析の基礎知識や Google Cloud のメリット、具体的なツールまで、あらゆる観点から一挙にご紹介します。自社でデータ分析を検討されている方は、ぜひ最後までご覧ください。

なお、データ分析に関しては以下の記事で詳しく解説しています。関心のある方は、あわせてご確認いただければと思います。

関連記事:データ分析のメリットとは?具体的な始め方を 7 ステップで解説!

まずは、データ分析を行う際の全体的な流れを理解しておきましょう。

一般的には、以下 5 つのステップに分けてデータ分析作業を進めていきます。

  • データを収集する
  • データを蓄積する
  • データを加工する
  • データを用途ごとに保管する
  • データを分析・可視化する

ここからは、それぞれのステップについて詳しく解説します。

Step.1 データを収集する

まずは、必要な情報を集めることがデータ分析の第一歩です。データ分析の目的に応じて、様々なデータを幅広く収集してください。この時、社内システムのデータが対象になることが一般的ですが、 Web 上のデータや SNS データなど、外部の情報を利用するケースも存在します。

Step.2 データを蓄積する

必要なデータを収集したら、それらを一元的に蓄積します。昨今、企業が保有するデータ量は増加しており、その種類も多様化しているため、種類・形式を問わずに膨大なデータを格納するための仕組みが求められます。なお、後ほど詳しくご紹介しますが、データの蓄積には「データレイク」や「データウェアハウス( DWH )」などの活用が有効な選択肢になります。

Step.3 データを加工する

データを一元的に蓄積した後は、分析作業をスムーズに進めるための加工を行います。データの品質は、データ分析の精度を左右する重要な要素であるため、データの加工は非常に大切なプロセスの一つであると言えます。なお、データの加工には ETL が利用されることが一般的です。

Step.4 データを用途ごとに保管する

データの加工が完了したら、それらのデータを用途ごとに分類し、それぞれを分けた状態で保管します。これにより、膨大なデータを綺麗な状態で整理できるため、分析作業を円滑に行うことが可能になります。この時、「データマート」を活用することで、効率的にデータを保管できます。

Step.5 データを分析・可視化する

最後に、保管したデータの分析作業を行います。同じデータだとしても、どのような観点から分析するのかによって結果は変わるため、時間をかけて多角的に分析作業を行うことが大切です。

また、データを分析した後は、その結果を人間が理解しやすい形に可視化する必要があります。例えば、 BI ツールを活用することで、簡単にグラフ・表を用いたビジュアライズが可能になり、分析結果を今後のアクション検討や運用改善に役立てることができます。

前章でも触れた通り、データ分析を効率的に進めるためには、 IT ツールの活用が有効な選択肢になります。本章では、データ分析に役立つ IT ツールを 5 つピックアップしてご紹介します。

ETL

ETL とは、

  • Extract (抽出)
  • Transform (変換)
  • Load (書き出し)

という 3 つの英単語の頭文字を取った略語であり、社内システムからデータを抽出・変換した後、外部へ書き出すことができる IT ツールです。

多くの企業では、複数システムを並行利用しているケースが一般的であり、異なるシステムから別々にデータを取り出すためには大きな工数が掛かります。そこで、 ETL をうまく活用すれば、複数システムからのデータ抽出や外部への書き出しを手間なく行うことが可能になります。

データレイク

データレイクとは、日本語で「データの湖」という意味であり、膨大なデータを生データのまま格納できる IT ツールです。

例えば、

  • テキストデータ
  • 音声データ
  • 動画データ

など、様々な形式の構造化データ・非構造化データをそのままの状態で一元的に保管することが可能です。ただし、データを変換せずに生データのまま格納するため、データレイクに保管されているデータは、整理されていない状態であることが一般的です。

データウェアハウス ( DWH )

データウェアハウス(以下 DWH と記載)は「 Data Ware house 」の略であり、日本語では「データの倉庫」と表現される IT ツールです。主に大量のデータを構造化された形式で集約し、保存するためのシステムとして使われています。

DWH の目的は異なるソースからのデータを統合し、企業の意思決定支援のために照会や分析が容易な形式で保管することです。 DWH にはあらゆるデータが格納されているため、必要な情報を即座に取り出すことができ、データの分析作業を効率的に進めることが可能になります。

データマート

データマートとは、 DWH に格納されているデータの中から、目的に応じた情報を抽出・保管するための IT ツールです。分かりやすく表現するなら、データマートは「小規模な DWH 」だと言えるでしょう。データを保管するという意味では、データレイクと共通していますが、データマートに格納されるデータは、特定の目的を持っていることが大きな特徴です。必要最低限の情報のみを保管しているため、分析作業に必要なデータを即座に取り出すことができ、自社の業務効率化や生産性向上に大きく寄与します。

BI ツール

BI ツールは「 Business Intelligence ツール」の略であり、膨大なデータを分析・見える化するための IT ツールです。 BI ツールを活用すれば、データの分析結果をグラフや表などで分かりやすく表現できるため、自社の課題発見やアクション検討などに役立てることが可能になり、データ分析の効果最大化に繋がります。

ここまで、データ分析の基礎知識について解説してきました。データ分析を行う上では IT ツールの活用が有効な選択肢になりますが、 Google が提供する「 Google Cloud 」を活用することで、一連のプロセスを効率的に進めることが可能になります。

Google Cloud とは、 Google が提供しているパブリッククラウドサービスであり、全世界で大きな支持を集めている IT ツールです。 Google Cloud は 100% クラウドで提供されているため、初期費用が発生することはなく、月々の利用料金のみで Google の最先端のテクノロジーを使い倒すことができます。

また、マネージドで提供されているサービスが多く、自社で運用・保守を行う必要がないため、 IT 担当者の作業負荷を軽減できる点も Google Cloud の大きな魅力です。障害発生時も Google が復旧作業を行ってくれるため、ビジネスシーンでも安心して利用できます。

そして、 Google Cloud は多種多様なサービスを搭載しており、データ分析に必要な機能がすべて揃っています。

Google Cloud の具体的なサービス例としては、

  • Cloud Dataflow
  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery
  • Looker
  • Looker Studio (旧 Google Data Portal )

などが挙げられます。

このように、 Google Cloud を利用することで、データ分析のすべてのプロセスを一気通貫で実行できます。データ分析を効率的に進めたい場合には、 Google Cloud が有効な武器になると言えるでしょう。

次章からは、 Google Cloud に搭載されている各サービスについて、ツールの種類ごとに分けて詳しく解説します。

本章では、 Google Cloud で利用できる ETL ツールをご紹介します。

Cloud Dataflow

Cloud Dataflow は Apache Beam (オープンソースの統合プラグラミングモデル)をベースとした Google Cloud の代表的な ETL ツールであり、サーバレスかつ高速なデータ処理が特徴のサービスです。処理を構築する際には Python や Java などの言語を利用でき、処理を実行するリソースの自動プロビジョニングと管理を行うことも可能です。また、フルマネージドで提供されているため、自社の作業工数を大幅に削減できる点も魅力的なポイントの一つです。

Cloud Data Fusion

Cloud Data Fusion も Google Cloud に搭載されている ETL ツールの一つであり、コードを意識せずにマウスだけで視覚的に操作できるインターフェースが大きな特徴となっています。また、事前構成されたコネクタと変換について、 150 以上の豊富なライブラリを追加コストなしで利用できるため、初心者でも安心して利用できます。さらに、 Cloud Dataflow と同様に、サーバーレスかつフルマネージドで提供されており、様々なデータソースを組み合わせてデータを統合することが可能です。

本章では、 Google Cloud で利用できるデータレイクをご紹介します。

Cloud Storage

Cloud Storage は Google Cloud に搭載されている高性能なデータレイクであり、大量の非構造化データを一元的に格納できるサービスとなっています。また、保存できるデータ量に制限はなく、保存したデータを必要に応じて何度でも取得可能です。さらに、 Cloud Storage に保存したデータは Google Cloud の他サービスとシームレスに連携できるため、データ分析の一連のプロセスを円滑に進めることが可能になります。

Google Cloud の DWH ツール

本章では、 Google Cloud で利用できる DWH ツールをご紹介します。

BigQuery

BigQuery とは、 Google Cloud に搭載されている DWH ツールであり、超高速なデータ処理が特徴のサービスです。膨大なデータを短時間で処理できるため、ビッグデータ解析の用途で用いられることも珍しくありません。また、 BigQuery もサーバーレスで提供されており、使用リソースを自由自在に増減できます。これにより、自社の状況に合わせて必要な分のみを利用できるため、自社のコスト最適化にも直結します。

本章では、 Google Cloud で利用できるデータマートをご紹介します。

BigQuery

先程、 DWH ツールとして BigQuery をご紹介しましたが、 BigQuery はデータマートの領域もカバーしているサービスとなっています。 BigQuery に保管されているデータを用途ごとに分類し、小さい単位に分けて別々に保管できます。これにより、分析作業に必要なデータを即座に取り出すことができ、自社の業務効率化や生産性向上に大きく寄与します。

なお、 BigQuery に関しては、記事の後半で詳しく解説しています。関心のある方は、そちらもあわせてご覧ください。

Google スプレッドシート

Google スプレッドシートは 100% クラウドで提供されている表計算ツールであり、複数人で同時編集できる点が特徴のサービスです。一般的には、クラウド版の Excel のようなイメージで使われることが多いですが、 Google スプレッドシートはデータマートとして利用することも可能です。例えば、 BigQuery から Google スプレッドシートのデータへアクセスすれば、シート情報を直接 BigQuery に取り込み、そのまま分析作業を行うことができます。

本章では、 Google Cloud で利用できる BI ツールをご紹介します。

Looker

Looker は Google Cloud に搭載されている BI ツールであり、「次世代の BI ツール」と呼ばれています。従来の BI ツールのメリットを数多く詰め込んだサービスとなっており、モデリング言語が習得しやすかったり、 Git との連携ができたりなど、魅力的なポイントが多数存在します。データを分かりやすく可視化する上では、 Looker が心強い武器になると言えるでしょう。

Looker Studio (旧 Google Data Portal )

Looker Studio は Looker と同様、 Google Cloud で利用できる BI ツールの一つであり、以前は「 Google Data Portal 」という名称で呼ばれていました。サービス名が「 Looker Studio 」と「 Looker 」で非常に似ていますが、両者は異なるサービスであるとご理解ください。

Looker Studio を活用することで、膨大なデータを手間なく簡単にビジュアライズできます。また、 800 以上の豊富なデータソースへ簡単に接続し、データを統合することも可能であり、直感的に操作できるユーザーインタフェースを採用しているため、初心者でも安心して使える点が大きなメリットの一つとなっています。

先程、 BigQuery の概要について簡単にご紹介しましたが、 BigQuery は Google Cloud に搭載されている様々なサービスの中でも、特におすすめできる高性能なサービスとなっています。

本章では、 BigQuery でデータ分析を行うメリットについてご紹介します。

超高速なデータ処理ができる

BigQuery の最大の特徴は、超高速なデータ処理が可能な点です。一般的なデータ分析ツールの場合、テラバイト単位のデータを処理するためには一定の処理時間を要しますが、 BigQuery はペタバイト単位の大容量データでも短時間で処理することができます。そのため、データ分析にかかる作業時間を短縮でき、迅速な意思決定やアクション実行に繋がります。

データ分析を一気通貫で実行できる

前述した通り、 BigQuery は DWH やデータマートなど、様々な領域をカバーしています。そのため、膨大なデータを一元的に BigQuery へ格納し、必要に応じて加工した上で目的ごとに分けて保管することが可能です。これにより、データ分析のプロセスを一気通貫で実行でき、作業にかかるリードタイムを大幅に短縮できます。

専門知識がなくても使える

BigQuery の特徴として、専門知識がなくても使える点が挙げられます。一般的な DWH のデータベースは、一定の知識・スキルが求められることが多いですが、 BigQuery はインデックスすらも不要になるため、初心者でも安心して利用できる点が大きなメリットだと言えます。

コストパフォーマンスが高い

BigQuery は高機能なサービスであるため、利用料金も高額であると思われがちですが、クエリ料金の目安は「 2 テラバイトで 876 円( On-Demand タイプ、大阪リージョンの場合)」と良心的な価格設定になっています。また、データ量を分析前に把握できるため、おおよその料金をシミュレーションで算出できる点も嬉しいポイントです。このように、コストパフォーマンスに優れていることが、グローバルで BigQuery が支持されている大きな理由の一つであると言えるでしょう。

マルチクラウド分析を実現できる

Google Cloud では「 BigQuery Omni 」というサービスを提供しており、これを活用することでマルチクラウド分析を実現可能になります。例えば、 Google Cloud や Azure 、 AWS など、異なるクラウド環境に保存されているデータを、クラウド間の移動やコピー作業なしでクエリ実行することができます。そのため、マルチクラウド環境を構築している企業にとっては、非常に魅力的なポイントであると言えるでしょう。

機械学習を活用して高度な分析を実現できる

BigQuery を活用すれば、機械学習によって高度な分析を実現することが可能になります。例えば、 BigQuery を「 BigQuery ML 」と連携することで、 BigQuery に格納されているデータを用いた機械学習モデルの推論・デプロイなどを実行できます。また、自社データと BigQuery ML を連携させれば、テキストマイニングや需要予測など、ビジネス成長に直結するようなアクションに役立てることも可能です。

住宅設備機器メーカーの「株式会社 LIXIL 」では、 BigQuery を活用してデータの活用基盤を構築しています。

同社は「データ活用の民主化」というコンセプトを打ち出し、全社員が自発的にデータを扱えるような環境整備に乗り出しました。 BigQuery をはじめとした Google Cloud の各種サービスの活用により、「 LIXIL Data Platform (以下 LDP と記載)」という LIXIL 独自のデータ活用基盤の構築を目指したのです。

LDP のアーキテクチャは、主に次の 3 つによって構成されています。

  1. データレイク
  2. データウェアハウス( DWH )
  3. ワークスペース

データレイクでは、同社の既存システムに存在する様々なデータを LDP に統合するためのインターフェースを提供し、 DWH では、それらのデータを厳格な権限管理のもとで分析・活用するための仕組みを整備しています。そして、ワークスペースでは、手元のファイルを LDP へアップロードし、自由に分析することが可能です。

さらに、同社は「 LDP データ検索サイト」という社内向けの Web アプリケーションを独自開発し、 BigQuery に格納されているデータを瞬時に検索できる仕組みを整備しました。これにより、情報検索のスピードを大幅に上げることができ、社内のデータ活用の促進に繋げています。

また、 LDP の活用は営業プロセスの効率化にも大きく寄与しています。

同社では、既に営業プロセスのガイドラインを策定していましたが、実際には試算通りの成果を残せていないことが大きな課題となっていました。加えて、従来のシステムでは処理能力に限界があるため、膨大なデータを正確に分析できない点も課題として顕在化していました。

しかし、 BigQuery を活用して LDP を構築することで、膨大なデータを高速かつ正確に処理できるようになりました。その結果、これまでは把握できていなかった営業担当者別・プロセス別の詳細分析を実行でき、具体的なアクション検討や運用改善に役立てることが可能となっています。

さらに、 LDP と BigQuery ML を連携させることで、 Google スプレッドシートから簡単に機械学習を行える「 LDP AIKit 」というツールも独自開発しました。今後は、従業員が普段使いのツールとして機械学習をビジネスに活用できるような仕組みの整備を進めています。

このように、 BigQuery を活用して、自社のデータ分析を成功に導いた好事例となっています。

本記事では、データ分析の基礎知識や Google Cloud のメリット、具体的なツールまで、あらゆる観点から一挙にご紹介しました。

企業が BigQuery を活用することで、超高速なデータ処理やマルチクラウド分析など、様々なメリットを享受できます。この記事を読み返して、 BigQuery の特徴や Google Cloud の各種サービスについて理解しておきましょう。

当社はこれまでの多くのクラウド開発を支援してきた知見を活かし、クラウドを活用した内製化に取り組まれるお客様を全力でサポートします。以下のような課題をお持ちの方は、ぜひお気軽にご相談ください。

  • クラウド活用を推進するための開発体制作りが進まない
  • 既存資産をどのようにクラウド移行するか検討する知見が不足している
  • 内製化するためのクラウド開発スキルを持った人材が不足している
  • コスト削減の実現方法に悩んでいる
  • SRE を実現したい

貴社の状況に合わせて、体制づくり支援や開発計画支援、クラウド開発スキルアップ支援など、様々な支援メニューを提供しています。

また、今回ご紹介した「 Google Cloud 」に特化したメニューも提供しています。 Google Cloud に関するスキルの底上げや平坦化を検討されている方は、ベストプラクティスセミナーテクニカル・アドバイザリーサービステクニカルコンサルティングなどをご検討ください。

無料相談も可能なため、まずは問い合わせフォームからお気軽にご連絡いただければと思います。

本記事を参考にして、 Google Cloud の導入および BigQuery の活用を検討してみてはいかがでしょうか?