情報化の広がりがかつてないほど加速している現代では、経験則ではなく膨大なデータの分析を基に意思決定し行動する「データドリブン」という考え方が注目を集めています。
そして、そのデータドリブンを実践する際の強い味方となるのが、Googleが提供するBigQueryです。
BigQueryは、ビックデータに対するクエリ(処理要求)を超高速で実行することができます。
今回は、BigQueryの基本概要やメリット、GA4との連携について解説します。
目次
BigQueryとは
BigQueryとはGoogleクラウド(GCP)の代表的なプロダクトで、ビッグデータと呼ばれる膨大なデータの解析を得意とするデータウェアハウス(DWH)です。
一般的なデータベースとイメージが被りますが、扱うデータが限定的になるデータベースとは異なり、1000テラバイト(1ペタバイト)を超える膨大なデータの蓄積・加工・分析が可能です。
さらに、インデックスされてない数十億行のデータをわずか数十秒でスキャンしてしまうという超高速処理が可能なので、ビッグデータをリアルタイムで分析し、その結果を日々の経営判断に活かすといったことも理論上は可能です。
もし、これだけの環境を自社構築しようとすれば大変な手間と費用がかかりますが、BigQueryはサーバー管理の一切をGoogleが行うサーバーレスなサービスであるため、ユーザーはデータの収集や解析といった運用面にのみ集中することができます。
BigQueryの特徴
BigQueryの大きな特徴は、その速さにあります。
後述するカラム型データストアとツリーアーキテクチャという2つの仕組みにより、億単位の大規模なデータも数十秒〜数分で処理してしまいます。
これは、他社のDWHサービスと比較しても上位にくるスピードです。
さらに、BigQueryは99.99%の稼働時間を保証しています。
これにより、BigQuery上で動くアプリケーションの1か月の非稼働時間は5分未満となり、業務の継続性の点で業界トップクラスのパフォーマンスを誇ります。
BigQueryの仕組み
BigQueryが超高速でデータ処理ができるのは、2つの仕組みがあるからです。一つはカラム型データストア、もう一つがツリーアーキテクチャです。
それぞれの仕組みを以下で詳しく解説します。
カラム型データストア
カラムは「列」の意味で、データストアはデータベースやファイルを保存する場所を指す言葉です。
通常、データベースはデータを列ではなく行単位で保存します。
行に含まれるデータにはそれぞれ異なる項目が紐づけられており、データベースではそれらをひとくくりにして扱うことになります。
データを読み込む際も行単位であるため、不要な項目(列)まで読み込んでしまい、膨大なデータを扱う際には効率的ではありません。
これに対しカラム型は、データを列単位で保存します。
同じ項目のデータをひとくくりにして保存するため、クエリで指定された列以外は読み込む必要がなく、データへのアクセス効率を上げることができます。
また、データを保存する際の圧縮効率も、行単位よりも列単位の方が圧倒的に高い圧縮率を実現できます。
ツリーアーキテクチャ
BigQueryでは、クライアント側から出されたクエリがルートサーバーによって分割され、無数のリーフサーバーへと渡されていきます。
一つのクエリがツリーのように大きく広がり同時並行で分散処理されるので、膨大なデータが対象であっても超高速での処理が可能になっています。
カラム型指向は他のDWHでも採用されていますが、ツリーアーキテクチャはBigQueryに特徴的な仕組みといって良いでしょう。
BigQueryを使うメリット
ここからは、BigQueryを活用することで得られるメリットについて解説します。
高速にデータ処理できる
BigQueryでは、数十億行ものデータをわずか数十秒で集計・分析することが可能です。
AmazonのRedshiftやMicrosoftのAzure Synapse Analyticsなど、大量のデータを扱うことができるDWHサービスは他にもありますが、早さという点では「カラム型指向」と「ツリーアーキテクチャ」の2つを備えているBigQueryが抜きん出ています。
サーバーレスでビッグデータを扱える
Googleでは、BigQueryのことを「サーバーレスでスケーラビリティと費用対効果に優れたマルチクラウドデータウェアハウス」と表現しています。
サーバーレスとは、ユーザー側によるサーバーの管理や処理能力のスケーリングが不要ということです。
これらは全てGoogle側が担当するので、ユーザーは大量のデータに対するクエリをどれだけのサーバーに処理させるかといったことに気を配る必要がありません。
ハードやソフトの保守にコストをかけることなく、使った分だけの費用でビッグデータを扱うことができます。
SQL操作が可能
BigQueryでは、SQL(StandardSQLとLegacySQLは使えるが、OracleSQLなど他社サービス基準のSQLは使えない)という最も人気があるデータベース言語が利用可能です。
SQLは用途の限られたシンプルな言語であり、システムエンジニアが駆使するような専門スキルは必要ありません。
構文に則った簡単な指示文を記述することで、BigQueryに格納されている膨大なデータに対してデータの追加や削除、更新といった処理をさせることができます。
Googleの他のプロダクトとの連携が容易
Googleには、BigQueryの他にビジネスに欠かせないツールやWebサービスが多くあり、それらのサービスとの連携が容易です。
特にGoogleスプレッドシートやGA4といった大量のデータを扱うツールと好相性で、データの加工や分析を強力にサポートしてくれます。
また、BigQuery に移行したGA4のデータは、Looker Studio(旧:Googleデータポータル)はもちろん、TableauやPower BIなどの人気BIツールと連携が可能です。
BigQueryを使うメリットをまとめました!
✔️高速にデータ処理できる
✔️サーバーレスでビックデータを扱える
✔️SQL操作が可能
✔️Googleの他のプロダクトとの連携が容易
これらのメリットをうまく活用しましょう!
BigQueryのデメリットとリスク
続いては、BigQueryを使う上で知っておきたいデメリットやリスクについて解説します。
料金が跳ね上がる可能性がある
BigQueryは、データを保存しておくだけなら大した費用は発生しませんが、データを処理させる場合は従量制の料金が発生します。
使えば使うだけ料金が上乗せされていくため、効率的な使い方をしなければなりません。
例えばテーブルの分割、クエリに上限を設ける、見積もりツールで事前に費用を把握する、などの対応が推奨されています。
利用には慣れが必要
BigQueryを初めて使う場合は、他のサービス以上に慣れるまでに時間がかかるかもしれません。
BigQueryに限らず、Googleのサービスは解説動画が英語のままのものが多く、一言でいってしまうと日本人ユーザーへのフォロー体制が整っていない部分があります。
また、GoogleスプレッドシートやGoogleドキュメントのように一般的に使われるサービスではないため利用者発信の記事も少なく、自分でいろいろと経験しながらスキルを身につける以外に近道はありません。
データベース技術者としての経験があれば操作の勘どころもわかるでしょうが、そうでなければ慣れるまでに相応の時間が必要になります。
GA4とBigQueryを連携させてできること4選
GA4はGoogleアナリティクス4の略で、Googleが無料で提供しているアクセス解析ツールです。
以前は不可能だった同一プロパティ内でのWebとアプリを横断したデータ計測が可能だったり、機械学習による予測機能がついたりと、最新のWebマーケティングを強力にサポートする機能を備えています。
GA4もBigQueryもGoogleが提供しているプロダクトなので連携を簡単にでき、GA4が収集するアクセスデータをBigQueryで集計・分析することが可能です。
ここからは、GA4とBigQueryを連携することでできることを解説します。
GA4の生データの分析
GA4で収集したデータをBigQueryにエクスポートすることで、BigQuery上でSQLを使ったオリジナルな分析ができるようになります。
GA4でも集計データは確認できますが、オリジナルの視点で独自に集計するには生データを集計し直さなくてはなりません。
BigQueryとGA4はデフォルトで連携機能が用意されているため、生データの再集計を実現するのも簡単です。
ちなみに、前のバージョンではBigQueryとの連携は有償でしたが、GA4からは連携までは無償となっています。
データ保存期間が無制限になる
GA4では、探索レポートに使う数値を14か月分しか保存してくれません。
前年同月のデータは参照できますが、2年前、3年前のデータとの比較はできないということです。
しかし、BigQueryと連携させてデータを移行するようにしておけば、期間の制限はなくなり、数年スパンでの推移を検証することができます。しかし、GCPの課金設定が必要ですので、注意する必要があります。
14か月以上前のデータを利用することが想定されるのであれば、GA4とBigQueryの連携は必須だといえるでしょう。
既存データとの統合
BigQueryに保存されているさまざまなところから収集したデータと、GA4が収集した生データを統合して集計することができます。
例えばオフラインで拾ってきたデータとGA4の生データを組み合わせて分析することで思いもよらなかったユーザーの購買行動が明らかになることもあります。
データのビジュアライズ
BigQuery に移行したGA4のデータは、Looker Studio(旧:Googleデータポータル)はもちろん、TableauやPower BIなどの人気BIツールと連携が可能です。
それらのツールを利用してグラフや表など視覚的に分かりやすい形にビジュアライズすることで、データの持つ特徴や傾向を把握することができますし、レポートやプレゼン資料としても活用できます。
GA4とBigQueryの連携でできることは4つあります。
✔️GA4の生データの分析
✔️データ保存期間が無制限になる
✔️既存データとの統合
✔️データのビジュアライズ
次の項ではGA4とBigQueryの連携方法について解説いたします。
GA4とBigQueryの連携方法
GA4とBigQueryの連携は、Google Cloud Platform(GCP)の管理画面から簡単に行うことができます。
以下で具体的な手順を紹介します。
GCPの管理画面で新しいプロジェクトを作成
- 「プロジェクトの選択」
- 「新しいプロジェクト」
- プロジェクト名、プロジェクトID、場所を確認し必要なら変更する。
- 「作成」
BigQuery APIが有効化されているか確認
- トップバーから新規作成したプロジェクトを選択
- 「プロダクト>APIとサービス>ライブラリ」
- 「カテゴリ>ビッグデータ」
- 「BigQuery API」を選択
- 「APIが有効です」となっていればOK。なっていなければ有効にする。
GA4の管理画面からBigQueryプロジェクトと連携させる
- 「BigQueryのリンク設定」
- 「リンク」
- 「BigQueryプロジェクトを選択」
- 一覧の中からプロジェクトを選択して「確認」
- データロケーションを設定して「次へ」
- 頻度を設定して「送信」
まとめ
ネット検索の分野において、Googleは圧倒的なシェアを誇っています。
世界中のサイトをクローリングし、サイトコンテンツを分析した上でどんなワードで検索しても一瞬のうちに検索結果を返すシステムは、他の検索エンジンの追随を許しません。
まさに、ビッグデータの扱いに関しては世界でトップを走り続けてきた企業だといえるでしょう。
BigQueryは、そんなGoogleが社内で使用していたツールを基にしたプロダクトであり、ビッグデータを扱い慣れたGoogleならではの工夫が多く詰め込まれています。
『FourM(フォーエム)』では、広告運用テクニックやIT関連のトレンドをニュースレターで配信しています。
無料で購読できるので、Webマーケティング業界の方は是非ご一読ください。