[GCP] Big Query
Cloud GCP
Published: 2020-10-16

BigQeury とは

有名なデータウェアハウスエンジンであるBigQeury。ビッグデータを高速解析できるため、導入をお考えの方も多いのではないでしょうか。この記事では、BigQeuryの使い方やメリット・デメリットをご紹介します。

BigQeuryの使い方

データを読み込む

GCP プロジェクトを作成したら、保存・管理したいデータを読み込みます。「プロジェクトを固定」「一般公開のデータセットを調べる」「外部データソース」の3つがありますが、今回な一般公開されているデータセットを使いましょう。

データセットを作成する

データセットを作成します。

データセットIDを設定しましょう。他の値はとりあえずデフォルトで問題ありません。

テーブルを作成する

構造化したデータを集めるために、テーブルを作成します。

テーブルを作成したら、クエリを実行するだけです。実行結果と読み込んだデータが一致するか確かめてみましょう。

BigQeuryの簡単な使い方を紹介しました。あとは用途に応じていろいろな設定を試してみてください。

BigQeuryのメリット

処理速度が高速

BigQeuryは、列ごとにデータを保存するため、処理速度が早いです。一般的なデータベース管理システムと比べ、一定期間内のデータ量が少なく、圧縮率を高くできます。

また、クエリをツリー構造で伝えるため、広い規模で分散処理できます。ルートサーバからツリー状に処理を実行するため、ビッグデータの高速解析におすすめです。

料金がお得

BigQeuryは、以下の料金以外かかりません。

  • アクティブストレージ(10GBまで無料)
  • 長期保存(10GBまで無料)
  • BigQuery Storage API
  • ストリーミング挿入
  • クエリ(オンデマンド、毎月1TBまで無料)
  • クエリ(月定額)
  • クエリ(年定額)

アクティブストレージと長期保存、クエリ(オンデマンド)については無料枠が設定されているため、お試し利用する場合にもおすすめです。

BigQeuryのデメリット

処理速度が遅くなる場合もある

BigQeuryは、ベストエフォート型なので、使用環境によっては処理速度が遅くなります。デフォルトとして2,000のスロットを与えるものの、実際の速度はそこまで期待できません。スロットが足りなくなった場合は、空くまで処理が中断されます。タイムアウトするのは、クエリ実行から6時間ほどです。

まとめ

BigQeuryは、Googleが提供するデータウェアハウスエンジンです。その性能はたいへん高く、会員情報や売上データなどの管理に向いています。ビッグデータの解析をしたい方は、ぜひお試しください。

関連する記事