BigQueryのパーティション数上限緩和を享受できないこともある
BigQueryのパーティション数上限の緩和が2024年5月29日に発表されましたが、それをそのまま簡単に適用しようと思うとできないパターンというのがあります。どういったパターンで簡単に上限緩和の恩恵を受けられないかということと、そもそもパーティション数の上限とは何か、といったところについて解説します。
24件の記事
BigQueryのパーティション数上限の緩和が2024年5月29日に発表されましたが、それをそのまま簡単に適用しようと思うとできないパターンというのがあります。どういったパターンで簡単に上限緩和の恩恵を受けられないかということと、そもそもパーティション数の上限とは何か、といったところについて解説します。
SELECT文で基本的には全カラムを選択したいものの、特定のカラムは除きたいとき、通常のDBにおいては全カラム名を頑張って指定するしかないかと思いますが、BigQueryのSELECT文には EXCEPT という構文があり、これを利用することで簡単に特定の列を除外した上でSELECTを行うことが可能になります。本記事ではあわせて置き換えに使うREPLACEも紹介しています。
今回はBigQueryやSnowflakeで使えるQUALIFY句の使い方についてまとめます。QUALIFY句は正しく使うことでWITH句を削ることが出来ることもあるなど、対応するDBを使用している場合はぜひ知っておきたい内容かと思います!
Google Analytics 4のデータには「manual_source」というものがありますが、
ETL 処理に便利な AWS Glue のローカル開発環境構築方法についてまとめました。特に、BigQuery との接続について具体的な方法を記載しています。
今回はGoogle スプレッドシートのデータをBigQueryに取り込む場合の方法について扱います。基本的には直接BigQueryから外部データとして参照するか、別途整形加工を行うかの2択になると思いますので、それぞれのメリット・デメリットを整理します。
Google Analytics 4(GA4)のエクスポート機能を使い、BigQueryにデータをエクスポートする際の注意点について解説しています。「レイトヒット」と呼ばれる仕様があり、本来のイベント発生タイミングより遅れてデータが到着するため、注意が必要です。
新年一発目の記事はBigQueryでJSONファイルを読み込むときにinsert_rows_jsonをはじめとするストリーミング挿入を行うとハマりかねない罠についての記事です。BigQueryのストリーミング挿入には注意点が多いので、そこを意識した上で使う必要があります。
Webサイトの分析において、Google Analytics 4(GA4)とBigQuery連携データの値にはズレが生じることがあります。GA4では、ユーザーを識別するために複数の識別子を使用していますが、BigQueryに連携されるのは一部の識別子のみです。また、セッション数は推定値で算出されるため、正確な値を得るには別途計算が必要です。この記事では、GA4とBigQuery連携データの差分の原因について解説しています。
Lookerを使う上での最大のメリットはLookMLによるコード管理ですが、たまにBigQuery等で実施している内容をLookMLに落とし込む方法を探る必要がある時があります。今回は、LookMLで配列データを扱う際の方法について、UNNESTを活用する方法をまとめています。
SQLでNULLABLEなカラムにおいて文字列比較をした際に、WHERE句での絞り込みをかけたところ、意図しない形でNULLが除外されてしまう行があったのでその内容についてまとめます。SQLにおけるNULLの扱い、真理値とは?といった内容にも触れます。意外と知らない人も多い…かもしれません。
BigQueryユーザーでもたまに誤解されていることが多いパーティショニングとシャーディングのそれぞれの違いについて改めて念のため調べ直したのでその記録をまとめておきます。