BigQuery

データ分析・活用基盤

Amazon S3からGoogle Cloud BigQuery にデータ連携させるハイブリッドデータ基盤

AWS S3のデータ資産をGoogle Cloud Data Fusionで活用するため、PrivateLinkと専用線を用いた「閉域網マルチクラウド連携」の構成を解説します。技術的な仕様の制約を回避し、運用負荷を最小限に抑えつつ100以上のインターフェースを統合した事例です。
データ分析・活用基盤

異種クラウド間データ連携における「責任分界点」と「エラーハンドリング」の考え方

異種クラウド間でのMSK活用やS3をバッファとした非同期連携の実例をもとに、技術選定と設計のポイントを解説します。単なるサービス活用に留まらず、コスト制約やネットワーク境界を踏まえた『責任分界点』の定義など、堅牢なデータ基盤を構築するための実践的な判断基準を記載しました。
データ分析・活用基盤

【AWS – Google Cloud】マルチクラウドでキューイングデータ連携

AWS MSKからGCPへのデータ連携において、MSK Connectの仕様制約に伴うコスト肥大化を回避するため、Cloud RunによるPull型アーキテクチャへと転換した事例を紹介します。コスト最適化と疎結合な設計により、大規模なマルチクラウド環境下で高効率かつ堅牢なデータパイプラインを実現した経緯を詳説します。
Google Cloud

Dataformアサーションで直近一週間にNull値が含まれているかを実装してみた!

Dataformアサーションで直近一週間にNull値が含まれているかを実装してみました。
Google Cloud

【BigQuery】データ調査・障害対応で使えるSQLパターン集

データ調査でよく使うBigQueryのクエリパターンをまとめました。
Google Cloud

【Google Cloud】BigQuery Editions 料金体系を徹底解説!

BigQuery Editionsの料金体系を徹底解説。オンデマンド課金との違い、スロットを予約するコミットメントの活用法、最適な移行フローを分かりやすく解説します。
Google Cloud

BigQueryでDELETE時のスキャン量をゼロにしたい ~パーティションプルーニング~

BigQueryでDELETE時の不要なスキャン量を削減する方法をご紹介します。特にdataformではDELETE&INSERTでデータを更新するケースもあると思います。WHERE句の書き方によって不要なスキャン量を削減することが可能です。
Google Cloud

TerraformでBigQueryをIaC化してみた

Terraformを使ってBigQueryのリソース(データセット・テーブル・スキーマ)をInfrastructure as Code(IaC)として管理する方法を解説します。
Google Cloud

Cloud Run × PythonでタイムトラッキングツールからAPI自動取得バッチを構築してみた

TMetric というタイムトラッキングツールからデータを自動で抽出し、BigQueryにロードするまでのプロセスを、Cloud RunとPythonを活用して実装した事例を紹介します。
Google Cloud

Dataformのアサーション出力先を環境ごとに変える方法

Dataformにおけるアサーション結果の出力先について、環境ごとにプロジェクトやデータセットを変更する方法をご紹介します。