利点
単一環境から SQL を使用して、BigQuery でスケーラブルなデータ パイプラインを開発、運用します。依存関係を追加する必要はありません。
Dataform により、データチームは、ソフトウェア エンジニアリングのベスト プラクティス(バージョン管理、環境、テスト、ドキュメントなど)に従って、SQL コードとデータアセットの定義を管理できます。
Dataform により、SQL パイプライン構築の複雑さが解消されます。データ アナリストは、SQL を使用して依存関係の管理、データ品質テストの構成、複雑なパイプラインのオーケストレーションを行うことができます。
主な機能
Dataform Core を使用すると、データ エンジニアやデータ アナリストは、テーブル定義の一元的な作成、依存関係の構成、列の説明の追加、データ品質アサーションの構成を SQL のみを使用して単一のリポジトリで行うことができます。
Dataform Core 関数は、既存のコードを変更することなく、段階的に追加して導入できます。
Dataform Core はオープンソースで、ローカルで使用できるため、特定のベンダーに依存することがなく、より高度なユースケースにも柔軟に対応できます。
Dataform は、テーブル間の依存関係に従って、最新バージョンのコードを使用してテーブルを更新する運用インフラストラクチャを処理します。Dataform が統合されたことで、リネージとデータ情報をシームレスに追跡できるようになります。SQL ワークフローを手動でトリガーすることも、Cloud Composer、Workflows、サードパーティのサービスを介してスケジュールすることもできます。
ウェブブラウザから離れることなく、単一のインターフェースからテーブルの定義、リアルタイムのエラー メッセージに関する問題の修正、依存関係の可視化、Git への変更の commit を行い、数分でパイプラインをスケジュールします。リポジトリを GitHub や GitLab などのサードパーティ プロバイダに接続します。変更を commit して、IDE から push または pull リクエストを行います。
ドキュメント