Einführung in Data Governance in BigQuery

BigQuery bietet integrierte Governance-Funktionen, die das Auffinden, Verwalten, Überwachen, Verwalten und Verwenden Ihrer Daten- und KI-Assets vereinfachen.

Administratoren, Datenstewards, Datenverwaltungsmanager und Datenbetreuer können die Governance-Funktionen in BigQuery für Folgendes verwenden:

  • Daten entdecken
  • Daten auswählen
  • Metadaten erfassen und ergänzen.
  • Datenqualität verwalten
  • Sorgen Sie dafür, dass Daten einheitlich und gemäß den Richtlinien des Unternehmens verwendet werden.
  • Daten in großem Umfang und auf sichere Weise teilen

Im Mittelpunkt der BigQuery-Governance-Funktionen steht der Universal Catalog, ein zentrales Inventar aller Daten-Assets in Ihrer Organisation. Der Universalkatalog enthält geschäftliche, technische und Laufzeitmetadaten für alle Ihre Daten. Mithilfe von künstlicher Intelligenz und maschinellem Lernen können Sie Beziehungen und Semantik in den Metadaten erkennen.

Der Universal Catalog vereint einen Datenkatalog und einen vollständig verwalteten Laufzeit-Metastore. Mit dem Metastore in BigQuery können Sie mehrere Datenverarbeitungs-Engines verwenden, um eine einzelne Kopie von Daten mit einem einzigen Schema abzufragen, ohne Daten zu duplizieren. Zu den verfügbaren Datenverarbeitungs-Engines gehören BigQuery, Apache Spark, Apache Flink und Apache Hive. Ihre Daten können an Orten wie BigQuery-Speichertabellen, BigQuery-Tabellen für Apache Iceberg oder BigLake-externen Tabellen gespeichert werden.

BigQuery unterstützt den gesamten Datenlebenszyklus, von der Datenerhebung bis zur Datennutzung. Der Universal Catalog unterstützt die Governance-Funktionen und -Möglichkeiten von BigQuery. Governance-Funktionen sind auch in Dataplex verfügbar.

Datenerkennung

BigQuery erkennt unternehmensweit Daten in Google Cloud, unabhängig davon, ob sie sich in BigQuery, Spanner, Cloud SQL, Pub/Sub oder Cloud Storage befinden. BigQuery extrahiert die Metadaten automatisch und speichert sie im Universal Catalog. Sie können beispielsweise mit BigQuery Metadaten für strukturierte und unstrukturierte Daten aus Cloud Storage extrahieren und automatisch BigLake-Tabellen in großem Umfang erstellen, die für Abfragen bereit sind. So können Sie Analysen mit einer Open-Source-Engine ohne Datenduplizierung durchführen.

Mit benutzerdefinierten Connectors können Sie auch Metadaten aus Datenquellen von Drittanbietern extrahieren und katalogisieren.

BigQuery bietet die folgenden Funktionen zur Datenerhebung:

  • Suchen Mit BigQuery in der Google Cloud Konsole können Sie projektübergreifend nach Daten und KI-Ressourcen suchen. BigQuery unterstützt die semantische Suche für die Datenermittlung. Sie können also mit Suchanfragen in natürlicher Sprache suchen.
  • Automatische Erkennung von Cloud Storage-Daten In Cloud Storage-Buckets nach Daten suchen, um Metadaten zu extrahieren und zu katalogisieren Bei der automatischen Erkennung werden sowohl Tabellen für strukturierte als auch für unstrukturierte Daten erstellt.
  • Metadatenimport Metadaten in großem Umfang aus Drittanbietersystemen in den Universalkatalog importieren. Sie können benutzerdefinierte Connectors erstellen, um Daten aus Ihren Datenquellen zu extrahieren, und dann verwaltete Konnektivitäts-Pipelines ausführen, die den Metadatenimport-Workflow orchestrieren.

Kuratierung und Datenverwaltung

Um die Auffindbarkeit und Nutzerfreundlichkeit von Daten zu verbessern, können Datenstewards und Administratoren mit BigQuery Metadaten prüfen, aktualisieren und analysieren. Mit den Funktionen zur Datenaufbereitung und -verwaltung in BigQuery können Sie dafür sorgen, dass Ihre Daten korrekt, konsistent und den Richtlinien Ihrer Organisation entsprechen.

BigQuery bietet die folgenden Funktionen für die Datenaufbereitung und -verwaltung:

  • Glossar für Unternehmen (Vorabversion) Kontext, Zusammenarbeit und Suche verbessern, indem Sie die Terminologie Ihrer Organisation in einem Glossar definieren. Datenstewards für die Begriffe identifizieren und Begriffe an Daten-Asset-Felder anhängen.
  • Datenstatistiken Gemini verwendet Metadaten, um Fragen in natürlicher Sprache zu Ihrer Tabelle und die SQL-Abfragen zu generieren, um sie zu beantworten. Mit diesen Datenerkenntnissen können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen ausführen.
  • Datenprofilierung Sie können allgemeine statistische Merkmale der Spalten in BigQuery-Tabellen ermitteln, um Ihre Daten effektiver zu verstehen und zu analysieren.
  • Datenqualität Sie können Datenqualitätsprüfungen für Tabellen in BigQuery und Cloud Storage definieren und ausführen sowie regelmäßige und fortlaufende Datenkontrollen in BigQuery-Umgebungen anwenden.
  • Data Lineage. Verfolgen Sie, wie sich Daten durch Ihre Systeme bewegen: woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden. BigQuery unterstützt die Datenabfolge auf Tabellen- und Spaltenebene.

Nächste Schritte für die Kuration und Datenverwaltung

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Funktionen zur Datenkuratierung und Data Stewardship erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
  • Führen Sie einen Datenprofil-Scan durch, um Statistiken zu Ihren Daten zu erhalten, einschließlich der Limits oder Durchschnittswerte.
Erfahrene Cloud-Nutzer

Sicherheits- und Zugriffsverwaltung

Die Zugriffsverwaltung ist der Prozess des Definierens, Durchsetzens und Überwachens der Regeln und Richtlinien, die den Zugriff auf Daten steuern. Die Zugriffsverwaltung sorgt dafür, dass nur Personen auf Daten zugreifen können, die dazu berechtigt sind.

BigQuery bietet die folgenden Sicherheits- und Zugriffssteuerungsfunktionen:

  • Identity and Access Management (IAM) Mit IAM können Sie steuern, wer Zugriff auf Ihre BigQuery-Ressourcen wie Projekte, Datasets, Tabellen und Ansichten hat. Sie können Nutzern, Gruppen und Dienstkonten IAM-Rollen zuweisen. Diese Rollen definieren, was sie mit Ihren Ressourcen tun können.
  • Zugriffssteuerungen auf Spaltenebene und Zugriffssteuerungen auf Zeilenebene Mit Zugriffssteuerungen auf Spalten- und Zeilenebene können Sie den Zugriff auf bestimmte Spalten und Zeilen in einer Tabelle basierend auf Nutzerattributen oder Datenwerten einschränken. Mit dieser Steuerung können Sie detaillierten Zugriff implementieren und so sensible Daten vor unbefugtem Zugriff schützen.
  • Datenübertragungsverwaltung Mit VPC Service Controls können Sie Perimeter um Google Cloud-Ressourcen erstellen und den Zugriff auf diese Ressourcen gemäß den Richtlinien Ihrer Organisation steuern.
  • Audit-Logs. Audit-Logs enthalten detaillierte Informationen zu Nutzeraktivitäten und Systemereignissen in Ihrer Organisation. Anhand dieser Protokolle können Sie Richtlinien zur Datenverwaltung durchsetzen und potenzielle Sicherheitsrisiken erkennen.
  • Datenmaskierung. Mit der Datenmaskierung können Sie sensible Daten in einer Tabelle verbergen und gleichzeitig autorisierten Nutzern den Zugriff auf die umgebenden Daten erlauben. Außerdem können Daten, die sensiblen Datenmustern entsprechen, maskiert werden, um eine versehentliche Datenweitergabe zu verhindern.
  • Verschlüsselung. BigQuery verschlüsselt automatisch alle inaktiven und übertragenen Daten. Dabei können Sie die Verschlüsselungseinstellungen an Ihre speziellen Anforderungen anpassen.

Nächste Schritte für Sicherheit und Zugriffssteuerung

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Funktionen zur Zugriffssteuerung erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
Erfahrene Cloud-Nutzer

Freigegebene Daten und Statistiken

Mit BigQuery können Sie Daten und Statistiken im großen Umfang innerhalb und über Unternehmensgrenzen hinweg freigeben. Es bietet ein solides Sicherheits- und Datenschutzkonzept durch eine integrierte Datenaustauschplattform. Mit der BigQuery-Freigabe können Sie eine Datenbibliothek finden, auf die Sie zugreifen und die Sie verwenden können. Sie wird von einer Vielzahl von Datenanbietern zusammengestellt.

BigQuery bietet die folgenden Freigabefunktionen:

  • Teilen Sie mehr als nur Daten. Sie können eine Vielzahl von Daten- und KI-Assets freigeben, z. B. BigQuery-Datasets, Tabellen, Ansichten, Echtzeitstreams mit Pub/Sub-Themen, SQL-Speicherprozeduren und BigQuery ML-Modelle.
  • Auf Google-Datasets zugreifen Ergänzen Sie Ihre Analyse- und ML-Initiativen mit Google-Datasets aus Suchtrends, DeepMind WeatherNext-Modellen, der Google Maps Platform und der Google Earth Engine.
  • Sie müssen den Grundsätzen der Datenverwaltung entsprechen. Dateneigentümer behalten die Kontrolle über ihre Daten und können Regeln oder Richtlinien definieren und konfigurieren, um den Zugriff und die Nutzung einzuschränken.
  • Live-Datenfreigabe ohne Kopiervorgang Die Daten werden vor Ort freigegeben, ohne dass Integration, Datenübertragung oder Replikation erforderlich sind. So können Analysen auf den neuesten Informationen basieren. Verknüpfte Datasets sind ein Live-Cursor zum freigegebenen Asset.
  • Sicherheitsstatus verbessern Mit Zugriffssteuerungen können Sie die Überprovisionierung von Zugriffen reduzieren, einschließlich der integrierten Unterstützung von VPC Service Controls.
  • Sichtbarkeit mit Nutzungsmesswerten des Anbieters erhöhen Datenanbieter können die Nutzung für freigegebene Assets ansehen und überwachen, z. B. die Anzahl der ausgeführten Jobs, die Gesamtzahl der gescannten Byte und die Abonnenten für jede Organisation.
  • Mit Data-Clean-Rooms an vertraulichen Daten zusammenarbeiten Data-Clean-Rooms bieten eine sicherheitsoptimierte Umgebung, in der mehrere Parteien ihre Daten-Assets freigeben, zusammenführen und analysieren können, ohne die zugrunde liegenden Daten zu verschieben oder weiterzugeben.
  • Auf BigQuery Sie können die Skalierbarkeit und die enormen Verarbeitungsfunktionen von BigQuery nutzen, um große Gruppen zusammenarbeiten zu lassen.

Nächste Schritte für die Freigabe

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Freigabefunktionen erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
  • Hier erfahren Sie, wie Sie Anzeigenplattformen und Einträge erstellen und verwalten, um Inhalte innerhalb oder außerhalb Ihrer Organisation freizugeben.
Erfahrene Cloud-Nutzer

Nächste Schritte