Die **Databricks Data Engineer Associate** Zertifizierung bestätigt Ihre Fähigkeit, die Databricks-Plattform für grundlegende Data-Engineering-Aufgaben zu nutzen. Sie deckt die Lakehouse-Architektur, ETL mit Spark SQL und Python sowie die Verwaltung von Delta Live Tables-Pipelines ab.
Antwort : Es ist ein Open-Source-Speicherformat, das ACID-Transaktionen, skalierbares Metadaten-Handling und eine einheitliche Sicht auf gestreamte und Batch-Daten ermöglicht.
Delta Lake ist ein Open-Source-Speicherformat, das auf Parquet aufbaut und ACID-Transaktionen, Schema-Management und Zeitreisen für Data Lakes ermöglicht. Es vereinheitlicht die Verarbeitung von Streaming- und Batch-Daten und verbessert die Zuverlässigkeit von Data Lakes erheblich.
Antwort : Python
Databricks-Notebooks unterstützen mehrere Sprachen, wobei Python aufgrund seiner Benutzerfreundlichkeit und des reichen Ökosystems an Bibliotheken die dominierende Wahl ist. Andere unterstützte Sprachen sind Scala, SQL und R, die je nach Anwendungsfall und Benutzerpräferenz eingesetzt werden können.
Antwort : Die Ermöglichung einer zentralen Datenkatalogisierung, Datenherkunft (Data Lineage) und Datenzugriffskontrolle über Databricks-Arbeitsbereiche hinweg.
Unity Catalog ist die vereinheitlichte Daten-Governance-Lösung von Databricks. Es ermöglicht die Verwaltung von Datenkatalogen, die Verfolgung der Datenherkunft und die Durchsetzung von Zugriffskontrollen über mehrere Arbeitsbereiche hinweg, um die Sicherheit und Compliance zu verbessern.
Antwort : Z-Ordering
Z-Ordering ist eine Datenlayout-Optimierungstechnik in Delta Lake. Sie ordnet Daten innerhalb von Datendateien basierend auf den angegebenen Spalten neu an, um die Korrelation zwischen Spalten zu maximieren. Dies verbessert die Leseleistung erheblich, da Delta Lake mehr Daten überspringen kann, wenn Abfragen nach diesen Spalten filtern.
Antwort : `CREATE TABLE` erstellt eine neue Tabelle und schlägt fehl, wenn die Tabelle bereits existiert. `CREATE OR REPLACE TABLE` erstellt eine neue Tabelle oder ersetzt die vorhandene Tabelle vollständig.
In Databricks SQL erstellt `CREATE TABLE` eine neue Tabelle und gibt einen Fehler zurück, wenn eine Tabelle mit demselben Namen bereits existiert. `CREATE OR REPLACE TABLE` hingegen erstellt eine neue Tabelle oder ersetzt eine vorhandene Tabelle vollständig durch die neue Definition, einschließlich der Daten. Dies kann zum Verlust der Tabellenhistorie führen.