Question 1

Welche der folgenden Techniken ist am besten geeignet, um die Latenz bei der Abfrage von sehr großen Tabellen in Databricks Delta Lake zu reduzieren, wenn die Abfragen häufig bestimmte Spalten filtern?

Accepted Answer

Implementierung von Z-Ordering (Z-Ordering) basierend auf den häufig gefilterten Spalten.. Bei der Arbeit mit großen Datensätzen in Delta Lake ist die Optimierung von Abfragen entscheidend. Z-Ordering ist eine fortgeschrittene Technik, die die Daten physisch neu anordnet, um die Leistung von Abfragen zu verbessern, die auf mehreren Spalten filtern. Dies geschieht durch die Erstellung eines multidimensionalen Index, der die Datenblöcke effizienter für Filteroperationen auswählt.

Question 2

Welche Komponente in Databricks ist primär für die Orchestrierung von ML-Workflows und die Automatisierung von Trainings- und Inferenzpipelines verantwortlich?

Accepted Answer

MLflow. MLflow ist ein zentrales Werkzeug in Databricks für die ML-Entwicklung. Es ermöglicht die Nachverfolgung von Experimenten, das Verpacken von Code in reproduzierbaren Formaten und die Bereitstellung von Modellen. Die Orchestrierung von Pipelines ist eine Kernfunktion, um den Lebenszyklus von ML-Modellen zu automatisieren.

Question 3

Was ist der Hauptzweck von 'Feature Stores' im Kontext von Machine Learning auf Databricks?

Accepted Answer

Bereitstellung von Features für Training und Inferenz mit konsistenten Transformationen.. Ein Feature Store ist eine zentrale Repository für Machine-Learning-Features. Er hilft, die Konsistenz zwischen den Features, die für das Training eines Modells verwendet werden, und den Features, die für die Inferenz verwendet werden, sicherzustellen. Dies vermeidet Probleme wie 'Training-Serving Skew'.

Question 4

Betrachten Sie den folgenden Python-Code-Schnipsel, der versucht, ein Modell mit MLflow zu protokollieren. Welches Problem könnte auftreten, wenn `mlflow.log_artifact()` verwendet wird, um eine große Datei zu protokollieren, und wie könnte man es besser machen?

Accepted Answer

Das Problem ist, dass `mlflow.log_artifact()` die gesamte Datei in den MLflow-Tracking-Server lädt, was ineffizient sein kann. Besser wäre es, die Datei in einem externen Speicher (wie S3 oder ADLS) abzulegen und nur den Pfad oder URI in MLflow zu protokollieren.. MLflow bietet verschiedene Möglichkeiten, Artefakte zu protokollieren. Während `mlflow.log_artifact()` für die meisten Anwendungsfälle gut funktioniert, kann die Protokollierung sehr großer Dateien (z.B. große Datensätze, Modelle mit vielen Gewichten) ineffizient sein. Eine bewährte Methode ist die Speicherung dieser Artefakte in externen, skalierbaren Speicherdiensten und die Protokollierung von Verweisen darauf in MLflow.

Question 5

Welche der folgenden Aussagen beschreibt am besten die Rolle von 'Model Serving' in Databricks?

Accepted Answer

Es ermöglicht die Bereitstellung von Machine-Learning-Modellen als skalierbare REST-APIs für Echtzeit-Inferenz.. Model Serving in Databricks ist ein kritischer Schritt, um ML-Modelle produktiv nutzbar zu machen. Es abstrahiert die Komplexität der Infrastruktur und ermöglicht es Anwendungen, einfach über APIs auf die Vorhersagefähigkeiten des Modells zuzugreifen. Dies ist entscheidend für Anwendungsfälle, die Echtzeit- oder Batch-Vorhersagen erfordern.

Databricks Generative AI Engineer Associate Leitfaden

Welche der folgenden Techniken ist am besten geeignet, um die Latenz bei der Abfrage von sehr großen Tabellen in Databricks Delta Lake zu reduzieren, wenn die Abfragen häufig bestimmte Spalten filtern?

Welche Komponente in Databricks ist primär für die Orchestrierung von ML-Workflows und die Automatisierung von Trainings- und Inferenzpipelines verantwortlich?

Was ist der Hauptzweck von 'Feature Stores' im Kontext von Machine Learning auf Databricks?

Betrachten Sie den folgenden Python-Code-Schnipsel, der versucht, ein Modell mit MLflow zu protokollieren. Welches Problem könnte auftreten, wenn `mlflow.log_artifact()` verwendet wird, um eine große Datei zu protokollieren, und wie könnte man es besser machen?

Welche der folgenden Aussagen beschreibt am besten die Rolle von 'Model Serving' in Databricks?

Related Certifications

Local Testing

Careers