Databricks Generative AI Engineer Associate Leitfaden

Bestätigt die Fähigkeit, GenAI-Anwendungen auf der Databricks-Plattform zu erstellen.

Welche der folgenden Techniken ist am besten geeignet, um die Latenz bei der Abfrage von sehr großen Tabellen in Databricks Delta Lake zu reduzieren, wenn die Abfragen häufig bestimmte Spalten filtern?

Antwort : Implementierung von Z-Ordering (Z-Ordering) basierend auf den häufig gefilterten Spalten.

Bei der Arbeit mit großen Datensätzen in Delta Lake ist die Optimierung von Abfragen entscheidend. Z-Ordering ist eine fortgeschrittene Technik, die die Daten physisch neu anordnet, um die Leistung von Abfragen zu verbessern, die auf mehreren Spalten filtern. Dies geschieht durch die Erstellung eines multidimensionalen Index, der die Datenblöcke effizienter für Filteroperationen auswählt.

Welche Komponente in Databricks ist primär für die Orchestrierung von ML-Workflows und die Automatisierung von Trainings- und Inferenzpipelines verantwortlich?

Antwort : MLflow

MLflow ist ein zentrales Werkzeug in Databricks für die ML-Entwicklung. Es ermöglicht die Nachverfolgung von Experimenten, das Verpacken von Code in reproduzierbaren Formaten und die Bereitstellung von Modellen. Die Orchestrierung von Pipelines ist eine Kernfunktion, um den Lebenszyklus von ML-Modellen zu automatisieren.

Was ist der Hauptzweck von 'Feature Stores' im Kontext von Machine Learning auf Databricks?

Antwort : Bereitstellung von Features für Training und Inferenz mit konsistenten Transformationen.

Ein Feature Store ist eine zentrale Repository für Machine-Learning-Features. Er hilft, die Konsistenz zwischen den Features, die für das Training eines Modells verwendet werden, und den Features, die für die Inferenz verwendet werden, sicherzustellen. Dies vermeidet Probleme wie 'Training-Serving Skew'.

Betrachten Sie den folgenden Python-Code-Schnipsel, der versucht, ein Modell mit MLflow zu protokollieren. Welches Problem könnte auftreten, wenn `mlflow.log_artifact()` verwendet wird, um eine große Datei zu protokollieren, und wie könnte man es besser machen?

Antwort : Das Problem ist, dass `mlflow.log_artifact()` die gesamte Datei in den MLflow-Tracking-Server lädt, was ineffizient sein kann. Besser wäre es, die Datei in einem externen Speicher (wie S3 oder ADLS) abzulegen und nur den Pfad oder URI in MLflow zu protokollieren.

MLflow bietet verschiedene Möglichkeiten, Artefakte zu protokollieren. Während `mlflow.log_artifact()` für die meisten Anwendungsfälle gut funktioniert, kann die Protokollierung sehr großer Dateien (z.B. große Datensätze, Modelle mit vielen Gewichten) ineffizient sein. Eine bewährte Methode ist die Speicherung dieser Artefakte in externen, skalierbaren Speicherdiensten und die Protokollierung von Verweisen darauf in MLflow.

Welche der folgenden Aussagen beschreibt am besten die Rolle von 'Model Serving' in Databricks?

Antwort : Es ermöglicht die Bereitstellung von Machine-Learning-Modellen als skalierbare REST-APIs für Echtzeit-Inferenz.

Model Serving in Databricks ist ein kritischer Schritt, um ML-Modelle produktiv nutzbar zu machen. Es abstrahiert die Komplexität der Infrastruktur und ermöglicht es Anwendungen, einfach über APIs auf die Vorhersagefähigkeiten des Modells zuzugreifen. Dies ist entscheidend für Anwendungsfälle, die Echtzeit- oder Batch-Vorhersagen erfordern.

Related Certifications

Local Testing

Careers

preload
preload
preload
preload
preload
preload