Guida Databricks Generative AI Engineer Associate

Convalida la capacità di creare e distribuire applicazioni GenAI sulla piattaforma Databricks.

Qual è lo scopo principale dell'utilizzo di un 'feature store' in un ambiente di machine learning?

Risposta : Per centralizzare la definizione, l'archiviazione e il serving delle features per l'addestramento e l'inferenza.

Un 'feature store' è un repository centralizzato per le 'features' di machine learning. Permette di definire, archiviare, scoprire e servire 'features' in modo affidabile e coerente, sia per l'addestramento offline che per l'inferenza online, riducendo la duplicazione del lavoro e i problemi di 'training-serving skew'.

Quale componente di Databricks è utilizzato principalmente per la gestione del ciclo di vita di machine learning, inclusi esperimenti, modelli e deployment?

Risposta : MLflow

MLflow è una piattaforma open-source per gestire il ciclo di vita del machine learning. Offre componenti per tracciare esperimenti (MLflow Tracking), impacchettare codice in formati riproducibili (MLflow Projects), gestire e distribuire modelli (MLflow Models) e creare registri centralizzati per i modelli (MLflow Model Registry).

In Databricks, quale approccio viene raccomandato per ottimizzare le query su tabelle Delta Lake che vengono frequentemente aggiornate o eliminate?

Risposta : Eseguire periodicamente il comando `OPTIMIZE` senza clausole specifiche, che riscrive i file piccoli in file più grandi.

Le operazioni di `UPDATE`, `DELETE` e `MERGE` su tabelle Delta Lake possono portare alla frammentazione dei dati, con molti file piccoli che degradano le prestazioni di lettura. Il comando `OPTIMIZE` è fondamentale per risolvere questo problema, ricompattando i file piccoli in file più grandi e migliorando l'efficienza delle query. L'esecuzione periodica di `OPTIMIZE` è una best practice per mantenere le prestazioni ottimali.

Cosa rappresenta il concetto di 'Training-Serving Skew' nel contesto del machine learning?

Risposta : Una differenza nelle prestazioni del modello tra l'ambiente di addestramento e l'ambiente di serving.

Il 'training-serving skew' è un problema comune nel machine learning dove le 'features' utilizzate per l'inferenza in produzione differiscono da quelle utilizzate durante l'addestramento. Questo può accadere a causa di pipeline di 'feature engineering' diverse o di problemi nella gestione dei dati in tempo reale. Può portare a un degrado significativo delle prestazioni del modello in produzione. L'uso di un 'feature store' aiuta a mitigare questo problema.

Qual è il formato di storage nativo e ottimizzato per Databricks, che offre transazioni ACID, schema enforcement e gestione unificata di dati batch e streaming?

Risposta : Delta Lake

Delta Lake è uno strato di storage open-source che porta affidabilità ai data lake. Offre garanzie transazionali ACID, applicazione dello schema (schema enforcement) e la possibilità di fare 'time travel' (accedere a versioni precedenti dei dati). È progettato per gestire sia carichi di lavoro batch che di streaming in modo unificato.

Related Certifications

Local Testing

Careers

preload
preload
preload
preload
preload
preload