Convalida la capacità di creare e distribuire applicazioni GenAI sulla piattaforma Databricks.
Risposta : Per centralizzare la definizione, l'archiviazione e il serving delle features per l'addestramento e l'inferenza.
Un 'feature store' è un repository centralizzato per le 'features' di machine learning. Permette di definire, archiviare, scoprire e servire 'features' in modo affidabile e coerente, sia per l'addestramento offline che per l'inferenza online, riducendo la duplicazione del lavoro e i problemi di 'training-serving skew'.
Risposta : MLflow
MLflow è una piattaforma open-source per gestire il ciclo di vita del machine learning. Offre componenti per tracciare esperimenti (MLflow Tracking), impacchettare codice in formati riproducibili (MLflow Projects), gestire e distribuire modelli (MLflow Models) e creare registri centralizzati per i modelli (MLflow Model Registry).
Risposta : Eseguire periodicamente il comando `OPTIMIZE` senza clausole specifiche, che riscrive i file piccoli in file più grandi.
Le operazioni di `UPDATE`, `DELETE` e `MERGE` su tabelle Delta Lake possono portare alla frammentazione dei dati, con molti file piccoli che degradano le prestazioni di lettura. Il comando `OPTIMIZE` è fondamentale per risolvere questo problema, ricompattando i file piccoli in file più grandi e migliorando l'efficienza delle query. L'esecuzione periodica di `OPTIMIZE` è una best practice per mantenere le prestazioni ottimali.
Risposta : Una differenza nelle prestazioni del modello tra l'ambiente di addestramento e l'ambiente di serving.
Il 'training-serving skew' è un problema comune nel machine learning dove le 'features' utilizzate per l'inferenza in produzione differiscono da quelle utilizzate durante l'addestramento. Questo può accadere a causa di pipeline di 'feature engineering' diverse o di problemi nella gestione dei dati in tempo reale. Può portare a un degrado significativo delle prestazioni del modello in produzione. L'uso di un 'feature store' aiuta a mitigare questo problema.
Risposta : Delta Lake
Delta Lake è uno strato di storage open-source che porta affidabilità ai data lake. Offre garanzie transazionali ACID, applicazione dello schema (schema enforcement) e la possibilità di fare 'time travel' (accedere a versioni precedenti dei dati). È progettato per gestire sia carichi di lavoro batch che di streaming in modo unificato.