A certificação **Databricks Data Engineer Associate** valida sua capacidade de usar a plataforma Databricks para realizar tarefas básicas de engenharia de dados. Abrange a arquitetura Lakehouse, ETL com Spark SQL e Python e o gerenciamento de pipelines Delta Live Tables.
Resposta : Garante ACID transactions, time travel e schema enforcement, melhorando a confiabilidade dos dados.
O Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade aos data lakes. Ele oferece transações ACID, gerenciamento de metadados, time travel (capacidade de consultar versões anteriores dos dados) e schema enforcement (garantia de que os dados inseridos estejam em conformidade com o esquema definido), o que o torna superior aos formatos de arquivo tradicionais para cargas de trabalho analíticas e de engenharia de dados.
Resposta : O Driver Node
Em um cluster Spark, o Driver Node é o cérebro da operação. Ele mantém todas as informações sobre a aplicação Spark, executa as instruções do usuário e coordena a distribuição do trabalho para os nós de trabalho (Worker Nodes). Os Worker Nodes, por sua vez, executam as tarefas e retornam os resultados para o Driver.
Resposta : CREATE EXTERNAL TABLE nome_tabela (coluna1 tipo, ...) LOCATION 's3://meu-bucket/caminho/'
Tabelas externas no Databricks permitem que você gerencie metadados de tabelas no metastore enquanto os dados residem em seu próprio local no data lake (como S3 ou ADLS Gen2). Isso é feito usando o comando `CREATE EXTERNAL TABLE` e especificando o `LOCATION` onde os dados da tabela estão ou serão armazenados. Isso oferece flexibilidade e controle sobre o armazenamento dos seus dados.
Resposta : Utilizar a compactação de arquivos (OPTIMIZE) regularmente e ajustar o tamanho dos arquivos com ZORDER BY.
A otimização de tabelas Delta Lake é crucial para manter o desempenho. Comandos como `OPTIMIZE` são usados para compactar arquivos pequenos em arquivos maiores, reduzindo a sobrecarga de metadados e melhorando a eficiência das leituras. O `ZORDER BY` é uma técnica de otimização de layout de dados que co-localiza informações relacionadas nos mesmos arquivos, acelerando consultas que filtram por essas colunas.
Resposta : Fornecer um catálogo centralizado para descoberta, governança e controle de acesso a dados.
O Unity Catalog é a solução de governança de dados unificada do Databricks. Ele permite que administradores de dados e engenheiros gerenciem o acesso aos dados e ativos de computação em um único local, fornecendo um catálogo centralizado para descoberta de dados, linhagem e auditoria. Isso simplifica a governança em ambientes multi-workspace.