Guia do Exame Databricks Certified Data Engineer Associate

A certificação **Databricks Data Engineer Associate** valida sua capacidade de usar a plataforma Databricks para realizar tarefas básicas de engenharia de dados. Abrange a arquitetura Lakehouse, ETL com Spark SQL e Python e o gerenciamento de pipelines Delta Live Tables.

Qual é a principal vantagem de usar o Delta Lake em comparação com formatos de arquivo tradicionais como Parquet ou ORC em um ambiente Databricks?

Resposta : Garante ACID transactions, time travel e schema enforcement, melhorando a confiabilidade dos dados.

O Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade aos data lakes. Ele oferece transações ACID, gerenciamento de metadados, time travel (capacidade de consultar versões anteriores dos dados) e schema enforcement (garantia de que os dados inseridos estejam em conformidade com o esquema definido), o que o torna superior aos formatos de arquivo tradicionais para cargas de trabalho analíticas e de engenharia de dados.

Em um cluster Databricks, qual componente é responsável por orquestrar a execução de tarefas e gerenciar os recursos do cluster?

Resposta : O Driver Node

Em um cluster Spark, o Driver Node é o cérebro da operação. Ele mantém todas as informações sobre a aplicação Spark, executa as instruções do usuário e coordena a distribuição do trabalho para os nós de trabalho (Worker Nodes). Os Worker Nodes, por sua vez, executam as tarefas e retornam os resultados para o Driver.

Qual comando SQL no Databricks é usado para criar uma nova tabela externa que mapeia para um local de armazenamento específico em um data lake (por exemplo, S3, ADLS Gen2)?

Resposta : CREATE EXTERNAL TABLE nome_tabela (coluna1 tipo, ...) LOCATION 's3://meu-bucket/caminho/'

Tabelas externas no Databricks permitem que você gerencie metadados de tabelas no metastore enquanto os dados residem em seu próprio local no data lake (como S3 ou ADLS Gen2). Isso é feito usando o comando `CREATE EXTERNAL TABLE` e especificando o `LOCATION` onde os dados da tabela estão ou serão armazenados. Isso oferece flexibilidade e controle sobre o armazenamento dos seus dados.

Ao otimizar um job do Databricks que lê e grava grandes volumes de dados em Delta Lake, qual estratégia é mais eficaz para melhorar o desempenho de escrita e reduzir a fragmentação?

Resposta : Utilizar a compactação de arquivos (OPTIMIZE) regularmente e ajustar o tamanho dos arquivos com ZORDER BY.

A otimização de tabelas Delta Lake é crucial para manter o desempenho. Comandos como `OPTIMIZE` são usados para compactar arquivos pequenos em arquivos maiores, reduzindo a sobrecarga de metadados e melhorando a eficiência das leituras. O `ZORDER BY` é uma técnica de otimização de layout de dados que co-localiza informações relacionadas nos mesmos arquivos, acelerando consultas que filtram por essas colunas.

Qual é o propósito do Unity Catalog no Databricks?

Resposta : Fornecer um catálogo centralizado para descoberta, governança e controle de acesso a dados.

O Unity Catalog é a solução de governança de dados unificada do Databricks. Ele permite que administradores de dados e engenheiros gerenciem o acesso aos dados e ativos de computação em um único local, fornecendo um catálogo centralizado para descoberta de dados, linhagem e auditoria. Isso simplifica a governança em ambientes multi-workspace.

Related Certifications

Local Testing

Careers

preload
preload
preload
preload
preload
preload