Question 1

Qual é a principal vantagem de usar o Delta Lake em comparação com formatos de arquivo tradicionais como Parquet ou ORC em um ambiente Databricks?

Accepted Answer

Garante ACID transactions, time travel e schema enforcement, melhorando a confiabilidade dos dados.. O Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade aos data lakes. Ele oferece transações ACID, gerenciamento de metadados, time travel (capacidade de consultar versões anteriores dos dados) e schema enforcement (garantia de que os dados inseridos estejam em conformidade com o esquema definido), o que o torna superior aos formatos de arquivo tradicionais para cargas de trabalho analíticas e de engenharia de dados.

Question 2

Em um cluster Databricks, qual componente é responsável por orquestrar a execução de tarefas e gerenciar os recursos do cluster?

Accepted Answer

O Driver Node. Em um cluster Spark, o Driver Node é o cérebro da operação. Ele mantém todas as informações sobre a aplicação Spark, executa as instruções do usuário e coordena a distribuição do trabalho para os nós de trabalho (Worker Nodes). Os Worker Nodes, por sua vez, executam as tarefas e retornam os resultados para o Driver.

Question 3

Qual comando SQL no Databricks é usado para criar uma nova tabela externa que mapeia para um local de armazenamento específico em um data lake (por exemplo, S3, ADLS Gen2)?

Accepted Answer

CREATE EXTERNAL TABLE nome_tabela (coluna1 tipo, ...) LOCATION 's3://meu-bucket/caminho/'. Tabelas externas no Databricks permitem que você gerencie metadados de tabelas no metastore enquanto os dados residem em seu próprio local no data lake (como S3 ou ADLS Gen2). Isso é feito usando o comando `CREATE EXTERNAL TABLE` e especificando o `LOCATION` onde os dados da tabela estão ou serão armazenados. Isso oferece flexibilidade e controle sobre o armazenamento dos seus dados.

Question 4

Ao otimizar um job do Databricks que lê e grava grandes volumes de dados em Delta Lake, qual estratégia é mais eficaz para melhorar o desempenho de escrita e reduzir a fragmentação?

Accepted Answer

Utilizar a compactação de arquivos (OPTIMIZE) regularmente e ajustar o tamanho dos arquivos com ZORDER BY.. A otimização de tabelas Delta Lake é crucial para manter o desempenho. Comandos como `OPTIMIZE` são usados para compactar arquivos pequenos em arquivos maiores, reduzindo a sobrecarga de metadados e melhorando a eficiência das leituras. O `ZORDER BY` é uma técnica de otimização de layout de dados que co-localiza informações relacionadas nos mesmos arquivos, acelerando consultas que filtram por essas colunas.

Question 5

Qual é o propósito do Unity Catalog no Databricks?

Accepted Answer

Fornecer um catálogo centralizado para descoberta, governança e controle de acesso a dados.. O Unity Catalog é a solução de governança de dados unificada do Databricks. Ele permite que administradores de dados e engenheiros gerenciem o acesso aos dados e ativos de computação em um único local, fornecendo um catálogo centralizado para descoberta de dados, linhagem e auditoria. Isso simplifica a governança em ambientes multi-workspace.

Guia do Exame Databricks Certified Data Engineer Associate

Qual é a principal vantagem de usar o Delta Lake em comparação com formatos de arquivo tradicionais como Parquet ou ORC em um ambiente Databricks?

Em um cluster Databricks, qual componente é responsável por orquestrar a execução de tarefas e gerenciar os recursos do cluster?

Qual comando SQL no Databricks é usado para criar uma nova tabela externa que mapeia para um local de armazenamento específico em um data lake (por exemplo, S3, ADLS Gen2)?

Ao otimizar um job do Databricks que lê e grava grandes volumes de dados em Delta Lake, qual estratégia é mais eficaz para melhorar o desempenho de escrita e reduzir a fragmentação?

Qual é o propósito do Unity Catalog no Databricks?

Related Certifications

Local Testing

Careers