A certificação **Professional Data Engineer** do GCP é uma das mais procuradas no mercado. Valida sua capacidade de projetar, construir, operacionalizar e proteger sistemas de processamento de dados (BigQuery, Dataflow, Pub/Sub) para análise e aprendizado de máquina.
Resposta : Cloud Storage
Um data lake é um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em qualquer escala. O Google Cloud Storage é o serviço de armazenamento de objetos ideal para implementar um data lake, oferecendo alta durabilidade, disponibilidade e baixo custo, permitindo flexibilidade para análises futuras.
Resposta : Cloud Composer
O Cloud Composer é a ferramenta do Google Cloud para orquestração de fluxos de trabalho, utilizando o Apache Airflow. Ele permite definir, agendar e monitorar pipelines de dados complexos, conectando diversos serviços do Google Cloud e fontes externas. É essencial para automatizar processos de ETL e garantir a integridade e o fluxo dos dados.
Resposta : Criar tabelas externas no BigQuery que apontam para os arquivos no Cloud Storage.
O BigQuery suporta tabelas externas, que são um recurso poderoso para consultar dados armazenados em outros serviços, como o Google Cloud Storage. Isso permite que você analise dados em seu formato original, sem a necessidade de carregá-los ou movê-los para o BigQuery, otimizando custos e agilizando o acesso a dados brutos.
Resposta : Parquet oferece melhor compressão e desempenho de consulta devido ao seu esquema colunar.
O Apache Parquet é um formato de armazenamento colunar projetado para eficiência em sistemas de processamento de big data. Ao contrário de formatos baseados em linhas como CSV, o Parquet armazena dados por coluna, o que permite melhor compressão e permite que ferramentas como BigQuery e Dataflow leiam apenas os dados de colunas relevantes para uma consulta, acelerando o processamento e reduzindo custos.
Resposta : PersistentVolumes (PV) e PersistentVolumeClaims (PVC)
No Kubernetes, o armazenamento persistente é crucial para aplicações que precisam manter estado, como bancos de dados. Isso é gerenciado através de PersistentVolumes (PVs), que são recursos de armazenamento no cluster, e PersistentVolumeClaims (PVCs), que são solicitações de armazenamento feitas pelos pods. Essa separação garante que os dados persistam mesmo que os pods sejam reiniciados, excluídos ou movidos para outros nós.