Sabemos que existem grandes desafios na construção de um data lake, tais como:
Um dos desafios frequentemente subestimados é o prazo de entrega de um Data Lake. Neste artigo, demonstraremos como a EasyData auxiliou a Zapay na construção de um Data Lake Moderno em apenas 40 dias.
A Zapay, uma empresa de pagamentos de dívidas automotivas credenciada pelo SENATRAN, tinha a necessidade de modernizar sua estrutura de dados. Possuíam um data warehouse que não atendia completamente às suas demandas e crescia de maneira vertical, resultando em aumento dos custos de infraestrutura. Além disso, enfrentavam desafios na gestão e integração de dados.
Foi desenvolvido um motor de coleta utilizando a AWS DMS com CDC (Change Data Capture). O CDC é responsável por capturar os logs do banco de dados, rastreando todas as alterações e gerando eventos em tempo real. Esses eventos são enviados para o Kinesis Data Stream e, posteriormente, para o Kinesis Firehose, a fim de organizar, padronizar e encaminhar seu fluxo para o armazenamento na camada “bronze” do Data Lake dentro do AWS S3.
O motor de coleta suporta vários bancos de dados SQL e NoSQL, podendo ser facilmente integrado à arquitetura criada. Além disso, o stream criado está preparado para receber eventos, não se limitando apenas ao CDC de banco de dados. Caso haja necessidade de incorporar eventos de webhook e outras aplicações em tempo real, basta adicionar as novas regras, e a arquitetura se adaptará a esses novos eventos.
O armazenamento é realizado exclusivamente em buckets S3, seguindo a arquitetura em camadas: Bronze, Silver e Gold. Na camada Bronze, são recebidas todas as ingestões realizadas pelo motor de coleta; nesse caso, todos os eventos organizados e agrupados pelo AWS Firehose são direcionados diretamente para a camada Bronze.
A camada Silver abriga os dados já tratados e padronizados. Esses tratamentos e padronizações são executados através de scripts PySpark no Glue ou consultas SQL no Athena. Por fim, na camada Gold, estão armazenados os data marts que, anteriormente, estavam em um Data Warehouse (DW) legado, mas foram migrados para o Data Lake, aproveitando a estrutura robusta e moderna do Apache Iceberg, que nos proporciona diversos benefícios.
Sabemos que, em uma infraestrutura de dados, as pipelines devem ser gerenciadas com atenção e organização. Dado que esta estrutura foi construída com eventos em tempo real, existem etapas da pipeline em que utilizamos triggers no AWS EventBridge e AWS Lambda. Para orquestrar os JOBs das camadas Silver e Gold, optamos pelo AWS Step Functions, devido à sua facilidade de uso e à disponibilidade de máquinas de estado para AWS Athena, Glue, entre outros.
Qual é o principal diferencial do Step Functions em relação ao Airflow? Custo e benefício. O AWS Step Functions é serverless, o que representa um diferencial significativo para o projeto, uma vez que não é necessário manter servidores ligados 24 horas por dia, 7 dias por semana, e a cobrança é realizada com base nas execuções.
Este projeto foi desafiador devido ao prazo estabelecido para que a EasyData implementasse a solução, tornando-a escalável e confiável. O trabalho foi realizado em colaboração estreita, com a EasyData e a Zapay realizando reuniões constantes. O objetivo era sempre alcançar os resultados desejados no menor tempo possível. Abaixo, você encontrará o depoimento de Bruno Mendes, Head de Dados da Zapay.
“A parceria com a Easy Dada transformou radicalmente nossa abordagem em relação ao gerenciamento de dados na Zapay. Antes, enfrentávamos desafios significativos com a gestão e integração dos dados, mas a expertise da Easy, aliada à poderosa infraestrutura da AWS, foi um divisor de águas para nós.
O suporte inestimável de toda a equipe da Easy Dada foi fundamental. A profunda compreensão dos componentes AWS, como Athena e Glue, e a habilidade em implementar técnicas inovadoras, como o uso do formato Iceberg para nossas tabelas, não apenas aceleraram nosso processo, mas também garantiram que nosso Data Lake fosse altamente eficiente e fácil de usar.
Agora, com a robustez do Data Lake que construímos em conjunto, podemos capturar dados em tempo real via CDC, realizar ETLs de forma eficaz e contar com tabelas no formato Iceberg que são verdadeiramente inovadoras.
Esse projeto não apenas eliminou a dor que tínhamos em relação à falta de um Data Lake, mas também se traduziu em resultados tangíveis. Em apenas 40 dias, passamos do zero à camada bronze, silver e gold, um feito impressionante que impulsionou nossas operações e tomadas de decisão. Estamos extremamente satisfeitos com a parceria e ansiosos para explorar ainda mais as possibilidades que nosso Pink lake (como batizamos a arquitetura).
Agradecemos profundamente à toda a equipe da Easy Dada por seu compromisso, esforços incansáveis e conhecimento profundo. Juntos, construímos não apenas um Data Lake, mas uma base sólida para o futuro dos nossos negócios e analytics aqui na Zapay. “
Se você deseja evoluir ou construir uma estrutura de dados escalável, venha para a EasyData!
Todos os direitos reservados à Easy Data.