Otimizando Apache Spark com S3 (e outras dicas)

Há alguns meses tivemos que reestruturar nossa arquitetura de big data aqui na Social Miner para fins de escalabilidade. Passado alguns meses após a implementação da arquitetura, resolvi escrever esse post listando aqui 7 pontos de otimização que acho vitais para quem esteja estruturando uma arquitetura de big data com Apache Spark e S3, partindo de coisas mais simples e triviais, chegando até tópicos não tão difundidos. Então bora lá? 🙂

Continue reading Otimizando Apache Spark com S3 (e outras dicas)

Amante de café, fotografia e cultura indie. E programador nas horas vagas.

Extract, Transform, Load (ETL): O que é?

É fato que as informações produzidas por uma empresa, mesmo que uma empresa de TI, estão muito além de um banco dados estruturado e a junção dessas informações de fontes diversas constitui ferramenta auxiliar na tomada de decisões. Um dos processos para unir as informações em uma única fonte, de forma coerente, é o chamado ETL (do inglês Extract, Transform and Load) cujas etapas veremos a seguir.

O ETL geralmente é associado à alimentação de Data Warehouses, mas ele não se limita a isso e deve ser usado como ferramenta de suporte a qualquer extração de dados que necessite algo mais que mover bytes de um canto para outro. Mas vamos às etapas deste processo:

Continue reading Extract, Transform, Load (ETL): O que é?

Descomplicando o Apache Kafka

O que é o Apache Kafka?

Resumidamente, o Kafka pode ser definido como um sistema de processamento de stream de dados em tempo real / um sistema de mensageria (messaging system) publish-subscribe distribuído.

Ele possui como principais características – se comparado com outros sistemas de mensageria – um alto throughput, clusterização no DNA (permitindo escalabilidade horizontal), ordenamento e persistência de mensagens com estrutura de disco O(1) (entraremos em mais detalhes sobre o que isto representa).

Continue reading Descomplicando o Apache Kafka

Amante de café, fotografia e cultura indie. E programador nas horas vagas.