Otimizando Apache Spark com S3 (e outras dicas)

Há alguns meses tivemos que reestruturar nossa arquitetura de big data aqui na Social Miner para fins de escalabilidade. Passado alguns meses após a implementação da arquitetura, resolvi escrever esse post listando aqui 7 pontos de otimização que acho vitais para quem esteja estruturando uma arquitetura de big data com Apache Spark e S3, partindo de coisas mais simples e triviais, chegando até tópicos não tão difundidos. Então bora lá? 🙂

Continue reading Otimizando Apache Spark com S3 (e outras dicas)

Amante de café, fotografia e cultura indie. E programador nas horas vagas.

Descomplicando o Apache Kafka

O que é o Apache Kafka?

Resumidamente, o Kafka pode ser definido como um sistema de processamento de stream de dados em tempo real / um sistema de mensageria (messaging system) publish-subscribe distribuído.

Ele possui como principais características – se comparado com outros sistemas de mensageria – um alto throughput, clusterização no DNA (permitindo escalabilidade horizontal), ordenamento e persistência de mensagens com estrutura de disco O(1) (entraremos em mais detalhes sobre o que isto representa).

Continue reading Descomplicando o Apache Kafka

Amante de café, fotografia e cultura indie. E programador nas horas vagas.