Otimizando Apache Spark com S3 (e outras dicas)

Há alguns meses tivemos que reestruturar nossa arquitetura de big data aqui na Social Miner para fins de escalabilidade. Passado alguns meses após a implementação da arquitetura, resolvi escrever esse post listando aqui 7 pontos de otimização que acho vitais para quem esteja estruturando uma arquitetura de big data com Apache Spark e S3, partindo de coisas mais simples e triviais, chegando até tópicos não tão difundidos. Então bora lá? 🙂

Continue reading Otimizando Apache Spark com S3 (e outras dicas)

Crawleando a web com Scrapy

Olá jovens Padawans, eu sou o Zilla e venho lhes apresentar o Scrapy, um framework em Python para criação de crawlers para páginas web, mais conhecidos como Spiders.

Introdução ao Scrapy

Para os estudantes da academia Jedi que ainda não sabem o que é um crawler, aqui vai uma breve explicação: Um crawler, também conhecido como Spider ou Bot, é um software que realiza varreduras em websites com o objetivo de coletar informações relevantes. Eles são capazes de capturar qualquer informação escrita no website.

Pense num e-commerce, por exemplo, um crawler poderia capturar informações sobre um produto como, nome e valor. Ele também seria capaz de seguir os links da página e ir navegando site adentro, capturando ainda mais informações.

Continue reading Crawleando a web com Scrapy

Confiabilidade, Segurança e Engenharia Social no Ecommerce

Nos dias de hoje, cada vez mais o comércio eletrônico tem inovado com uma gama de serviços e produtos diferenciados.

Segundo os dados da ABComm (Associação Brasileira de Comércio Eletrônico), em 2018 o crescimento foi de 15%. Isso representa um aumento de 3% em relação a 2017.

Conforme a tecnologia evolui, o ramo vem junto com novas maneiras de efetuar as compras e principalmente com novos meios de pagamento e é nesse momento que devemos tomar cuidados especiais devido a um quesito chave: segurança.

Continue reading Confiabilidade, Segurança e Engenharia Social no Ecommerce

“Infrastructure as Code” com Terraform

Olá a todos, meu nome é Hugo Cesar, sou engenheiro na Social Miner atuando como SysAdmin com foco em DevOps. Hoje vamos iniciar a construção de uma infraestrutura automatizada e estruturada dentro da AWS utilizando Terraform.

Terraform é uma “ferramenta de orquestração” open source desenvolvida pela HashiCorp, na qual você pode definir uma infraestrutura como código para aumentar a produtividade e transparência.

Projetada para provisionar toda network, serviços e servidores na maioria das clouds públicas, através de declarativos que podem ser compartilhados entre os membros da equipe, tratados como código, editados, revisados e versionados. Também pode-se ter um histórico completo das versões da sua infraestrutura, que por sua vez, pode ser compartilhada e reutilizada.

Continue reading “Infrastructure as Code” com Terraform

Extract, Transform, Load (ETL): O que é?

É fato que as informações produzidas por uma empresa, mesmo que uma empresa de TI, estão muito além de um banco dados estruturado e a junção dessas informações de fontes diversas constitui ferramenta auxiliar na tomada de decisões. Um dos processos para unir as informações em uma única fonte, de forma coerente, é o chamado ETL (do inglês Extract, Transform and Load) cujas etapas veremos a seguir.

O ETL geralmente é associado à alimentação de Data Warehouses, mas ele não se limita a isso e deve ser usado como ferramenta de suporte a qualquer extração de dados que necessite algo mais que mover bytes de um canto para outro. Mas vamos às etapas deste processo:

Continue reading Extract, Transform, Load (ETL): O que é?

Vue.JS: Breve Introdução

O Vue.JS é um framework que, pela simplicidade, vem ganhando popularidade e está em constante crescimento desde sua criação. Porém, foi apenas ao final do ano passado (2017) que o conheci e passei a acompanhar essa poderosa ferramenta.

Para começar, vou partir da premissa de que você é um novato no mundo dos frameworks front end, logo, alguns dos tópicos poderão parecer irrelevantes aos olhos de leitores mais experientes. Dito isso, vamos começar!

Continue reading Vue.JS: Breve Introdução

Ritmo Vertical na Tipografia

Por que o ritmo vertical é uma prática importante para a tipografia?

Se você já pesquisou um pouco sobre tipografia na web, com certeza já ouviu falar em ritmo vertical (ou espaçamento vertical). Quem tem experiência com tipografia com certeza sabe da importância da propriedade line-height no CSS e por isso sabe do impacto que ela tem em um parágrafo, frase ou até mesmo um simples botão.

O que é ritmo vertical?

Continue reading Ritmo Vertical na Tipografia

WebAssembly e Blazor: O futuro da web

Oi, eu sou o Liu e hoje vim trazer dois assuntos que vão mexer com as web apps da próxima geração: WebAssembly Blazor.

Pra começar a entender devemos saber o que é esse tal de WebAssembly e por que ele é importante. O WebAssembly é a próxima era do desenvolvimento web. Basicamente ele é o responsável por compilar os códigos de uma linguagem específica para bytecode, o que torna seu desempenho superior a tudo que já vimos até hoje no que se trata de Web.

Continue reading WebAssembly e Blazor: O futuro da web

BAAS: Seu novo melhor amigo

Friends don’t let friends build data centers.

Esta frase, cunhada em 2014 por Charles Phillips então CEO da Amazon Web Services sintetiza de forma muito bem humorada a tendência que tomou de assalto a indústria de tecnologia nos últimos 5 anos. O paradigma de que produtos digitais deveriam residir em máquinas mantidas in-house ruiu perante serviços capazes de entregar armazenamento e poder computacional on-demand, em qualquer lugar do mundo, com segurança e consistência sem precedentes. Uma proposta especialmente interessante para o crescente número de empresas que apostam no modelo de distribuição SAAS (Software As A Service).

Em meio a esse novo mercado bilionário, gigantes como Amazon, Google e Microsoft disputam agressivamente em uma corrida para baratear, expandir e diversificar seus ecossistemas de Cloud Computing. O resultado: uma enxurrada de inovações disruptivas, como o BAAS.

Continue reading BAAS: Seu novo melhor amigo

Usando Elasticsearch para escalar campanhas automáticas de marketing

Oi, eu sou Goku, digo Regina 😅 Trabalho na Engenharia da Social Miner e esse é o meu primeiro post na vida! Que tenso! Aqui estou eu pra falar um pouquinho sobre Elasticsearch, então bora lá.

Shay Benon trabalhava no repositório de dados NoSQL chamado Apache Lucene e percebeu a necessidade de uma interface mais amigável, basicamente essa é a origem do projeto open-source que conhecemos como Elasticsearch com utilização simplificada através de uma API Restful, requests e responses em formato JSON, sem contar o fato de que não é apenas uma interface para rodar sobre o Lucene e atualmente serve também de ferramenta de Big Data.

Continue reading Usando Elasticsearch para escalar campanhas automáticas de marketing