Regis Pires: Um pouco sobre o Hadoop

O Hadoop é uma coleção de projetos criados para prover uma infraestrutura adequada à manipulação de dados distribuídos. Ele é mais conhecido por sua implementação do MapReduce (modelo e ambiente de execução para processamento de dados distribuídos) e pelo seu sistema de arquivos distribuídos (HDFS – Hadoop Distributed File System). Além disso, é um projeto Apache implementado em Java e que tem como principal patrocinador o Yahoo!

É interessante observar que o Hadoop é inspirado nos artigos clássicos do Google sobre MapReduce e GFS (Google File System).

O projeto foi originalmente criado por Doug Cutting, que também é o criador do projeto Apache Lucene, uma biblioteca de busca em texto amplamente usada. O Hadoop se originou no projeto Apache Nutch, um buscador open source que também faz parte do projeto Lucene. Em 2006, estes projetos foram fundidos em um novo sub projeto do Lucene chamado Hadoop (nome do elefante amarelo de pelúcia do filho de Doug). Nesta mesma época, Doug Cutting entrou para o Yahoo! que forneceu recursos e um time para tornar o Hadoop um sistema completo para trabalhar com grandes volumes de dados distribuídos.

Em 2008, o Yahoo! anunciou que o seu index de páginas web era gerado por um cluster de 10.000 máquinas rodando Hadoop.
Em 2009, Doug Cutting deixou o Yahoo para trabalhar na Cloudera, que também usa o Hadoop. Na Cloudera, ele passou a trabalhar com alguns excelentes ex-engenheiros do Google e Facebook.

Hoje empresas como Facebook, Last.fm, Twitter e até mesmo IBM, Google e Microsoft usam o Hadoop. A Microsoft comprou o motor de busca Powerset que já usava o Hadoop. IBM e Google anunciaram uma iniciativa em 2007 para fornecer infraestrutura para uso do Hadoop pelo meio acadêmico.

Referências:
Introdução ao Hadoop Parte II : Uma breve história do Hadoop
Why The Brain Behind Hadoop Left Yahoo
Hadoop: The Definitive Guide (MapReduce for the Cloud)