Herramientas de Apache Hadoop: PIG, Hive y Flume

Acerca de este whitepaper

Cada día se genera un gran volumen de datos que hace necesario medirlos a escala de cientos de petabytes, por tanto, ser capaces de administrar y analizar esta gran cantidad de información se convierte en un requisito indispensable dentro del ámbito empresarial.

Surge entonces el término Big Data, el cual se refiere a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir y analizar enormes cantidades de datos. El concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales.

Una de las principales herramientas capaces de tratar e indagar en estos datos para extraer información de ellos se denomina Hadoop. Una plataforma de código libre y desarrollada por Apache que permite el procesamiento de grandes volúmenes de datos a través de clústeres, usando un modelo simple de programación.

Existen a su vez otros componentes de software que se pueden ejecutar sobre o junto con Hadoop y que han alcanzado el estado de proyecto Apache de alto nivel, entre ellos están: Flume, Hive y Pig.

Herramientas de Apache Hadoop: PIG, Hive y Flume

Contenidos

Introducción
Pig
Hive
Flume
Conclusión