Marco de software de código abierto diseñado para el procesamiento y almacenamiento distribuido de grandes volúmenes de datos en clústeres de servidores. Utiliza un sistema de archivos distribuido (HDFS) y permite el procesamiento paralelo de datos a través de programación MapReduce, siendo una herramienta fundamental en el procesamiento de big data.
Hadoop se compone principalmente de dos componentes: HDFS (Hadoop Distributed File System) y MapReduce.
HDFS es el sistema de archivos que gestiona el almacenamiento de datos distribuidos en los nodos de un clúster. Divide los datos en bloques y los distribuye en una red de máquinas, proporcionando redundancia y alta disponibilidad, lo que significa que si una máquina falla, los datos aún están seguros en otra parte del clúster.
MapReduce es el motor de procesamiento que trabaja con HDFS para realizar tareas de análisis de datos. Funciona dividiendo las tareas en pequeñas partes, las cuales pueden ser procesadas en paralelo. MapReduce consta de dos fases: la fase de ‘map’, que transforma los bloques de datos en un conjunto intermedio de datos, y la fase de ‘reduce’, que consolida esos datos en un resultado o conjunto de resultados.
Juntos, HDFS y MapReduce permiten a Hadoop procesar y almacenar grandes volúmenes de datos de manera eficaz, proporcionando una plataforma robusta para aplicaciones de inteligencia artificial que requieren análisis de big data.
Email: info@foqum.io
Teléfono: +34 675 481 701
C. de Agustín Durán, 24, Local bajo izquierda, 28028 Madrid.
Rue du Rhône 100, 1204 Ginebra, Suiza.