📊 Big Data y Hadoop: Guía Visual y Didáctica
🔹 1. ¿Qué es Big Data?
Definición:
Gestión y análisis de grandes volúmenes de datos que no pueden tratarse con métodos convencionales.
📌 Las 3 + 2 Vs del Big Data
| V | Significado | Ejemplo |
|---|---|---|
| Volumen | Cantidad masiva de datos generados. | Redes sociales, IoT. |
| Variedad | Diferentes formatos y fuentes de datos. | Texto, imagen, audio, vídeo. |
| Velocidad | Rapidez en la generación y procesamiento. | Sensores en tiempo real. |
| Veracidad | Fiabilidad y calidad de los datos. | Datos verificados. |
| Valor | Utilidad real de los datos para tomar decisiones. | Predicciones de negocio. |
🔹 2. Fuentes de Información en Big Data
- Web y Social Media 🌐
- Machine-to-Machine (M2M) 📡
- Big Transaction Data (registros de llamadas, facturación, transacciones)
- Biométricos (huellas, reconocimiento facial)
- Human Generated (centros de atención, encuestas)
🔹 3. Perfiles en Proyectos Big Data
| Rol | Función |
|---|---|
| Higienistas de Datos | Limpieza y precisión de datos de entrada. |
| Exploradores de Datos | Descubrir tendencias y patrones. |
| Arquitectos de Datos | Diseñar sistemas de almacenamiento y análisis. |
| Científicos de Datos | Crear modelos de análisis avanzados. |
| Expertos de Campaña | Interpretar datos en resultados de negocio. |
🔹 4. Componentes Técnicos
MapReduce 🗂️
- Map: Procesa datos en pares (clave, valor) y los transforma en pares con un dominio diferente.
- Reduce: Agrupa y resume datos por clave.
- Shuffle: Reorganiza para balancear carga antes de reducir.
📌 Transforma listas de pares (clave, valor) en listas de valores.
🖥 Hadoop
Framework inspirado en Google File System (GFS) y basado en MapReduce.
📦 Componentes de Hadoop
- HDFS (Hadoop Distributed File System) – Sistema de almacenamiento distribuido.
- Hadoop MapReduce – Procesamiento paralelo de grandes volúmenes de datos.
- Hadoop Common – Librerías y utilidades comunes.
- Hadoop YARN – Gestión de recursos y planificación de tareas.
- Hadoop Submarine – Machine Learning sobre Hadoop.
🗂 Estructura de un Cluster Hadoop
- RACK: Grupo de nodos de datos (máx. 40 por rack).
- Nodo Master: Coordina y controla el cluster.
- Nodos Slave: Procesan y almacenan datos.
- Arquitectura típica: 1 NameNode + varios DataNodes.
📌 Características de HDFS
✅ Tolerante a fallos
✅ Alta disponibilidad
✅ Compatible con hardware económico
✅ Acceso vía API, WebDAV y HTTP/S
✅ Diseñado para archivos grandes, no para transacciones rápidas
🌐 Ecosistema Hadoop
Incluye herramientas como:
- Ambari (administración), Hive (consultas SQL sobre Hadoop),
- Pig (procesamiento de datos en alto nivel),
- HBase, Cassandra (bases NoSQL),
- Mahout y Spark (Machine Learning),
- Oozie (planificación de flujos de trabajo).
📈 Distribuciones Populares
- Cloudera – Soporte empresarial + servicios cloud.
- Hortonworks – Código abierto, luego fusionada con Cloudera.
- MapR – Almacenamiento unificado con soporte a HDFS y bases NoSQL.
📌 Resumen visual
TD
A[Fuentes de datos] --> B[Procesamiento - MapReduce]
B --> C[Almacenamiento - HDFS]
C --> D[Herramientas de análisis - Ecosistema Hadoop]
D --> E[Visualización y decisiones de negocio]


Replica a Píldoras TAI de Anacrolibrum – Anacrolibrum Cancelar la respuesta