Píldora TAI CXXVI; Las 5 Vs de Big Data y su Importancia

📊 Big Data y Hadoop: Guía Visual y Didáctica

🔹 1. ¿Qué es Big Data?

Definición:
Gestión y análisis de grandes volúmenes de datos que no pueden tratarse con métodos convencionales.

📌 Las 3 + 2 Vs del Big Data

V	Significado	Ejemplo
Volumen	Cantidad masiva de datos generados.	Redes sociales, IoT.
Variedad	Diferentes formatos y fuentes de datos.	Texto, imagen, audio, vídeo.
Velocidad	Rapidez en la generación y procesamiento.	Sensores en tiempo real.
Veracidad	Fiabilidad y calidad de los datos.	Datos verificados.
Valor	Utilidad real de los datos para tomar decisiones.	Predicciones de negocio.

🔹 2. Fuentes de Información en Big Data

Web y Social Media 🌐
Machine-to-Machine (M2M) 📡
Big Transaction Data (registros de llamadas, facturación, transacciones)
Biométricos (huellas, reconocimiento facial)
Human Generated (centros de atención, encuestas)

🔹 3. Perfiles en Proyectos Big Data

Rol	Función
Higienistas de Datos	Limpieza y precisión de datos de entrada.
Exploradores de Datos	Descubrir tendencias y patrones.
Arquitectos de Datos	Diseñar sistemas de almacenamiento y análisis.
Científicos de Datos	Crear modelos de análisis avanzados.
Expertos de Campaña	Interpretar datos en resultados de negocio.

🔹 4. Componentes Técnicos

MapReduce 🗂️

Map: Procesa datos en pares (clave, valor) y los transforma en pares con un dominio diferente.
Reduce: Agrupa y resume datos por clave.
Shuffle: Reorganiza para balancear carga antes de reducir.

📌 Transforma listas de pares (clave, valor) en listas de valores.

🖥 Hadoop

Framework inspirado en Google File System (GFS) y basado en MapReduce.

📦 Componentes de Hadoop

HDFS (Hadoop Distributed File System) – Sistema de almacenamiento distribuido.
Hadoop MapReduce – Procesamiento paralelo de grandes volúmenes de datos.
Hadoop Common – Librerías y utilidades comunes.
Hadoop YARN – Gestión de recursos y planificación de tareas.
Hadoop Submarine – Machine Learning sobre Hadoop.

🗂 Estructura de un Cluster Hadoop

RACK: Grupo de nodos de datos (máx. 40 por rack).
Nodo Master: Coordina y controla el cluster.
Nodos Slave: Procesan y almacenan datos.
Arquitectura típica: 1 NameNode + varios DataNodes.

📌 Características de HDFS

✅ Tolerante a fallos
✅ Alta disponibilidad
✅ Compatible con hardware económico
✅ Acceso vía API, WebDAV y HTTP/S
✅ Diseñado para archivos grandes, no para transacciones rápidas

🌐 Ecosistema Hadoop

Incluye herramientas como:

Ambari (administración), Hive (consultas SQL sobre Hadoop),
Pig (procesamiento de datos en alto nivel),
HBase, Cassandra (bases NoSQL),
Mahout y Spark (Machine Learning),
Oozie (planificación de flujos de trabajo).

📈 Distribuciones Populares

Cloudera – Soporte empresarial + servicios cloud.
Hortonworks – Código abierto, luego fusionada con Cloudera.
MapR – Almacenamiento unificado con soporte a HDFS y bases NoSQL.

📌 Resumen visual

 TD
A[Fuentes de datos] --> B[Procesamiento - MapReduce]
B --> C[Almacenamiento - HDFS]
C --> D[Herramientas de análisis - Ecosistema Hadoop]
D --> E[Visualización y decisiones de negocio]

¿Quieres aprender más?

Anacrolibrum

Píldora TAI CXXVI; Las 5 Vs de Big Data y su Importancia

📊 Big Data y Hadoop: Guía Visual y Didáctica

🔹 1. ¿Qué es Big Data?

📌 Las 3 + 2 Vs del Big Data

🔹 2. Fuentes de Información en Big Data

🔹 3. Perfiles en Proyectos Big Data

🔹 4. Componentes Técnicos

MapReduce 🗂️

🖥 Hadoop

📦 Componentes de Hadoop

🗂 Estructura de un Cluster Hadoop

📌 Características de HDFS

🌐 Ecosistema Hadoop

📈 Distribuciones Populares

Respuesta

Replica a Píldoras TAI de Anacrolibrum – Anacrolibrum Cancelar la respuesta

Píldora TAI CXXVI; Las 5 Vs de Big Data y su Importancia

📊 Big Data y Hadoop: Guía Visual y Didáctica

🔹 1. ¿Qué es Big Data?

📌 Las 3 + 2 Vs del Big Data

🔹 2. Fuentes de Información en Big Data

🔹 3. Perfiles en Proyectos Big Data

🔹 4. Componentes Técnicos

MapReduce 🗂️

🖥 Hadoop

📦 Componentes de Hadoop

🗂 Estructura de un Cluster Hadoop

📌 Características de HDFS

🌐 Ecosistema Hadoop

📈 Distribuciones Populares

Comparte esto:

Respuesta

Replica a Píldoras TAI de Anacrolibrum – Anacrolibrum Cancelar la respuesta