Píldora TAI CXXVI; Las 5 Vs de Big Data y su Importancia

📊 Big Data y Hadoop: Guía Visual y Didáctica


🔹 1. ¿Qué es Big Data?

Definición:
Gestión y análisis de grandes volúmenes de datos que no pueden tratarse con métodos convencionales.


📌 Las 3 + 2 Vs del Big Data

VSignificadoEjemplo
VolumenCantidad masiva de datos generados.Redes sociales, IoT.
VariedadDiferentes formatos y fuentes de datos.Texto, imagen, audio, vídeo.
VelocidadRapidez en la generación y procesamiento.Sensores en tiempo real.
VeracidadFiabilidad y calidad de los datos.Datos verificados.
ValorUtilidad real de los datos para tomar decisiones.Predicciones de negocio.

🔹 2. Fuentes de Información en Big Data

  • Web y Social Media 🌐
  • Machine-to-Machine (M2M) 📡
  • Big Transaction Data (registros de llamadas, facturación, transacciones)
  • Biométricos (huellas, reconocimiento facial)
  • Human Generated (centros de atención, encuestas)

🔹 3. Perfiles en Proyectos Big Data

RolFunción
Higienistas de DatosLimpieza y precisión de datos de entrada.
Exploradores de DatosDescubrir tendencias y patrones.
Arquitectos de DatosDiseñar sistemas de almacenamiento y análisis.
Científicos de DatosCrear modelos de análisis avanzados.
Expertos de CampañaInterpretar datos en resultados de negocio.

🔹 4. Componentes Técnicos

MapReduce 🗂️

  • Map: Procesa datos en pares (clave, valor) y los transforma en pares con un dominio diferente.
  • Reduce: Agrupa y resume datos por clave.
  • Shuffle: Reorganiza para balancear carga antes de reducir.

📌 Transforma listas de pares (clave, valor) en listas de valores.


🖥 Hadoop

Framework inspirado en Google File System (GFS) y basado en MapReduce.


📦 Componentes de Hadoop

  1. HDFS (Hadoop Distributed File System) – Sistema de almacenamiento distribuido.
  2. Hadoop MapReduce – Procesamiento paralelo de grandes volúmenes de datos.
  3. Hadoop Common – Librerías y utilidades comunes.
  4. Hadoop YARN – Gestión de recursos y planificación de tareas.
  5. Hadoop Submarine – Machine Learning sobre Hadoop.

🗂 Estructura de un Cluster Hadoop

  • RACK: Grupo de nodos de datos (máx. 40 por rack).
  • Nodo Master: Coordina y controla el cluster.
  • Nodos Slave: Procesan y almacenan datos.
  • Arquitectura típica: 1 NameNode + varios DataNodes.

📌 Características de HDFS

✅ Tolerante a fallos
✅ Alta disponibilidad
✅ Compatible con hardware económico
✅ Acceso vía API, WebDAV y HTTP/S
✅ Diseñado para archivos grandes, no para transacciones rápidas


🌐 Ecosistema Hadoop

Incluye herramientas como:

  • Ambari (administración), Hive (consultas SQL sobre Hadoop),
  • Pig (procesamiento de datos en alto nivel),
  • HBase, Cassandra (bases NoSQL),
  • Mahout y Spark (Machine Learning),
  • Oozie (planificación de flujos de trabajo).

📈 Distribuciones Populares

  • Cloudera – Soporte empresarial + servicios cloud.
  • Hortonworks – Código abierto, luego fusionada con Cloudera.
  • MapR – Almacenamiento unificado con soporte a HDFS y bases NoSQL.

📌 Resumen visual

 TD
A[Fuentes de datos] --> B[Procesamiento - MapReduce]
B --> C[Almacenamiento - HDFS]
C --> D[Herramientas de análisis - Ecosistema Hadoop]
D --> E[Visualización y decisiones de negocio]

Respuesta

  1. […] Píldora TAI CXXVI; Las 5 Vs de Big Data y su Importancia – Anacrolibrum […]

    Me gusta

Deja un comentario