Píldora TAI LVIII; Guía Completa sobre Representación de Caracteres en Informática

La representación de caracteres es fundamental para entender cómo los ordenadores procesan y almacenan texto. Esta guía te ayudará a comprender los diferentes sistemas de codificación que han evolucionado a lo largo de la historia de la informática.

Sistemas de Codificación Binaria

BCD (Binary-Coded Decimal)

  • Definición: Sistema que representa números decimales utilizando 4 bits.
  • Usos: Ideal para datos alfanuméricos y códigos de intercambio.
  • Variante principal: BCDIC (BCD Interchange Code) – representa números, mayúsculas y caracteres de control en 6 bits.

EBCDIC

  • Significado: Extended Binary Coded Decimal Interchange Code
  • Características: Utilizado principalmente en grandes sistemas IBM
  • Estructura: 8 bits en total (4 de zona y 4 de posición)
  • Capacidad: 256 símbolos posibles

Estándares ASCII

ASCII Clásico (American Standard Code for Information Interchange)

  • Desarrollo: Creado en 1967, última actualización en 1986
  • Estructura: 7 bits (128 caracteres posibles)
  • Composición:
    • Caracteres 0 al 31: Caracteres de control (no imprimibles/visualizables)
    • Caracteres 32 al 126: Caracteres imprimibles
      • 32: Espacio
      • 33 al 47: Símbolos diversos
      • 48 al 57: Dígitos (0-9)
      • 58 al 64: Más símbolos
      • 65 al 90: Letras mayúsculas (A-Z)
      • 91 al 96: Más símbolos
      • 97 al 122: Letras minúsculas (a-z)
      • 123 al 126: Símbolos adicionales
    • Caracter 127: Carácter de control (backspace)

ASCII Extendido

  • Estructura: 8 bits, códigos del 127 al 255
  • Uso: En binario, estos códigos extendidos comienzan siempre por 1
  • Variantes: Conocidas como «code pages» o páginas de código
  • Ejemplos: CP 852, CP 437, Windows 1252

Sistemas Unicode

Características Generales

  • Propósito: Representar más de cientos de miles de caracteres de diferentes alfabetos
  • Organización: Se agrupan en 17 planos (00 a 10 en hex.)
  • Cada plano: Tiene 2^16 (65.536) code points
  • Uso actual: El plano 00 es el más utilizado

Formatos de Transformación Unicode (UTF)

  • Definición: Son métodos para representar de forma comprimida los code points
  • Tipos principales: UTF-8, UTF-16 y UTF-32
  • UTF-8: El estándar más utilizado actualmente
    • Desarrollado por Robert C. Pike y Kenneth L. Thompson
    • Utiliza símbolos de longitud variable (1 a 4 bytes por carácter)
    • Compatible con ISO 10646 (Universal Character Set)

Estándares ISO para Caracteres

  • ISO/IEC 8859: Estándar de 8 bits para codificaciones de caracteres
  • ISO/IEC 8859-1: Específico para uso en computadoras europeas occidentales
  • ISO/IEC 8859-2: Variante para otras regiones

Terminología de Hardware Relacionada

ATX

  • Estándar de placas base con conectores de alimentación específicos
  • Utiliza conectores v1 de 20+4 pines
  • v2 incluye 24 pines (+12, +5, 3.3v y tierra)

EPS/PSU

  • CPU: 4 o 4+4 pines (+12v, tierra) para VRM
  • Molex: 4 (5v, 12a)
  • Sata: 15 pines (3.3, 5, 12)

VRM (Voltage Regulator Module)

  • Convertidor de potencia que administra el voltaje apropiado
  • Convierte 5 V o 12 V a voltaje menor
  • Necesario para el VCore (CPU) y SoC (gráficos integrados)

Deja un comentario