Especificaciones Técnicas
Especificaciones de hardware y software de nuestros despliegues de IA privada.
Cómputo GPU
Nodo de Inferencia GPU
GPUs
Hasta 4x NVIDIA L40S / RTX 6000 Ada
VRAM
48GB por GPU, 192GB en total
Procesador
2x AMD EPYC 9354 (32 núcleos cada uno)
Memoria
512GB - 2TB DDR5-4800 ECC
Interconexión
PCIe 5.0 x16 por GPU
Alimentación
Fuentes redundantes 1100W Platinum
Formato
Rack 2U
Serving de Modelos
Runtime
vLLM / llama.cpp, API compatible con OpenAI
Modelos
Familias Llama, Qwen, Mistral, DeepSeek
Cuantización
FP8 / INT8 / GGUF, según la carga de trabajo
Contexto
Hasta 128K tokens
Aislamiento
Un cliente por nodo. Nada compartido.
Plataforma de Virtualización
Proxmox VE 8
Hipervisor
KVM con passthrough de GPU (VFIO)
Contenedores
LXC para servicios livianos
Alta Disponibilidad
Clúster con failover y migración en vivo
Respaldo
Proxmox Backup Server, incremental y deduplicado
Almacenamiento para Datasets y Modelos
Capa Flash NVMe
Medios
24x SSD NVMe all-flash
Transferencia
10GB/s sostenidos en lectura
IOPS
+650K
Cargas de Trabajo
Pesos de modelos, embeddings, datasets activos
Protocolos
NFS, SMB, iSCSI, objetos compatibles con S3
Red
4x 25GbE
Respaldo e Inmutabilidad
Estrategia
3-2-1 con una copia inmutable
Snapshots
Cada hora, con retención configurable
Inmutabilidad
Bloqueo de escritura única (WORM)
Cifrado
AES-256 en reposo, TLS en tránsito
Restauración
Probada. El producto es la restauración, no el respaldo.
Red para Cargas de IA
Interconexión
Backbone
100GbE entre cómputo y almacenamiento
Enlaces por Nodo
25GbE por nodo
Segmentación
Planos de inferencia, entrenamiento y gestión aislados por VLAN
Acceso Remoto
Malla WireGuard; los endpoints de modelos nunca tocan la internet pública
