La referencia de ingeniería de Belco: el funcionamiento del serving local, el pipeline de RAG con citas verificadas, la capa de agentes y las directrices de seguridad física.
Ingeniería de IA Privada
Especificaciones del Perímetro
Cómo se construye, se despliega, se asegura y se mantiene un entorno de inteligencia artificial corriendo localmente sobre hardware dedicado o nubes privadas.
1. Arquitectura de referencia
Toda solución de Belco se organiza en capas que viven enteramente dentro de la infraestructura del cliente. No hay llamadas a APIs externas para procesar datos del cliente: una consulta entra, se procesa adentro y la respuesta vuelve de forma segura.
Usuarios e Interfaces del Cliente
TU INFRAESTRUCTURA · SIN SALIDA EXTERNA
Interfaz / aplicación
Capa de orquestación RAG · agentes · flujos · guardrails
Inferencia local LLM + embeddings
Base vectorial conocimiento
Conectores ERP · CRM · mail · archivos
Figura 1 — Arquitectura de referencia. Todos los componentes dentro del perímetro del cliente.
Capas del Perímetro
— Interfaz / aplicación: el punto de contacto del usuario (web interna, integración en una herramienta existente, API privada).
— Orquestación: la lógica que coordina recuperación, llamadas al modelo, uso de herramientas y validaciones. Es donde vive la inteligencia del sistema.
— Modelos de lenguaje: servicio local del modelo de lenguaje y del modelo de embeddings.
— Base vectorial: el conocimiento corporativo indexado para búsqueda semántica.
— Conectores: integraciones con los sistemas internos de la empresa.
2. Capa de modelos: serving, selección y cuantización
2.1 Serving
El serving es el servicio que carga el modelo en memoria y responde a las consultas. Belco utiliza motores de inferencia optimizados según los requisitos de concurrencia y la escala de la organización:
— Inferencia optimizada: motor local eficiente para baja latencia, ideal para un nodo único y cargas corporativas medias.
— Motor vLLM: orientado a alto rendimiento y concurrencia (batching continuo, API compatible con estándares). Se reserva para despliegues con muchos usuarios simultáneos o altos requisitos de throughput.
# Ejemplo de consulta a la API de inferencia local de Belco
curl http://api.internal-llm.local/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "model-local",
"messages": [{"role": "user", "content": "Consultar balance 2025"}]
}'
2.2 Selección de modelo
El modelo se elige según el caso, el idioma y el hardware disponible, no por moda. Familias de referencia:
— Modelos de propósito general: optimizados para análisis de textos extensos, resúmenes de reportes y balances corporativos.
— Modelos para tareas estructuradas: especializados en procesamiento multilingüe y extracción de datos en formatos estructurados (como JSON y llamadas a API).
— Modelos de alta eficiencia: diseñados para ofrecer un óptimo equilibrio entre consumo de memoria (VRAM) y calidad de respuesta.
— Modelos de razonamiento avanzado: orientados a tareas complejas de lógica, matemáticas y depuración de código.
— Modelos de embeddings vectoriales locales: optimizados para la indexación y búsqueda semántica en múltiples idiomas.
2.3 Cuantización
La cuantización reduce la precisión de los pesos del modelo para que ocupe menos memoria y corra más rápido, con una pérdida de calidad pequeña y controlable. Es lo que hace posible correr modelos potentes en hardware accesible de servidor local.
Cuantización
Bits aprox.
Uso recomendado
Q4_K_M
~4.5
Equilibrio por defecto: buena calidad, memoria baja
Q5_K_M
~5.5
Más calidad cuando sobra algo de VRAM
Q8_0
~8
Calidad muy alta; mayor consumo
FP16
16
Sin cuantizar; máxima fidelidad, máximo consumo
2.4 Ventana de contexto
La ventana de contexto define cuánto texto puede "ver" el modelo de una vez (entrada + respuesta). Modelos actuales van de 8k a 128k tokens. Más contexto permite procesar documentos largos pero aumenta el consumo de memoria (la caché KV crece con la longitud). En RAG, una ventana moderada bien usada suele rendir mejor que forzar contextos enormes.
3. Pipeline de RAG
RAG (Retrieval-Augmented Generation) combina búsqueda sobre los documentos privados del cliente con la generación del modelo: en vez de "saber" la respuesta, el modelo la fundamenta en fragmentos recuperados de la base de conocimiento interna. Esto reduce alucinaciones, permite citar fuentes y mantiene el conocimiento actualizado sin reentrenar.
3.1 Ingesta y normalización
Lectura de las fuentes (PDF, Word, correo, HTML, bases de datos), extracción de texto y limpieza. En documentos escaneados (historias clínicas, cédulas, facturas) se aplica OCR local. Se conserva metadata útil (origen, fecha, autor, sección) para filtrar y citar.
3.2 Chunking
Los documentos se parten en fragmentos manejables. Tamaño típico: 256–1024 tokens, con solapamiento del 10–20% para no cortar ideas. La estrategia de corte (por estructura, por semántica o recursiva) se elige según el tipo de documento.
3.3 Embeddings e indexado
Cada fragmento se convierte en un vector numérico con un modelo de embeddings local y se guarda en la base vectorial. La búsqueda posterior compara la consulta con esos vectores por similitud semántica.
3.4 Recuperación y reranking
Ante una consulta se recuperan los k fragmentos más relevantes (top-k, típicamente 4–10). Se puede usar búsqueda híbrida (combinando similitud semántica con coincidencia léxica tipo BM25) y un reranker (modelo cross-encoder, p. ej. bge-reranker) que reordena los candidatos por relevancia fina antes de pasarlos al modelo.
3.5 Generación con fundamento
Los fragmentos recuperados se inyectan en el prompt junto con la consulta, y el modelo genera la respuesta apoyándose en ellos, con citas a la fuente. Un buen diseño de prompt y de instrucciones de "responder solo con lo recuperado" es clave para la fidelidad.
Etapa
Decisión clave
Impacto
Chunking
Tamaño y solapamiento
Precisión del contexto recuperado
Embeddings
Modelo y dimensión
Calidad de la búsqueda semántica
Retrieval
k, híbrido, filtros
Cobertura vs. ruido
Reranking
Usar o no cross-encoder
Relevancia del contexto final
Generación
Prompt y citas
Fidelidad y trazabilidad
4. Agentes y orquestación
Un agente es un sistema donde el modelo no solo responde, sino que decide y actúa: elige qué herramienta usar, la invoca, observa el resultado y continúa hasta cumplir el objetivo.
4.1 Tool calling
El modelo expone un conjunto de herramientas (funciones) con su descripción y parámetros. Ante una tarea, decide cuál llamar y con qué argumentos; el sistema la ejecuta y devuelve el resultado al modelo. Ejemplos de herramientas: consultar una base de datos, buscar en RAG, enviar un correo corporativo, crear un registro en el CRM, generar un documento.
4.2 Patrón de razonamiento y acción
El ciclo típico alterna razonamiento y acción (estilo ReAct): el agente piensa el próximo paso, ejecuta una herramienta, observa, y repite. Se fija un límite de pasos para evitar bucles.
4.3 Memoria
— Memoria de trabajo: el contexto de la tarea en curso (lo que cabe en la ventana de contexto).
— Memoria de largo plazo: hechos y preferencias persistidos en la base vectorial para recuperarlos en futuras interacciones.
4.4 Guardrails
Controles que mantienen al agente dentro de límites seguros: validación de entradas y salidas, listas de herramientas y acciones permitidas, confirmación humana para operaciones sensibles (escribir, borrar, enviar correos), y límites de alcance. En un sistema que toca datos y sistemas reales, los guardrails no son opcionales.
4.5 Orquestación
La capa de orquestación coordina todo lo anterior. Puede construirse con frameworks (LangChain, LlamaIndex) o a medida cuando se busca máximo control y mínima dependencia. Belco elige según el caso, priorizando soluciones mantenibles y sin ataduras innecesarias.
5. Integraciones y conectores
El valor de la IA aparece cuando se conecta con los datos y sistemas reales de la empresa. Belco integra con las herramientas que el cliente ya usa, siempre dentro de su red.
Categoría
Ejemplos
Para qué
Archivos y documentos
Carpetas de red, repositorios, SharePoint local
Fuente de conocimiento para RAG
Bases de datos
PostgreSQL, MySQL, SQL Server
Consulta y escritura estructurada
ERP / CRM
Sistemas de gestión, facturación y ventas
Lectura y actualización de registros
Correo y mensajería
Servidores de correo internos
Clasificación, respuesta, derivación
APIs internas
Servicios propios del cliente
Acciones y datos a medida
El principio de diseño es que las integraciones no abran una vía de salida de datos: los conectores operan puertas adentro, y cualquier acceso queda registrado y controlado.
6. Hardware e infraestructura
El consumo de memoria de GPU (VRAM) es el factor principal que determina qué modelos se pueden ejecutar y con qué rendimiento.
6.1 Dimensionamiento (regla práctica)
El consumo de memoria depende del tamaño del modelo (en miles de millones de parámetros), de la cuantización y de la longitud de contexto. Como guía orientativa, con cuantización Q4:
Tamaño del modelo
VRAM aprox. (Q4)
Hardware de ejemplo
7–8B
~6–8 GB
GPU de 12 GB (gama media / escritorios)
13–14B
~10–12 GB
GPU de 16 GB
30–34B
~20–24 GB
GPU de 24 GB (gama alta de escritorio / RTX 3090/4090)
70B
~40–48 GB
GPU profesional de 48 GB (A40 / A6000) o 2× de 24 GB
A esto se suma un margen para la caché de contexto y el sistema. Modelos pequeños pueden incluso correr en CPU, aunque con latencia mayor; para uso productivo se recomienda GPU.
6.2 Opciones de despliegue
— Servidor on-premise con GPU: máximo control y privacidad; el cliente invierte en el equipamiento físico corporativo.
— Workstation dedicada: opción de bajo costo para empezar con un caso de uso acotado o pilotos de departamento.
— Nube privada (VPC): instancia con GPU en un entorno virtual aislado del cliente (AWS, Azure, Google Cloud VPC), cuando no se quiere hardware propio pero se exige aislamiento absoluto de datos.
7. Seguridad y privacidad
La seguridad es el cimiento de la arquitectura de Belco. El sistema se diseña para que la información corporativa permanezca contenida y controlada.
7.1 Aislamiento de red
Los componentes corren en la red del cliente sin necesidad de salida a internet para procesar datos. Según el caso, se puede operar en un entorno totalmente aislado (air-gapped) o en una VLAN sin egreso hacia servicios externos.
7.2 Control de acceso
Autenticación integrada con los sistemas del cliente (directorio corporativo / Active Directory / Single Sign-On) y control de acceso por roles (RBAC), de modo que cada usuario vea y haga solo lo que le corresponde por área.
7.3 Cifrado
Cifrado de las comunicaciones internas (TLS) y de los datos en reposo (disco y base de datos vectorial), más una gestión adecuada de secretos y credenciales de conectores.
7.4 Auditoría y trazabilidad
Registro de accesos y acciones, con cuidado de no filtrar datos sensibles en los propios logs. La trazabilidad permite demostrar cumplimiento y reconstruir qué pasó.
7.5 Hardening
Endurecimiento del servidor y de los servicios: mínimo de software expuesto, actualizaciones de seguridad, principio de mínimo privilegio y revisión periódica.
LEY 25.326: Al no transferir datos personales a terceros, Belco reduce drásticamente la superficie de exposición regulatoria del cliente y facilita el cumplimiento de la Ley de Protección de Datos Personales de la República Argentina.
8. Evaluación y monitoreo (calidad)
La calidad de una solución de IA se mide y se vigila, sobre todo porque los modelos y los datos corporativos cambian con el tiempo.
8.1 Conjunto de evaluación
Se arma un set de casos representativos (preguntas y respuestas esperadas, documentos de prueba) que sirve de referencia para medir y para detectar regresiones cuando se actualiza un modelo o se cambia la configuración.
8.2 Métricas de recuperación (RAG)
— Recall@k: qué proporción de la información relevante aparece entre los k fragmentos recuperados.
— Precisión / MRR: qué tan arriba en la lista de resultados aparece lo verdaderamente relevante.
8.3 Métricas de generación
— Fidelidad (groundedness): la respuesta se sostiene únicamente en lo recuperado, sin inventar información de contexto.
— Relevancia: la respuesta contesta de forma precisa lo que se preguntó.
— Evaluación por modelo (LLM-as-judge) y revisión humana para criterios de calidad cualitativos.
8.4 Monitoreo en producción
Se vigilan latencia, throughput, uso de GPU, tasa de errores y volumen de uso. Se captura feedback de los usuarios para mejorar de forma continua. El monitoreo respeta la privacidad: métricas de sistema sí, contenido sensible de prompts solo lo imprescindible.
9. Operación y mantenimiento
El mantenimiento de entornos de IA privados sigue directrices de estabilidad estricta.
— Versionado de modelos: se fija (pin) la versión del modelo en producción y las actualizaciones se prueban antes de aplicarse con evaluaciones de regresión.
— Backups: respaldo de la base vectorial, de las bases de datos relacionales, las configuraciones y los datos del sistema.
— Actualizaciones: de modelos locales, dependencias de código y parches de seguridad de sistema operativo, en ventanas de mantenimiento acordadas.
— Niveles de Soporte (SLA): niveles de servicio definidos según la criticidad de la solución para la operación de la empresa.
Nivel de soporte
Enfoque
Indicado para
Básico
Mantenimiento y correctivos básicos de infraestructura
Soluciones estables y acotadas de bajo tráfico
Estándar
Mantenimiento preventivo + mejoras periódicas
La mayoría de los despliegues de pyme
Avanzado
Evolución activa + SLA de respuesta exigente
Sistemas de alta disponibilidad y flujos críticos de negocio
10. Stack tecnológico
Componentes tecnológicos de referencia elegidos por estabilidad, escalabilidad local y ausencia de dependencias externas.
Capa
Herramientas de referencia
Serving de modelos
Motor de inferencia local optimizado / vLLM
Modelos de lenguaje
Modelos locales (7B a 70B parámetros, ajustados al dominio)
Embeddings
Modelos de embeddings vectoriales locales
Base vectorial
Bases de datos vectoriales locales / auto-alojadas (Qdrant, pgvector, etc.)
Reranking
Modelos locales de reordenamiento semántico (bge-reranker o similares)
Orquestación
LangChain, LlamaIndex o desarrollo a medida
Backend / API
Python (FastAPI) / Node según el caso
Despliegue
Docker / contenedores, on-premise o VPC
El stack es una referencia, no un dogma: cada componente se confirma según el caso, priorizando soluciones mantenibles, abiertas y sin dependencias externas innecesarias.
Anexos
Referencia
Glosario y preguntas frecuentes para la consulta del equipo y clientes.
A. Glosario técnico
LLM
Modelo de lenguaje grande; el motor que genera texto.
Modelo local / on-premise
Modelo que corre en la infraestructura del cliente, sin enviar datos afuera.
RAG
Generación aumentada por recuperación: el modelo responde apoyándose en documentos buscados en una base de conocimiento.
Embedding
Representación numérica (vector) de un texto, que permite buscar por significado.
Base vectorial
Base de datos que almacena embeddings y permite búsqueda por similitud.
Chunking
Partir documentos en fragmentos para indexarlos y recuperarlos.
Reranking
Reordenar los fragmentos recuperados por relevancia fina.
Agente
Sistema en el que el modelo decide y ejecuta acciones usando herramientas.
Tool calling
Capacidad del modelo de invocar funciones/herramientas con parámetros.
Guardrails
Controles que mantienen al sistema dentro de límites seguros.
Cuantización
Reducir la precisión de los pesos para bajar memoria y acelerar, con mínima pérdida.
Ventana de contexto
Cantidad de texto que el modelo procesa de una vez.
VRAM
Memoria de la GPU; el recurso que más limita qué modelo se puede correr.
Inferencia local
Ejecución del modelo de lenguaje dentro del hardware propio sin enviar datos al exterior.
vLLM
Motor de serving de alto rendimiento para muchos usuarios simultáneos.
B. Preguntas frecuentes
Sí. Los modelos corren en hardware que controla el cliente y no hay llamadas a APIs externas para procesar su información: la consulta entra, se procesa adentro y la respuesta vuelve, sin cruzar el perímetro.
Depende del caso. Muchas veces alcanza con un equipo de gama media, y se puede empezar chico y escalar. En el diagnóstico se define el hardware exacto.
Para la mayoría de los casos de empresa, los modelos abiertos actuales rinden de sobra. Para tareas de razonamiento de frontera, los cerrados aún tienen ventaja; por eso se elige el modelo según el caso.
Un primer caso de uso suele estar en producción en semanas, no meses. Se empieza con algo acotado y de impacto.
No hace falta. Belco se encarga de la instalación, integración y mantenimiento, y deja el sistema andando. El soporte continuo es parte de nuestro servicio para asegurar la estabilidad del entorno.
Se evalúa y, si conviene, se actualiza como parte del soporte, con pruebas de regresión previas para garantizar que no se pierdan capacidades. El cliente se beneficia de la mejora sin rehacer la integración.