100% Open Source100% Free Forever

Convierte conversaciones sensibles en modelos de IA entrenados — sin el riesgo

UNCASE es un framework open-source que transforma conocimiento experto en datos sintéticos seguros, los enruta a cualquier proveedor LLM y produce adaptadores LoRA listos — todo con cero exposición de PII, trazabilidad completa y cumplimiento integrado.

0%PII en datos finales
0+Endpoints de API
0Industrias reguladas
0Métricas de calidad

El Problema

input
Compliance Mandate
Critical

Regulated industries need specialized AI agents — but training on real data exposes PII and violates GDPR, HIPAA, and sector-specific regulations.

Data exposure risks
Patient records in training data
Financial advisor transcripts leaked
Legal consultations memorized by model
action
Risk Assessment
Generic models lack domain expertise
Real data training = regulatory violations
No audit trail from data to model
OngoingChatGPT logoGPT-4-1 Mini
pending
Gap Identified
Now

The industry needs a framework that captures expert knowledge without touching real data — generating privacy-safe synthetic conversations for domain-specific fine-tuning.

UNCASE solves this

Zero PII. Full traceability. Domain expertise preserved. Open source.

Demo Instantáneo

Míralo en Acción — Elige Tu Industria

Cada demo lanza un sandbox aislado en vivo con seeds precargados para una industria específica. Explora la API, inspecciona las estructuras de seeds y genera conversaciones de ejemplo — sin instalar nada.

50 seeds curados

Ventas Automotrices

Conversaciones de ventas de vehículos — precios, pruebas de manejo, financiamiento e intercambios.

Lanzar sandbox en vivo
50 seeds curados

Consulta Médica

Diálogos paciente-doctor — síntomas, diagnóstico, planes de tratamiento y seguimiento.

Lanzar sandbox en vivo
25 seeds curados

Asesoría Legal

Conversaciones abogado-cliente — revisión de casos, opciones legales y cumplimiento normativo.

Lanzar sandbox en vivo
50 seeds curados

Asesoría Financiera

Sesiones de asesoría financiera — revisión de portafolio, evaluación de riesgo y planificación.

Lanzar sandbox en vivo
25 seeds curados

Soporte Industrial

Soporte técnico para manufactura — diagnósticos, mantenimiento y seguridad.

Lanzar sandbox en vivo
25 seeds curados

Tutoría Educativa

Interacciones tutor-estudiante — explicaciones, ejercicios y evaluación de aprendizaje.

Lanzar sandbox en vivo

Cómo funcionan los demos

Datos de ejemplo precargados

Cada sandbox incluye conversaciones seed curadas para demostrar el pipeline de esa industria. Son ejemplos genéricos — no datos reales.

Totalmente personalizable en producción

En producción, creas seeds adaptados a tu organización — tus flujos de trabajo, terminología, herramientas y reglas de cumplimiento. Cada seed es parametrizado y versionado.

Efímeros y aislados

Los sandboxes de demo se autodestruyen después de 30 minutos. No persisten datos. Cada uno corre en una MicroVM aislada en la nube — completamente separada de entornos de producción.

Cero exposición de PII. Trazabilidad completa. Privacy score = 0.00 en cada conversación generada.

Pipeline

Del Conocimiento Experto al Adaptador LoRA

5 capas. Cero datos reales. Cada paso entrega valor de forma independiente.

L0

Motor de Seeds

Conversaciones reales → eliminación de PII (Presidio + SpaCy) → escaneo adversarial PromptShield (inyección, jailbreak, extracción, tóxico, solicitud de PII) → SeedSchema v1 capturando patrones de razonamiento y reglas del dominio.

L1

Parser y Validador

Importación multi-formato (CSV, JSONL — auto-detecta OpenAI/ShareGPT/UNCASE) → objetos Conversation validados con trazabilidad.

L2

Evaluador de Calidad

9 métricas con gate: ROUGE-L ≥0.65, Factual ≥0.90, TTR ≥0.55, Coherencia ≥0.85, Fidelidad Semántica ≥0.60 (LLM-as-Judge), Drift de Embedding ≥0.40 (similitud coseno), Validez de Tool Calls ≥0.90, Privacy =0.00, Memorización <0.01.

L3

Generador Sintético

Generación paralela con LiteLLM con control de concurrencia por semáforo, reintento inteligente con temperatura escalada, y extracción JSON estructurada — las conversaciones incluyen tool_calls y tool_results.

L4

Pipeline LoRA

Entrenamiento LoRA/QLoRA con DP-SGD (ε ≤8.0) → adaptador de 50-150MB, costo de $15-45 USD.

Flujo de Datos

Transformación Real de Datos

Observa cómo un seed del dominio automotive.sales fluye a través de las 5 capas.

1

Conocimiento Experto

dominioautomotive.sales
objetivofinanciamiento_vehicular
rolesasesor, cliente
herramientascotizador, simulador_credito, CRM
turnos_min6
turnos_max24

Arquitectura

Pipeline de 5 Capas. Cero Datos Reales. Control Total.

Del conocimiento experto a adaptadores LoRA listos para producción — cada capa opera de forma independiente, cada paso es auditable, y ningún dato real toca el pipeline.

Quality Score
0.92+12%
ROUGE-L
65%
0.65
Factual
90%
0.9
Privacy
100%
0

Las métricas de calidad mejoraron un 32% con optimización de seeds — cero PII detectado en 40K conversaciones sintéticas

Capa 0 — Motor de Seeds

Convierte conversaciones de expertos en estructuras de seeds abstractas — eliminación de PII vía Presidio + SpaCy, protección contra entradas adversariales vía PromptShield, capturando patrones de razonamiento sin datos sensibles.

Healthcare
Finance
Legal
Education

Diseño Agnóstico al Dominio

El mismo pipeline funciona en salud, finanzas, legal, educación y manufactura — un framework, cualquier industria.

12

Seed Configuration

Define conversation structure — min/max turns, expected flow, and quality thresholds. Seeds control every aspect of generated data.

Composite Score
0.92+12%
Factual Fidelity
0.94≥0.90
ROUGE-L
0.72≥0.65

Generation Quality

Track quality metrics across synthetic conversation batches — composite scores must pass all six hard gates.

0

Seeds Processed

0

Domains Active

0%

Quality Pass Rate

UNCASE

seed_financiamiento_001

12.5%

seed_triage_rural_012

8.3%

seed_due_diligence_007

15.1%

Multi-Domain Processing

Process seeds across all six industry namespaces simultaneously — each domain carries its own constraints and quality thresholds.

Anchored
seed_fin_00109:15
Generated
seed_tri_01211:45
Validated
seed_due_00714:30
Anchored
seed_fin_00109:15
Generated
seed_tri_01211:45
Validated
seed_due_00714:30
Anchored
seed_fin_00109:15
Generated
seed_tri_01211:45
Validated
seed_due_00714:30
Anchored
seed_fin_00109:15
Generated
seed_tri_01211:45
Validated
seed_due_00714:30
Certified
seed_edu_00319:15
Generated
seed_mfg_01818:30
Certified
seed_adv_00909:15
Certified
seed_edu_00319:15
Generated
seed_mfg_01818:30
Certified
seed_adv_00909:15
Certified
seed_edu_00319:15
Generated
seed_mfg_01818:30
Certified
seed_adv_00909:15
Certified
seed_edu_00319:15
Generated
seed_mfg_01818:30
Certified
seed_adv_00909:15

Cumplimiento Regulatorio

GDPR, HIPAA, LFPDPPP, AI Act, CCPA — UNCASE está diseñado para cumplir con todas las principales regulaciones de privacidad simultáneamente. Cada certificación de calidad se ancla criptográficamente en Polygon PoS para auditabilidad a prueba de manipulación.

Capacidades

Todo lo que Necesitas para Desplegar IA Conforme

LLM Gateway, PromptShield, Connector Hub y 106+ endpoints de API — todo construido con privacidad, evaluación semántica y auditabilidad como requisitos no negociables.

Garantía de Cero PII

Detección dual con Presidio NER + patrones regex más escaneo adversarial PromptShield (5 categorías de amenazas: inyección, jailbreak, extracción, tóxico, solicitud de PII). El Privacy Interceptor escanea todo el tráfico LLM en tiempo real. El privacy score debe ser 0.00 — sin excepciones.

Gateway LLM Universal

Enruta solicitudes a cualquier proveedor LLM a través de una sola API. Intercepción de privacidad en cada llamada — modo auditoría, advertencia o bloqueo. Generación consciente del proveedor con claves API cifradas en reposo.

Hub de Conectores

Ingesta conversaciones desde exportaciones de WhatsApp, webhooks, CRMs y fuentes personalizadas. La abstracción BaseConnector facilita agregar nuevos orígenes de datos.

6 Industrias Reguladas

Automotriz, médica, legal, finanzas, industrial, educación — cada una con plantillas de seeds específicas del dominio, umbrales de calidad y reglas de cumplimiento. Extensible a cualquier vertical regulada.

Generación Aumentada con Herramientas

Los seeds definen herramientas invocables (cotizador, simulador_credito, consultas CRM). Las conversaciones sintéticas incluyen tool_calls y tool_results realistas.

Entrenamiento con Privacidad Diferencial

DP-SGD con epsilon ≤ 8.0. Tasa de éxito de ataque de extracción < 1%. Garantías matemáticas de privacidad a lo largo del fine-tuning. Integridad semántica verificada pre-entrenamiento vía EmbeddingDriftMetric y SemanticFidelityMetric.

Trazabilidad Completa

Cada conversación sintética se rastrea hasta su seed de origen vía seed_id. Pista de auditoría completa desde el conocimiento experto hasta el adaptador entrenado — requerido para cumplimiento regulatorio.

10+ Formatos de Chat

Importa y exporta en ChatML, Alpaca, ShareGPT, LLaMA, Mistral, Qwen, OpenAI y más. Parser multi-formato con auto-detección para integración fluida.

106+ Endpoints REST API

Cobertura completa de API en 24 routers: seeds, generación, evaluación, proveedores, conectores, gateway, plantillas, herramientas, importaciones, sandboxes, conocimiento, uso, auditoría, costos, webhooks, pipeline, jobs, organizaciones y monitoreo de salud. Versionado en /api/v1/.

Sandboxes E2B en la Nube

Generación paralela en MicroVMs aisladas — un sandbox por seed, ~2s de arranque. Despliega 20 sandboxes concurrentes para máximo rendimiento. Fallback automático a generación local cuando E2B no está configurado.

Contenedores de Demo Instantáneo

Levanta una instancia UNCASE completamente configurada para cualquier vertical de industria en segundos. Seeds precargados, API corriendo, docs Swagger — se autodestruye después de 5-60 minutos. Cero instalación requerida.

Evaluación Semántica y LLM-as-Judge

9 métricas de calidad incluyendo SemanticFidelityMetric nativo (rúbrica LLM-as-Judge de 4 dimensiones), EmbeddingDriftMetric (similitud coseno con fallback TF-IDF), y ToolCallValidatorMetric. Más evaluación Opik en sandbox para detección de alucinaciones, coherencia GEval y relevancia de respuestas.

Marketplace de Plugins

6 plugins oficiales y 30 herramientas específicas por dominio en todas las industrias. Registro de plugins extensible con ciclo de vida de instalación/desinstalación. Cada dominio tiene 5 herramientas especializadas (cotizador, simulador, CRM, etc.).

Base de Conocimiento

Sube documentos de dominio (hechos, procedimientos, terminología, referencia) con chunking automático del lado del servidor. Búsqueda de texto completo entre chunks. Almacenamiento persistente en PostgreSQL con aislamiento a nivel de organización.

Auditoría y Cumplimiento

Pista de auditoría inmutable para cada acción de API — seeds creados, evaluaciones ejecutadas, modelos entrenados. Políticas de retención de datos con TTLs configurables. Trazabilidad completa de cumplimiento desde seed hasta adaptador.

Seguimiento de Costos LLM

Desgloses de costos por organización y por trabajo a través de todos los proveedores LLM. Estimaciones de precios conscientes del proveedor. Líneas de tiempo de costos diarios y medición de uso con granularidad a nivel de evento.

Stack de Observabilidad

Exportación de métricas Prometheus + dashboards Grafana preconstruidos. Tasa de solicitudes, percentiles de latencia, tasas de error y endpoints principales — todo listo con el perfil de observabilidad de Docker Compose.

Beneficios

Por Qué UNCASE Importa

73% de los proyectos de fine-tuning fracasan por obstáculos de privacidad, calidad o regulación. UNCASE elimina los tres.

Pipeline Completo en 6 Pasos
Pipeline Completo en 6 Pasos
Desde ingeniería de seeds hasta exportación del dataset — el ciclo de vida completo de datos sintéticos orquestado en un solo pipeline visual. Cada etapa funciona de forma independiente, así que empiezas a capturar valor desde el día uno sin esperar un despliegue completo.
Explorar la arquitectura
Conocimiento Experto, Escalado Infinitamente
Conocimiento Experto, Escalado Infinitamente
Los seeds capturan los patrones de razonamiento y la estructura de dominio de tus mejores profesionales — sin exponer una sola conversación real. 50 seeds generan miles de conversaciones sintéticas que preservan la expertise eliminando todo riesgo de privacidad.
Conocer seed engineering
Calidad que Puedes Medir
Calidad que Puedes Medir
Cada conversación generada se evalúa en 6 dimensiones: ROUGE-L, fidelidad factual, diversidad léxica, coherencia dialógica, score de privacidad y tasa de memorización. El dashboard de evaluación muestra tasas de aprobación, distribución de scores y promedios de métricas — sin adivinanzas, solo datos.
Ver métricas de calidad en detalle
Evaluación Granular de Calidad
Evaluación Granular de Calidad
Analiza cada conversación con un gráfico radar que desglosa cada dimensión de calidad. Identifica exactamente dónde una conversación sobresale o falla — y usa esos insights para refinar tus seeds y mejorar el siguiente lote de generación.
Leer sobre métricas de evaluación
Privacidad por Diseño, No por Parche
Privacidad por Diseño, No por Parche
Ningún dato real de pacientes, clientes o usuarios transita por el pipeline. Cada llamada LLM pasa por un Privacy Interceptor que escanea PII en tiempo real, más PromptShield que bloquea entradas adversariales antes de que lleguen al modelo. Cumple con GDPR, HIPAA, LFPDPPP, AI Act y CCPA desde el día uno.
Profundizar en zero-PII
Calidad Verificada en Blockchain
Calidad Verificada en Blockchain
Cada evaluación de calidad se hashea con SHA-256, se agrupa en un árbol Merkle y su raíz se ancla en Polygon PoS. El pipeline de certificación rastrea cada etapa — evaluar, hashear, agrupar, anclar — con trazabilidad on-chain completa. Ningún regulador necesita confiar en UNCASE; verifican de forma independiente vía Polygonscan.
Cómo funciona la verificación blockchain
Datasets Listos para Exportar
Datasets Listos para Exportar
Construye paquetes de exportación filtrados por dominio, certificado de calidad y formato de template. Elige entre Mistral, LLaMA, o templates personalizados. Configura modos de tool call, system prompts, y descarga como JSONL, vía API, o con la certificación de calidad adjunta.
Comenzar a exportar datasets
Herramientas Personalizadas para Cualquier Industria
Herramientas Personalizadas para Cualquier Industria
Registra herramientas específicas de dominio que tus conversaciones sintéticas pueden invocar — desde agendamiento de turnos en salud hasta calculadoras de financiamiento en automotriz. El registro de herramientas abarca 6 industrias (Automotriz, Médica, Legal, Finanzas, Industrial, Educación) y acepta cualquier definición de función personalizada.
Ver en GitHub

Open Source

Gratis y Open Source

No vendemos software. Vendemos una experiencia de instalación a medida, consultoría técnica y preparación para certificaciones regulatorias. El software es y siempre será gratuito.

El framework completo es 100% gratuito — para siempre

Comunidad

Open source — gratis para siempre.

Gratuito

Código abierto

  • Pipeline SCSF completo de 5 capas
  • 106+ endpoints de API REST
  • LLM Gateway con interceptor de privacidad
  • Conectores de WhatsApp y webhooks
  • 6 namespaces de industria
  • 10+ formatos de exportación para chat
  • Evaluación de calidad (9 métricas incl. semántica y embedding)
  • Sandboxes E2B en la nube (tu API key)
  • Demos instantáneos por industria
  • CLI completo (seed, parse, evaluate, generate, train)
  • SDK Python integrado
  • Docker Compose con perfiles (ML, GPU, observabilidad)
  • Soporte comunitario vía GitHub

Organizaciones

Instalación a medida, consultoría técnica y preparación para certificaciones regulatorias.

$499 USD

Desde + complementos opcionales

  • Todo lo de Comunidad incluido
  • Instalación y configuración en tu infraestructura
  • Creación del namespace de tu industria/dominio
  • Ingeniería de seeds con tu equipo de dominio
  • Configuración de proveedores LLM y conectores
  • Documentación de auditoría para cumplimiento regulatorio
  • Sesiones 1:1 de ingeniería de seeds
  • Desarrollo de conectores a medida (CRM, EHR, etc.)
  • Soporte prioritario con SLA definido
  • Revisión de arquitectura y optimización de pipeline

Modalidades de servicio

Implementación Asistida

Proyecto único

Ponemos UNCASE en marcha contigo. Instalación, configuración de tu entorno (Docker, Railway, AWS, on-premise), creación de tu primer namespace con seeds reales de tu dominio, y onboarding hands-on para tu equipo.

Acompañamiento 1:1

Retainer mensual

Sesiones mensuales de ingeniería de seeds con tu equipo de dominio. Refinamos semillas, calibramos umbrales de calidad, desarrollamos conectores para tus fuentes de datos, y generamos la documentación de cumplimiento que tus reguladores requieren.

A Tu Medida

Alcance personalizado

Infraestructura gestionada, despliegue on-premise, integración de proveedores LLM privados, o horas de ingeniería dedicadas. Diseñamos el alcance según lo que tu organización necesita.

Nuestros precios se ajustan automáticamente según tu ubicación usando paridad de poder adquisitivo, para que equipos en todas partes puedan acceder a los servicios de UNCASE a un precio justo.

No vendemos software — vendemos una experiencia de instalación a medida, consultoría técnica y preparación para certificaciones regulatorias. El framework siempre será gratuito.

¿Tu industria no está regulada o no tienes restricciones de privacidad? Prueba Astrapp

FAQ

Preguntas frecuentes

Preguntas comunes sobre UNCASE, el pipeline SCSF y la generación de datos sintéticos con privacidad primero.

UNCASE (Unbiased Neutral Convention for Agnostic Seed Engineering) es un framework open-source para generar datos conversacionales sintéticos de alta calidad. Permite fine-tuning de LoRA en industrias sensibles a la privacidad como salud, finanzas, legal y manufactura — sin exponer datos reales. El framework incluye una API completa con 106+ endpoints en 24 routers, un gateway LLM universal, protección adversarial PromptShield, 9 métricas de calidad con evaluación semántica, conectores de datos y sandboxes E2B en la nube para generación paralela y demos instantáneos.

UNCASE

Roadmap

The Journey That Shaped Us

From a small home setup to building solutions for global clients, our journey reflects passion, persistence, and continuous growth. Every milestone has shaped who we are today.

Q1 2025 — Foundation
Completado

Fundación del Proyecto

Arquitectura del repositorio, diseño de SeedSchema v1, y el whitepaper técnico estableciendo la metodología SCSF (Synthetic Conversational Seed Framework).

SeedSchema v1WhitepaperPydantic models
Q2 2025 — Core Pipeline
Completado

Capas 0-1: Motor de Seeds y Parser

Motor de Seeds con eliminación de PII via Presidio + SpaCy. Parser multi-formato soportando CSV, JSONL con auto-detección de formatos OpenAI, ShareGPT y UNCASE.

PII eliminationMulti-format parserFastAPI
Q3 2025 — Quality & Generation
Completado

Capas 2-3: Evaluador y Generador

Sistema inicial de evaluación de calidad con 6 gates (ROUGE-L, Fidelidad Factual, TTR, Coherencia, Privacidad, Memorización) — luego expandido a 9 métricas. Generación sintética con LiteLLM con tool_calls y tool_results.

6 quality gatesLiteLLMTool-augmented
Q4 2025 — LoRA Pipeline & API
Completado

Capa 4 + API REST Completa

Fine-tuning LoRA/QLoRA con garantías de privacidad DP-SGD. API REST completa cubriendo todo el pipeline. Despliegue Docker Compose con PostgreSQL y MLflow.

DP-SGD106+ endpointsDocker
Q1 2026 — Gateway & Connectors
Completado

LLM Gateway y Hub de Conectores

Gateway LLM Universal con intercepción de privacidad en todo el tráfico. Provider Registry con claves API cifradas con Fernet. Conectores WhatsApp y webhook. Privacy Interceptor con modos auditoría/advertencia/bloqueo. Dashboard UI.

LLM GatewayConnectorsPrivacy Interceptor
Q1 2026 — E2B Cloud Sandboxes
Completado

Sandboxes Paralelos y Demos Instantáneos

Generación paralela con MicroVMs E2B — un sandbox por seed, hasta 20 concurrentes. Contenedores de demo instantáneo para 6 verticales de industria. Sandboxes de evaluación Opik LLM-as-judge. Streaming SSE en tiempo real. Exportación de artefactos antes de auto-destrucción.

E2B sandboxesDemo containersOpik evaluation
Q1 2026 — Plugins & Knowledge Base
Completado

Marketplace de Plugins y Persistencia de Conocimiento

Registro de plugins con 6 plugins oficiales y 30 herramientas específicas por dominio. Base de conocimiento con chunking del lado del servidor y búsqueda de texto completo. Medición de uso en todos los endpoints. Sistema de entrega de webhooks con payloads firmados con HMAC.

6 plugins30 domain toolsKnowledge base
Q1 2026 — Enterprise Infrastructure
Completado

Auditoría, Costos y Observabilidad

Logging de auditoría inmutable con pista de cumplimiento. Seguimiento de costos LLM por organización y trabajo. Políticas de retención de datos. Stack de observabilidad Prometheus + Grafana. 1,160+ tests al 73% de cobertura en 24 routers API.

Audit loggingCost tracking1,160+ tests
Q1 2026 — Semantic Evaluation & PromptShield
Completado

Calidad Semántica y Defensa Adversarial

SemanticFidelityMetric (LLM-as-Judge con rúbrica de 4 dimensiones), EmbeddingDriftMetric (similitud coseno con fallback TF-IDF), ToolCallValidatorMetric — expandiendo gates de calidad de 6 a 9. Escaner adversarial PromptShield con 5 categorías de amenazas. Orquestador de pipeline paralelo con concurrencia por semáforo. Reintento inteligente con temperatura escalada.

9 quality metricsPromptShieldParallel pipeline
Q2 2026 — Blockchain Audit Trail
Completado

Certificación de Calidad On-Chain

Hashing criptográfico de evaluaciones de calidad de Capa 2 anclado en un ledger blockchain público. Cada certificación de calidad — las 9 métricas, score compuesto, linaje del seed y timestamp — se hashea en un árbol Merkle y su raíz se publica on-chain. Prueba a prueba de manipulación, verificable independientemente, de que la evaluación se realizó con resultados específicos en un momento específico. Ningún regulador o auditor necesita confiar en UNCASE — verifican on-chain.

Merkle treeOn-chain anchoringVerifiable proofs
Q2 2026 — Public Launch
Actual

SDK, Servidor MCP y Lanzamiento Público

SDK Python para acceso programático. Servidor MCP (Model Context Protocol) para integración con IDEs. Plantillas de seeds específicas por dominio para las 6 industrias. Parser avanzado de WhatsApp y conector CRM. Lanzamiento público de la plataforma UNCASE completa con documentación completa, guías de onboarding y despliegue listo para producción.

Python SDKMCP serverPublic launch
Q3 2026 — Distribution, Community & Enterprise

PyPI, Hub Comunitario y Plataforma SaaS

Paquete PyPI con extras opcionales (ml, privacy, all). Fórmula Homebrew. Marketplace comunitario de seeds para plantillas de dominio compartidas. Plataforma SaaS multi-tenant con infraestructura gestionada, RBAC, autenticación JWT, integración de facturación y niveles de precios basados en uso. Documentación para desarrollo de plugins de terceros y guías para contribuidores.

pip install uncaseCommunity hubSaaS platformRBAC

Comienza a Construir IA Privacy-First Hoy

Despliega el pipeline completo, conecta tus fuentes de datos, enruta a cualquier proveedor LLM y produce adaptadores LoRA conformes — todo sin exponer un solo dato.

0%PII en datos finales
0+Endpoints de API
0Industrias reguladas
0+Tests pasando