Seed Engineering: De Conversaciones Reales a Templates Abstractos
Cómo el Seed Engine de la Capa 0 del SCSF transforma conversaciones reales en templates de seeds reutilizables y libres de PII para la generación de datos sintéticos.

¿Qué es el Seed Engineering?
El seed engineering es el proceso de destilar conversaciones reales en templates abstractos y reutilizables que capturan la expertise de un dominio sin contener ningún dato personal identificable. Es el paso fundacional —la Capa 0— del SCSF (Synthetic Conversation Seed Framework).
La analogía más precisa es la de los planos arquitectónicos: el plano captura la estructura, las proporciones y la intención de diseño de un edificio sin revelar información alguna sobre quiénes lo habitan.
El Proceso de Abstracción
Paso 1: Ingesta de Conversaciones
El Seed Engine acepta conversaciones en múltiples formatos:
from uncase.core.seed_engine import SeedEngine
engine = SeedEngine()
# Desde exportación de WhatsApp
seeds = engine.ingest("chat_export.txt", format="whatsapp")
# Desde sistema CRM
seeds = engine.ingest("crm_tickets.json", format="json")
# Desde transcripciones de llamadas
seeds = engine.ingest("transcription.vtt", format="vtt")
Paso 2: Eliminación de PII
Toda entidad que pueda identificar a una persona real, una organización o una ubicación es detectada y eliminada. Esto se logra mediante el enfoque de doble motor (Presidio + SpaCy NER) que describimos en detalle en nuestro artículo sobre Zero PII.
Paso 3: Extracción de Patrones
El motor identifica los patrones conversacionales que hacen que esa interacción sea específica del dominio:
- Estructura de turnos: quién habla, en qué orden, durante cuánto tiempo
- Flujo de información: qué preguntas se formulan, qué datos se intercambian
- Puntos de decisión: dónde la conversación se bifurca según las respuestas
- Terminología del dominio: términos técnicos, procedimientos, referencias regulatorias
- Dinámica emocional: cambios de tono, patrones de escalada, enfoques de resolución
Paso 4: Generación del Template
El seed final es un template estructurado en formato SeedSchema v1:
seed_id: "auto-sales-001"
domain: "automotive.sales"
version: "1.0"
turns:
- role: "agent"
intent: "greeting_and_needs_assessment"
pattern: "[AGENT_GREETING] + [NEEDS_QUESTION]"
expected_entities: ["vehicle_type", "budget_range"]
- role: "client"
intent: "express_requirements"
pattern: "[REQUIREMENTS_STATEMENT]"
provides: ["vehicle_type", "budget_range", "timeline"]
- role: "agent"
intent: "present_options"
pattern: "[OPTION_PRESENTATION] based on {vehicle_type} and {budget_range}"
references: ["vehicle_type", "budget_range"]
metadata:
avg_turns: 12
complexity: "medium"
requires_product_knowledge: true
regulatory_context: ["consumer_protection", "financing_disclosure"]
Características de un Seed de Alta Calidad
Un seed bien construido tiene estas propiedades:
| Propiedad | Descripción | Por qué importa |
|---|---|---|
| Zero PII | Sin información identificable | Cumplimiento de privacidad |
| Fidelidad de dominio | Representa el dominio con precisión | Las conversaciones generadas son realistas |
| Riqueza de patrones | Captura rutas de interacción diversas | Diversidad en los datos de entrenamiento |
| Componibilidad | Puede combinarse con otros seeds | Generación de datos exponencial |
| Versionado | SeedSchema v1 con soporte de migración | Reproducibilidad garantizada |
El Efecto Volante
Los seeds crean un ciclo virtuoso:
- Conversaciones reales → abstraídas en seeds (proceso único, sin riesgos de privacidad)
- Seeds → generan miles de conversaciones sintéticas
- Conversaciones sintéticas → hacen fine-tuning de modelos de dominio
- Modelos de dominio → se despliegan en producción
- Interacciones en producción → generan nuevos seeds (el ciclo se repite)
Cada iteración mejora la calidad de los seeds, lo que mejora la calidad de los datos sintéticos, lo que mejora el rendimiento del modelo. Un volante que se retroalimenta y se acelera con el tiempo.
Paquetes de Seeds Curados
UNCASE incluye 150 seeds curados distribuidos en tres dominios:
- Ventas automotrices (50 seeds): consulta de vehículos, agendamiento de pruebas de manejo, análisis de financiamiento, evaluación de vehículo en parte de pago, coordinación de entrega
- Consulta médica (50 seeds): evaluación de síntomas, discusión de tratamiento, revisión de medicación, proceso de derivación, agendamiento de seguimiento
- Asesoramiento financiero (50 seeds): consulta de inversiones, evaluación de riesgo, planificación de retiro, revisión de seguros, divulgación de cumplimiento normativo
# Instalar y usar seeds curados
uncase seed list --domain automotive.sales
uncase generate --seed-package automotive.sales --count 1000
Creación de Seeds Propios
Las organizaciones pueden crear sus propios seeds a partir de sus conversaciones reales:
from uncase import SeedEngine, Pipeline
engine = SeedEngine()
# Procesar un lote de conversaciones reales
seeds = engine.process_batch(
conversations=load_conversations("./data/"),
domain="medical.consultation",
min_quality=0.70, # Umbral mínimo de calidad del seed
)
print(f"Created {len(seeds)} seeds from {len(conversations)} conversations")
# Usar los seeds para generar datos sintéticos
pipeline = Pipeline()
synthetic = pipeline.generate(seeds=seeds, count=5000)
Conclusiones Clave
- Los seeds son planos abstractos — capturan patrones, no datos
- El proceso de abstracción es irreversible — no es posible reconstruir la conversación original a partir de un seed
- Entre 50 y 200 seeds son suficientes para generar miles de conversaciones sintéticas de alta calidad
- Los seeds se pueden compartir sin riesgos — la ausencia de PII elimina cualquier exposición de privacidad en su distribución
- El efecto volante hace que la calidad se compound con el tiempo a medida que se crean más seeds a partir de interacciones en producción
Artículos relacionados
Posts Relacionados
Sigue explorando con estos análisis técnicos relacionados.

Multi-Format Data Parsing for Conversational AI Training
How UNCASE Layer 1 handles WhatsApp exports, CRM logs, JSON transcriptions, and more — unifying diverse conversation formats into a standardized schema.

Differential Privacy in LLM Training: Theory and Practice
Understanding DP-SGD, privacy budgets, and how to train language models with mathematical privacy guarantees for healthcare and financial applications.

Synthetic Data Quality Metrics: ROUGE-L, TTR, and Fidelity Explained
A deep dive into the quality metrics used to evaluate synthetic conversational data — ROUGE-L for coherence, Type-Token Ratio for diversity, and factual fidelity.
Comienza a Construir IA Privacy-First Hoy
Despliega el pipeline completo, conecta tus fuentes de datos, enruta a cualquier proveedor LLM y produce adaptadores LoRA conformes — todo sin exponer un solo dato.