Seed Engineering: De Conversaciones Reales a Templates Abstractos

Cómo el Seed Engine de la Capa 0 del SCSF transforma conversaciones reales en templates de seeds reutilizables y libres de PII para la generación de datos sintéticos.

ArchitectureSCSFSeed EngineData Pipeline
M
Escrito porMariano Morales
Tiempo de lectura8 min
Publicado el25 de enero de 2026
Architecture
Seed Engineering: De Conversaciones Reales a Templates Abstractos

¿Qué es el Seed Engineering?

El seed engineering es el proceso de destilar conversaciones reales en templates abstractos y reutilizables que capturan la expertise de un dominio sin contener ningún dato personal identificable. Es el paso fundacional —la Capa 0— del SCSF (Synthetic Conversation Seed Framework).

La analogía más precisa es la de los planos arquitectónicos: el plano captura la estructura, las proporciones y la intención de diseño de un edificio sin revelar información alguna sobre quiénes lo habitan.

El Proceso de Abstracción

Paso 1: Ingesta de Conversaciones

El Seed Engine acepta conversaciones en múltiples formatos:

from uncase.core.seed_engine import SeedEngine

engine = SeedEngine()

# Desde exportación de WhatsApp
seeds = engine.ingest("chat_export.txt", format="whatsapp")

# Desde sistema CRM
seeds = engine.ingest("crm_tickets.json", format="json")

# Desde transcripciones de llamadas
seeds = engine.ingest("transcription.vtt", format="vtt")

Paso 2: Eliminación de PII

Toda entidad que pueda identificar a una persona real, una organización o una ubicación es detectada y eliminada. Esto se logra mediante el enfoque de doble motor (Presidio + SpaCy NER) que describimos en detalle en nuestro artículo sobre Zero PII.

Paso 3: Extracción de Patrones

El motor identifica los patrones conversacionales que hacen que esa interacción sea específica del dominio:

  • Estructura de turnos: quién habla, en qué orden, durante cuánto tiempo
  • Flujo de información: qué preguntas se formulan, qué datos se intercambian
  • Puntos de decisión: dónde la conversación se bifurca según las respuestas
  • Terminología del dominio: términos técnicos, procedimientos, referencias regulatorias
  • Dinámica emocional: cambios de tono, patrones de escalada, enfoques de resolución

Paso 4: Generación del Template

El seed final es un template estructurado en formato SeedSchema v1:

seed_id: "auto-sales-001"
domain: "automotive.sales"
version: "1.0"
turns:
  - role: "agent"
    intent: "greeting_and_needs_assessment"
    pattern: "[AGENT_GREETING] + [NEEDS_QUESTION]"
    expected_entities: ["vehicle_type", "budget_range"]
  - role: "client"
    intent: "express_requirements"
    pattern: "[REQUIREMENTS_STATEMENT]"
    provides: ["vehicle_type", "budget_range", "timeline"]
  - role: "agent"
    intent: "present_options"
    pattern: "[OPTION_PRESENTATION] based on {vehicle_type} and {budget_range}"
    references: ["vehicle_type", "budget_range"]
metadata:
  avg_turns: 12
  complexity: "medium"
  requires_product_knowledge: true
  regulatory_context: ["consumer_protection", "financing_disclosure"]

Características de un Seed de Alta Calidad

Un seed bien construido tiene estas propiedades:

PropiedadDescripciónPor qué importa
Zero PIISin información identificableCumplimiento de privacidad
Fidelidad de dominioRepresenta el dominio con precisiónLas conversaciones generadas son realistas
Riqueza de patronesCaptura rutas de interacción diversasDiversidad en los datos de entrenamiento
ComponibilidadPuede combinarse con otros seedsGeneración de datos exponencial
VersionadoSeedSchema v1 con soporte de migraciónReproducibilidad garantizada

El Efecto Volante

Los seeds crean un ciclo virtuoso:

  1. Conversaciones reales → abstraídas en seeds (proceso único, sin riesgos de privacidad)
  2. Seeds → generan miles de conversaciones sintéticas
  3. Conversaciones sintéticas → hacen fine-tuning de modelos de dominio
  4. Modelos de dominio → se despliegan en producción
  5. Interacciones en producción → generan nuevos seeds (el ciclo se repite)

Cada iteración mejora la calidad de los seeds, lo que mejora la calidad de los datos sintéticos, lo que mejora el rendimiento del modelo. Un volante que se retroalimenta y se acelera con el tiempo.

Paquetes de Seeds Curados

UNCASE incluye 150 seeds curados distribuidos en tres dominios:

  • Ventas automotrices (50 seeds): consulta de vehículos, agendamiento de pruebas de manejo, análisis de financiamiento, evaluación de vehículo en parte de pago, coordinación de entrega
  • Consulta médica (50 seeds): evaluación de síntomas, discusión de tratamiento, revisión de medicación, proceso de derivación, agendamiento de seguimiento
  • Asesoramiento financiero (50 seeds): consulta de inversiones, evaluación de riesgo, planificación de retiro, revisión de seguros, divulgación de cumplimiento normativo
# Instalar y usar seeds curados
uncase seed list --domain automotive.sales
uncase generate --seed-package automotive.sales --count 1000

Creación de Seeds Propios

Las organizaciones pueden crear sus propios seeds a partir de sus conversaciones reales:

from uncase import SeedEngine, Pipeline

engine = SeedEngine()

# Procesar un lote de conversaciones reales
seeds = engine.process_batch(
    conversations=load_conversations("./data/"),
    domain="medical.consultation",
    min_quality=0.70,  # Umbral mínimo de calidad del seed
)

print(f"Created {len(seeds)} seeds from {len(conversations)} conversations")

# Usar los seeds para generar datos sintéticos
pipeline = Pipeline()
synthetic = pipeline.generate(seeds=seeds, count=5000)

Conclusiones Clave

  1. Los seeds son planos abstractos — capturan patrones, no datos
  2. El proceso de abstracción es irreversible — no es posible reconstruir la conversación original a partir de un seed
  3. Entre 50 y 200 seeds son suficientes para generar miles de conversaciones sintéticas de alta calidad
  4. Los seeds se pueden compartir sin riesgos — la ausencia de PII elimina cualquier exposición de privacidad en su distribución
  5. El efecto volante hace que la calidad se compound con el tiempo a medida que se crean más seeds a partir de interacciones en producción

Comienza a Construir IA Privacy-First Hoy

Despliega el pipeline completo, conecta tus fuentes de datos, enruta a cualquier proveedor LLM y produce adaptadores LoRA conformes — todo sin exponer un solo dato.

0%PII en datos finales
0+Endpoints de API
0Industrias reguladas
0+Tests pasando