What is a seed in the SCSF framework?

A seed is an abstract template derived from a real conversation. It captures the conversational structure, domain patterns, and interaction dynamics while containing zero personally identifiable information.

How many seeds do I need for fine-tuning?

For domain-specific fine-tuning, 50-200 high-quality seeds can generate thousands of synthetic conversations. UNCASE ships with 150 curated seeds across automotive, medical, and finance domains.

Can seeds be shared across organizations?

Yes. Because seeds contain no PII and represent abstract conversational patterns, they can be safely shared, published, and collaboratively improved without privacy concerns.

Seed Engineering: De Conversaciones Reales a Templates Abstractos

Cómo el Seed Engine de la Capa 0 del SCSF transforma conversaciones reales en templates de seeds reutilizables y libres de PII para la generación de datos sintéticos.

ArchitectureSCSFSeed EngineData Pipeline

Escrito porMariano Morales

Tiempo de lectura8 min

Publicado el25 de enero de 2026

Architecture

Seed Engineering: De Conversaciones Reales a Templates Abstractos

¿Qué es el Seed Engineering?

El seed engineering es el proceso de destilar conversaciones reales en templates abstractos y reutilizables que capturan la expertise de un dominio sin contener ningún dato personal identificable. Es el paso fundacional —la Capa 0— del SCSF (Synthetic Conversation Seed Framework).

La analogía más precisa es la de los planos arquitectónicos: el plano captura la estructura, las proporciones y la intención de diseño de un edificio sin revelar información alguna sobre quiénes lo habitan.

El Proceso de Abstracción

Paso 1: Ingesta de Conversaciones

El Seed Engine acepta conversaciones en múltiples formatos:

from uncase.core.seed_engine import SeedEngine

engine = SeedEngine()

# Desde exportación de WhatsApp
seeds = engine.ingest("chat_export.txt", format="whatsapp")

# Desde sistema CRM
seeds = engine.ingest("crm_tickets.json", format="json")

# Desde transcripciones de llamadas
seeds = engine.ingest("transcription.vtt", format="vtt")

Paso 2: Eliminación de PII

Toda entidad que pueda identificar a una persona real, una organización o una ubicación es detectada y eliminada. Esto se logra mediante el enfoque de doble motor (Presidio + SpaCy NER) que describimos en detalle en nuestro artículo sobre Zero PII.

Paso 3: Extracción de Patrones

El motor identifica los patrones conversacionales que hacen que esa interacción sea específica del dominio:

Estructura de turnos: quién habla, en qué orden, durante cuánto tiempo
Flujo de información: qué preguntas se formulan, qué datos se intercambian
Puntos de decisión: dónde la conversación se bifurca según las respuestas
Terminología del dominio: términos técnicos, procedimientos, referencias regulatorias
Dinámica emocional: cambios de tono, patrones de escalada, enfoques de resolución

Paso 4: Generación del Template

El seed final es un template estructurado en formato SeedSchema v1:

seed_id: "auto-sales-001"
domain: "automotive.sales"
version: "1.0"
turns:
  - role: "agent"
    intent: "greeting_and_needs_assessment"
    pattern: "[AGENT_GREETING] + [NEEDS_QUESTION]"
    expected_entities: ["vehicle_type", "budget_range"]
  - role: "client"
    intent: "express_requirements"
    pattern: "[REQUIREMENTS_STATEMENT]"
    provides: ["vehicle_type", "budget_range", "timeline"]
  - role: "agent"
    intent: "present_options"
    pattern: "[OPTION_PRESENTATION] based on {vehicle_type} and {budget_range}"
    references: ["vehicle_type", "budget_range"]
metadata:
  avg_turns: 12
  complexity: "medium"
  requires_product_knowledge: true
  regulatory_context: ["consumer_protection", "financing_disclosure"]

Características de un Seed de Alta Calidad

Un seed bien construido tiene estas propiedades:

Propiedad	Descripción	Por qué importa
Zero PII	Sin información identificable	Cumplimiento de privacidad
Fidelidad de dominio	Representa el dominio con precisión	Las conversaciones generadas son realistas
Riqueza de patrones	Captura rutas de interacción diversas	Diversidad en los datos de entrenamiento
Componibilidad	Puede combinarse con otros seeds	Generación de datos exponencial
Versionado	SeedSchema v1 con soporte de migración	Reproducibilidad garantizada

El Efecto Volante

Los seeds crean un ciclo virtuoso:

Conversaciones reales → abstraídas en seeds (proceso único, sin riesgos de privacidad)
Seeds → generan miles de conversaciones sintéticas
Conversaciones sintéticas → hacen fine-tuning de modelos de dominio
Modelos de dominio → se despliegan en producción
Interacciones en producción → generan nuevos seeds (el ciclo se repite)

Cada iteración mejora la calidad de los seeds, lo que mejora la calidad de los datos sintéticos, lo que mejora el rendimiento del modelo. Un volante que se retroalimenta y se acelera con el tiempo.

Paquetes de Seeds Curados

UNCASE incluye 150 seeds curados distribuidos en tres dominios:

Ventas automotrices (50 seeds): consulta de vehículos, agendamiento de pruebas de manejo, análisis de financiamiento, evaluación de vehículo en parte de pago, coordinación de entrega
Consulta médica (50 seeds): evaluación de síntomas, discusión de tratamiento, revisión de medicación, proceso de derivación, agendamiento de seguimiento
Asesoramiento financiero (50 seeds): consulta de inversiones, evaluación de riesgo, planificación de retiro, revisión de seguros, divulgación de cumplimiento normativo

# Instalar y usar seeds curados
uncase seed list --domain automotive.sales
uncase generate --seed-package automotive.sales --count 1000

Creación de Seeds Propios

Las organizaciones pueden crear sus propios seeds a partir de sus conversaciones reales:

from uncase import SeedEngine, Pipeline

engine = SeedEngine()

# Procesar un lote de conversaciones reales
seeds = engine.process_batch(
    conversations=load_conversations("./data/"),
    domain="medical.consultation",
    min_quality=0.70,  # Umbral mínimo de calidad del seed
)

print(f"Created {len(seeds)} seeds from {len(conversations)} conversations")

# Usar los seeds para generar datos sintéticos
pipeline = Pipeline()
synthetic = pipeline.generate(seeds=seeds, count=5000)

Conclusiones Clave

Los seeds son planos abstractos — capturan patrones, no datos
El proceso de abstracción es irreversible — no es posible reconstruir la conversación original a partir de un seed
Entre 50 y 200 seeds son suficientes para generar miles de conversaciones sintéticas de alta calidad
Los seeds se pueden compartir sin riesgos — la ausencia de PII elimina cualquier exposición de privacidad en su distribución
El efecto volante hace que la calidad se compound con el tiempo a medida que se crean más seeds a partir de interacciones en producción

Post anterior

Siguiente post

Posts Relacionados

Sigue explorando con estos análisis técnicos relacionados.

Multi-Format Data Parsing for Conversational AI Training

15 de enero de 2026

Architecture

Multi-Format Data Parsing for Conversational AI Training

How UNCASE Layer 1 handles WhatsApp exports, CRM logs, JSON transcriptions, and more — unifying diverse conversation formats into a standardized schema.

$Differential Privacy in LLM Training: Theory and Practice$

05 de febrero de 2026

Privacy

Differential Privacy in LLM Training: Theory and Practice

Understanding DP-SGD, privacy budgets, and how to train language models with mathematical privacy guarantees for healthcare and financial applications.

12 de febrero de 2026

Data Quality

Synthetic Data Quality Metrics: ROUGE-L, TTR, and Fidelity Explained

A deep dive into the quality metrics used to evaluate synthetic conversational data — ROUGE-L for coherence, Type-Token Ratio for diversity, and factual fidelity.

Comienza a Construir IA Privacy-First Hoy

Despliega el pipeline completo, conecta tus fuentes de datos, enruta a cualquier proveedor LLM y produce adaptadores LoRA conformes — todo sin exponer un solo dato.

0%PII en datos finales

0+Endpoints de API

0Industrias reguladas

0+Tests pasando

Ver en GitHubGitHub

Leer el WhitepaperWhitepaper

Leer la DocumentaciónDocs