La Prueba

Esto no es un pitch. Es un resultado publicado.

Un modelo abierto de nueve mil millones de parámetros — Qwen 3.5, afinado con QDoRA sobre datos de interacciones farmacológicas de calidad experta y aumentado con recuperación sobre etiquetas de medicamentos aprobadas por la FDA — supera a GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en la identificación de mecanismos farmacológicos.

Identifica el 92% de los mecanismos de interacción farmacológica. GPT-5.4 identifica el 69%. Costo total: diez dólares.

La afirmación.

Afirmamos: Un modelo pequeño, abierto y entrenado por expertos con recuperación sobre datos autorizados de la FDA identifica mecanismos de interacción farmacológica con mayor precisión que los modelos de frontera — mientras cita su evidencia. No IA que reemplace al farmacéutico. IA en la que el farmacéutico puede confiar.

NO afirmamos: Un modelo de 9B supera a los modelos de frontera en conocimiento general, escritura creativa o cualquier tarea fuera de su dominio entrenado.

La afirmación es estrecha y específica. Eso es lo que la hace creíble — y generalizable, porque el mecanismo (entrenamiento por expertos + recuperación estructurada) aplica a cualquier dominio profesional intensivo en conocimiento.

Los resultados.

Modelo	Recall de Mecanismos	Precisión de Gravedad	Manejo	Citaciones	Configuración
Qwen 3.5 9B + QDoRA + RAG	0.917	0.400	100%	90%	Afinado, recuperación sobre etiquetas FDA
GPT-5.4	0.692	0.900	100%	0%	Configuración predeterminada
Claude Opus 4.6	0.825	0.700	100%	50%	Configuración predeterminada
Gemini 3.1 Pro	0.892	0.700	100%	100%	Configuración predeterminada

10 escenarios de interacción farmacológica reservados de DrugBank, evaluados contra la verdad de referencia. Modelos de frontera probados vía API de OpenRouter. Nuestro modelo se ejecuta localmente en una MacBook Air (cuantización Q4, 5.2 GB).

Nuestro modelo logra el mayor recall de mecanismos y es el único que cita consistentemente evidencia autorizada (90%) Y proporciona recomendaciones de manejo (100%). GPT-5.4 gana en clasificación de gravedad pero nunca cita fuentes — en la práctica clínica, una respuesta sin fuentes no es accionable.

Lo que costó.

Fase	Costo
Datos de entrenamiento (4,573 evaluaciones de interacciones clínicas)	~$8
Afinamiento (QDoRA, 3 épocas, A100, 54 minutos)	~$1.30
Corpus RAG (757 etiquetas de medicamentos FDA, 5,622 pasajes)	gratis
Benchmarking (comparación de modelos de frontera vía OpenRouter)	~$1
Total	~$10

La capa de afinamiento — donde reside la experiencia profesional — cuesta diez dólares. Compare esto con los costos de entrenamiento de modelos de frontera: cientos de millones por ejecución.

Reprodúzcalo.

Todo el código está en scripts/ai-poc/ en nuestro repositorio de código abierto:

fetch_drugbank.py — descargar pares de interacciones farmacológicas de DrugBank
fetch_openfda_interactions.py — obtener texto de etiquetas de medicamentos FDA (gratis, sin autenticación)
build_retrieval_index.py — construir índice vectorial FAISS sobre texto clínico FDA
generate_raft_pairs.py — generar pares de entrenamiento estructurados por expertos (~$8)
export_training.py — exportar como JSONL con división entrenamiento/validación/prueba
train.sh — afinamiento QDoRA en GPU en la nube (~$1.30)
merge_weights.py — fusionar pesos del adaptador para inferencia rápida
benchmark_local.py — comparación completa contra modelos de frontera

Tiempo total: aproximadamente un día. Costo total: aproximadamente diez dólares.

Si puede demostrar que estamos equivocados, hágalo. Publicamos el código porque queremos que lo intente.

Preguntas difíciles. Respuestas honestas.

Si está leyendo hasta aquí, es el tipo de persona que no se une a cosas fácilmente. Bien. No buscamos entusiasmo. Buscamos juicio.

"¿Por qué contribuirían los expertos?"

Ingresos. El 95% de los ingresos de consumidores fluye hacia los expertos. Los miembros del Gremio obtienen acceso completo a la IA por $5 en vez de $20.

IA que trabaja para ellos. Entrenada por expertos verificados en su campo, con recuperación sobre las bases de datos que usted realmente usa.

Diez minutos, no un cambio de carrera. Contribución mínima: un juicio de sí/no de cinco segundos.

"¿Por qué $5/mes? ¿Por qué no gratis?"

Cobramos $5 para no tener que tomar nunca capital de riesgo. Ningún inversor permitiría que el 95% fluya hacia los contribuyentes. Ningún inversor aceptaría una constitución que prohíbe el diseño de reemplazo laboral. Los $5 son el precio de la independencia.

Contribuir es gratis — cualquiera puede registrarse y hacer revisiones rápidas. La membresía del Gremio ($5/mes) desbloquea herramientas de revisión completas, acceso a IA y participación en ingresos.

"95% para los expertos — ¿cómo es eso sostenible?"

Dos fuentes de ingresos. Las cuotas del Gremio ($5/mes por experto) financian al equipo principal. La empresa también recibe el 5% de los ingresos de consumidores. La Constitución lo garantiza — la empresa no puede aumentar su participación más allá del 5% sin un voto de supermayoría de los miembros del Gremio. Los costos de infraestructura se publican mensualmente.

"¿Qué puede hacer esto que ChatGPT no puede?"

Cinco cosas que ningún modelo de frontera puede garantizar:

Atribución de fuente. Cada afirmación se traza hasta un experto identificado que la verificó.
Cómputo determinista. Tramos fiscales, dosis de medicamentos, códigos de construcción — calculados, no predichos.
Validez temporal. Las unidades expiran cuando la ley cambia. Los LLM citan con confianza las reglas del año pasado.
Especificidad jurisdiccional. La ley fiscal checa no es la ley fiscal alemana. Un modelo no puede servir a ambas.
Consentimiento y compensación. Cada experto que contribuyó está identificado, consintió y es compensado.

"¿Y si los modelos de frontera simplemente mejoran?"

La brecha es arquitectónica, no una ventaja de rendimiento. Los modelos de frontera predicen cómo se ven las respuestas. Nosotros compilamos cómo razonan realmente los profesionales — en unidades verificadas que se ejecutan de forma determinista. Un modelo de frontera puede mejorar en adivinar el cálculo fiscal correcto. Nuestro sistema ejecuta el cálculo fiscal. Eso es una propiedad estructural, no una ventaja que se erosiona.

El modelo base mejora — lo incorporamos. El razonamiento experto es la ventaja competitiva, no los pesos del modelo.

"¿Qué profesiones NO cubren?"

Deliberadamente: ingeniería de software, ciencia de datos, diseño, consultoría de gestión, trabajo creativo. Estas son donde los LLM ya funcionan bien. Nosotros construimos para las 124 profesiones donde la IA es más débil — densas en reglas, específicas por jurisdicción, de alto riesgo.

"¿Cómo previenen el abuso?"

Tres capas: detección automatizada de anomalías (duplicados, anomalías de volumen, plagio), revisión de pares (cada contribución revisada por 2+ profesionales verificados) y verificación de credenciales (licencia, certificación o título — revisado por el comité de gobernanza del dominio). El volumen sin calidad no genera nada.

"Esto suena a cripto."

Sin token. Sin blockchain. Sin especulación. Los puntos son permanentes, intransferibles, no comercializables. Reflejan contribución profesional verificada, no una posición para vender. $5/mes para expertos. $20/mes para consumidores. Costos transparentes. Protecciones constitucionales.

"Una persona no puede construir esto."

Una persona lo inició. La Constitución asegura que ninguna persona lo controle. Las comunidades de expertos gobiernan sus dominios. Las restricciones constitucionales previenen la captura independientemente de quién dirija la empresa.

¿Aún no está convencido? Lea la Constitución — es el camino más corto para saber si lo decimos en serio.

Contribuya gratis · Únase al Gremio — $5/mes