A Prova

Benchmark publicado. $10. Todas as perguntas difíceis respondidas.

8 min read

Isso não é um pitch. É um resultado publicado.

Um modelo aberto de nove bilhões de parâmetros — Qwen 3.5, ajustado com QDoRA em dados de interação medicamentosa de qualidade especializada e aumentado com recuperação sobre bulas de medicamentos aprovadas pela FDA — supera GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro na identificação de mecanismos farmacológicos.

Ele identifica 92% dos mecanismos de interação medicamentosa. O GPT-5.4 identifica 69%. Custo total: dez dólares.


A afirmação.

Estamos afirmando: Um modelo pequeno, aberto, treinado por especialistas, com recuperação sobre dados oficiais da FDA, identifica mecanismos de interação medicamentosa com mais precisão do que modelos de fronteira — citando suas evidências. Não é IA que substitui o farmacêutico. É IA em que o farmacêutico pode confiar.

NÃO estamos afirmando: Um modelo de 9B supera modelos de fronteira em conhecimento geral, escrita criativa ou qualquer tarefa fora do domínio treinado.

A afirmação é estreita e específica. É isso que a torna crível — e generalizável, porque o mecanismo (treinamento por especialistas + recuperação estruturada) se aplica a qualquer domínio profissional intensivo em conhecimento.


Os resultados.

ModeloRecall de MecanismoPrecisão de SeveridadeManejoCitaçõesConfiguração
Qwen 3.5 9B + QDoRA + RAG0,9170,400100%90%Ajustado, recuperação sobre bulas FDA
GPT-5.40,6920,900100%0%Configuração padrão
Claude Opus 4.60,8250,700100%50%Configuração padrão
Gemini 3.1 Pro0,8920,700100%100%Configuração padrão

10 cenários de interação medicamentosa reservados do DrugBank, avaliados contra verdade de referência. Modelos de fronteira testados via API OpenRouter. Nosso modelo roda localmente em um MacBook Air (quantizado Q4, 5,2 GB).

Nosso modelo alcança o maior recall de mecanismo e é o único que consistentemente cita evidências de autoridade (90%) E fornece recomendações de manejo (100%). O GPT-5.4 vence na classificação de severidade, mas nunca cita fontes — na prática clínica, uma resposta sem fonte não é acionável.


Quanto custou.

FaseCusto
Dados de treinamento (4.573 avaliações de interação clínica)~$8
Ajuste fino (QDoRA, 3 épocas, A100, 54 minutos)~$1,30
Corpus RAG (757 bulas FDA, 5.622 passagens)grátis
Benchmarking (comparação com modelos de fronteira via OpenRouter)~$1
Total~$10

A camada de ajuste fino — onde vive a expertise profissional — custa dez dólares. Compare com os custos de treinamento de modelos de fronteira: centenas de milhões por rodada.


Reproduza.

Todo o código está em scripts/ai-poc/ no nosso repositório open-source:

  1. fetch_drugbank.py — baixar pares de interação medicamentosa do DrugBank
  2. fetch_openfda_interactions.py — buscar texto de bulas FDA (grátis, sem autenticação)
  3. build_retrieval_index.py — construir índice vetorial FAISS sobre texto clínico FDA
  4. generate_raft_pairs.py — gerar pares de treinamento estruturados por especialistas (~$8)
  5. export_training.py — exportar como JSONL com divisão treino/validação/teste
  6. train.sh — ajuste fino QDoRA em GPU na nuvem (~$1,30)
  7. merge_weights.py — mesclar pesos do adaptador para inferência rápida
  8. benchmark_local.py — comparação completa contra modelos de fronteira

Tempo total de execução: aproximadamente um dia. Custo total: aproximadamente dez dólares.

Se você puder provar que estamos errados, prove. Publicamos o código porque queremos que você tente.


Perguntas difíceis. Respostas honestas.

Se você leu até aqui, você é o tipo de pessoa que não entra em coisas facilmente. Ótimo. Não estamos buscando entusiasmo. Estamos buscando julgamento.


"Por que especialistas contribuiriam?"

Receita. 95% da receita de consumidores vai para especialistas. Membros da Guilda têm acesso completo à IA por $5 ao invés de $20.

IA que trabalha para eles. Treinada por especialistas verificados na sua área, com recuperação sobre os bancos de dados que você realmente usa.

Dez minutos, não uma mudança de carreira. Contribuição mínima: um julgamento sim/não de cinco segundos.


"Por que $5/mês? Por que não grátis?"

Cobramos $5 para nunca precisarmos captar capital de risco. Nenhum investidor permitiria que 95% fosse para os contribuidores. Nenhum investidor aceitaria uma constituição que proíbe design de substituição do trabalho. Os $5 são o preço da independência.

Contribuir é gratuito — qualquer pessoa pode se registrar e fazer revisões rápidas. A associação à Guilda ($5/mês) desbloqueia ferramentas completas de revisão, acesso à IA e participação na receita.


"95% para especialistas — como isso é sustentável?"

Duas fontes de receita. Taxas da Guilda ($5/mês por especialista) financiam a equipe principal. A empresa também recebe 5% da receita de consumidores. A Constituição garante — a empresa não pode aumentar sua parcela além de 5% sem voto de supermaioria dos membros da Guilda. Custos de infraestrutura são publicados mensalmente.


"O que isso pode fazer que o ChatGPT não pode?"

Cinco coisas que nenhum modelo de fronteira pode garantir:

  1. Atribuição de fonte. Cada afirmação rastreia até um especialista identificado que a verificou.
  2. Computação determinística. Faixas de imposto, doses de medicamento, códigos de construção — computados, não previstos.
  3. Validade temporal. Unidades expiram quando a lei muda. LLMs citam com confiança as regras do ano passado.
  4. Especificidade jurisdicional. A legislação tributária tcheca não é a legislação tributária alemã. Um modelo não pode atender ambas.
  5. Consentimento e remuneração. Todo especialista que contribuiu é identificado, consentiu e é pago.

"E se os modelos de fronteira simplesmente melhorarem?"

A diferença é arquitetural, não uma vantagem de desempenho. Modelos de fronteira preveem como as respostas parecem. Nós compilamos como profissionais realmente raciocinam — em unidades verificadas que executam deterministicamente. Um modelo de fronteira pode melhorar em adivinhar o cálculo tributário correto. Nosso sistema executa o cálculo tributário. Essa é uma propriedade estrutural, não uma vantagem que se desgasta.

O modelo base melhora — nós o substituímos. O raciocínio especializado é o fosso, não os pesos do modelo.


"Quais profissões vocês NÃO cobrem?"

Deliberadamente: engenharia de software, ciência de dados, design, consultoria de gestão, trabalho criativo. São áreas onde LLMs já funcionam bem. Construímos para as 124 profissões onde a IA é mais fraca — densas em regras, específicas por jurisdição, de alto risco.


"Como vocês previnem manipulação?"

Três camadas: detecção automatizada de anomalias (duplicatas, anomalias de volume, plágio), revisão por pares (cada contribuição revisada por 2+ profissionais verificados) e verificação de credenciais (licença, certificação ou diploma — revisado pelo comitê de governança do domínio). Volume sem qualidade não rende nada.


"Isso parece cripto."

Sem token. Sem blockchain. Sem especulação. Pontos são permanentes, intransferíveis, não negociáveis. Eles refletem contribuição profissional verificada, não uma posição para vender. $5/mês para especialistas. $20/mês para consumidores. Custos transparentes. Proteções constitucionais.


"Uma pessoa não pode construir isso."

Uma pessoa começou. A Constituição garante que nenhuma pessoa controle. Comunidades de especialistas governam seus domínios. Restrições constitucionais previnem captura independentemente de quem comande a empresa.


Ainda não está convencido? Leia a Constituição — é o caminho mais curto para saber se falamos sério.

Contribua gratuitamente · Entre para a Guilda — $5/mês