Der Beweis

Das ist kein Pitch. Es ist ein veröffentlichtes Ergebnis.

Ein Neun-Milliarden-Parameter offenes Modell — Qwen 3.5, feinabgestimmt mit QDoRA auf expertenqualitativen Arzneimittelwechselwirkungsdaten und ergänzt durch Retrieval über FDA-zugelassene Arzneimitteletiketten — übertrifft GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro bei der Identifikation pharmakologischer Mechanismen.

Es identifiziert 92% der Arzneimittelwechselwirkungsmechanismen. GPT-5.4 identifiziert 69%. Gesamtkosten: zehn Dollar.

Die Behauptung.

Wir behaupten: Ein kleines, offenes, von Experten trainiertes Modell mit Retrieval über maßgebliche FDA-Daten identifiziert Arzneimittelwechselwirkungsmechanismen genauer als Frontier-Modelle — und zitiert dabei seine Belege. Nicht KI, die den Apotheker ersetzt. KI, der der Apotheker vertrauen kann.

Wir behaupten NICHT: Ein 9B-Modell schlägt Frontier-Modelle bei Allgemeinwissen, kreativem Schreiben oder irgendeiner Aufgabe außerhalb seiner trainierten Domäne.

Die Behauptung ist eng und spezifisch. Genau das macht sie glaubwürdig — und verallgemeinerbar, weil der Mechanismus (Expertentraining + strukturiertes Retrieval) auf jede wissensintensive professionelle Domäne anwendbar ist.

Die Ergebnisse.

Modell	Mechanismus-Recall	Schweregrad-Genauigkeit	Management	Quellenangaben	Konfiguration
Qwen 3.5 9B + QDoRA + RAG	0,917	0,400	100%	90%	Feinabgestimmt, Retrieval über FDA-Etiketten
GPT-5.4	0,692	0,900	100%	0%	Standardkonfiguration
Claude Opus 4.6	0,825	0,700	100%	50%	Standardkonfiguration
Gemini 3.1 Pro	0,892	0,700	100%	100%	Standardkonfiguration

10 zurückgehaltene Arzneimittelwechselwirkungsszenarien aus DrugBank, evaluiert gegen Ground Truth. Frontier-Modelle getestet über OpenRouter API. Unser Modell läuft lokal auf einem MacBook Air (Q4-quantisiert, 5,2 GB).

Unser Modell erzielt den höchsten Mechanismus-Recall und ist das einzige, das durchgehend maßgebliche Belege zitiert (90%) UND Therapieempfehlungen gibt (100%). GPT-5.4 gewinnt bei der Schweregradklassifikation, zitiert aber nie Quellen — in der klinischen Praxis ist eine quellenlose Antwort nicht verwertbar.

Was es gekostet hat.

Phase	Kosten
Trainingsdaten (4.573 klinische Wechselwirkungsbewertungen)	~$8
Feinabstimmung (QDoRA, 3 Epochen, A100, 54 Minuten)	~$1,30
RAG-Korpus (757 FDA-Arzneimitteletiketten, 5.622 Passagen)	kostenlos
Benchmarking (Frontier-Modellvergleich via OpenRouter)	~$1
Gesamt	~$10

Die Feinabstimmungsschicht — wo professionelles Fachwissen lebt — kostet zehn Dollar. Vergleichen Sie das mit Frontier-Modell-Trainingskosten: Hunderte Millionen pro Durchlauf.

Reproduzieren Sie es.

Der gesamte Code befindet sich unter scripts/ai-poc/ in unserem Open-Source-Repository:

fetch_drugbank.py — Arzneimittelwechselwirkungspaare von DrugBank herunterladen
fetch_openfda_interactions.py — FDA-Arzneimitteletikettentext abrufen (kostenlos, ohne Authentifizierung)
build_retrieval_index.py — FAISS-Vektorindex über klinischen FDA-Text erstellen
generate_raft_pairs.py — Expertenstrukturierte Trainingspaare generieren (~$8)
export_training.py — Als JSONL mit Train/Validation/Test-Split exportieren
train.sh — QDoRA-Feinabstimmung auf Cloud-GPU (~$1,30)
merge_weights.py — Adapter-Gewichte für schnelle Inferenz zusammenführen
benchmark_local.py — Vollständiger Vergleich mit Frontier-Modellen

Gesamtdauer: ungefähr ein Tag. Gesamtkosten: ungefähr zehn Dollar.

Wenn Sie uns widerlegen können, tun Sie es. Wir veröffentlichen den Code, weil wir wollen, dass Sie es versuchen.

Schwierige Fragen. Ehrliche Antworten.

Wenn Sie so weit lesen, sind Sie jemand, der nicht leichtfertig beitritt. Gut. Wir suchen keine Begeisterung. Wir suchen Urteilsvermögen.

„Warum sollten Experten beitragen?"

Einnahmen. 95% der Verbrauchereinnahmen fließen an Experten. Gildenmitglieder erhalten vollen KI-Zugang für $5 statt $20.

KI, die für sie arbeitet. Trainiert von verifizierten Experten in Ihrem Fachgebiet, mit Retrieval über die Datenbanken, die Sie tatsächlich nutzen.

Zehn Minuten, kein Karrierewechsel. Mindestbeitrag: eine fünf Sekunden dauernde Ja/Nein-Beurteilung.

„Warum $5/Monat? Warum nicht kostenlos?"

Wir verlangen $5, damit wir nie Risikokapital aufnehmen müssen. Kein Investor würde erlauben, dass 95% an Beitragende fließen. Kein Investor würde eine Verfassung akzeptieren, die Arbeitsersatz-Design verbietet. Die $5 sind der Preis der Unabhängigkeit.

Beitragen ist kostenlos — jeder kann sich registrieren und Schnellprüfungen durchführen. Gildenmitgliedschaft ($5/Monat) schaltet die vollständigen Prüfwerkzeuge, KI-Zugang und Umsatzbeteiligung frei.

„95% an Experten — wie ist das nachhaltig?"

Zwei Einnahmequellen. Gildenbeiträge ($5/Monat pro Experte) finanzieren das Kernteam. Das Unternehmen erhält außerdem 5% der Verbrauchereinnahmen. Die Verfassung garantiert es — das Unternehmen kann seinen Anteil nicht über 5% hinaus erhöhen ohne eine qualifizierte Mehrheit der Gildenmitglieder. Infrastrukturkosten werden monatlich veröffentlicht.

„Was kann das, was ChatGPT nicht kann?"

Fünf Dinge, die kein Frontier-Modell garantieren kann:

Quellenzuordnung. Jede Aussage lässt sich auf einen namentlich genannten Experten zurückverfolgen, der sie verifiziert hat.
Deterministische Berechnung. Steuerstufen, Arzneimitteldosen, Bauvorschriften — berechnet, nicht vorhergesagt.
Zeitliche Gültigkeit. Einheiten verfallen, wenn sich das Gesetz ändert. LLMs zitieren selbstbewusst die Regeln vom letzten Jahr.
Jurisdiktionsspezifität. Tschechisches Steuerrecht ist nicht deutsches Steuerrecht. Ein Modell kann nicht beides bedienen.
Zustimmung und Vergütung. Jeder Experte, der beigetragen hat, ist namentlich genannt, hat zugestimmt und wird bezahlt.

„Was, wenn Frontier-Modelle einfach besser werden?"

Die Kluft ist architektonisch, kein Leistungsvorsprung. Frontier-Modelle sagen vorher, wie Antworten aussehen. Wir kompilieren, wie Fachleute tatsächlich denken — in verifizierte Einheiten, die deterministisch ausgeführt werden. Ein Frontier-Modell kann besser darin werden, die richtige Steuerberechnung zu erraten. Unser System führt die Steuerberechnung aus. Das ist eine strukturelle Eigenschaft, kein Vorsprung, der erodiert.

Das Basismodell wird besser — wir tauschen es ein. Das Expertenwissen ist der Graben, nicht die Modellgewichte.

„Welche Berufe decken Sie NICHT ab?"

Bewusst: Softwareentwicklung, Data Science, Design, Unternehmensberatung, Kreativarbeit. Das sind Bereiche, in denen LLMs bereits gut funktionieren. Wir bauen für die 124 Berufe, in denen KI am schwächsten ist — regelintensiv, jurisdiktionsspezifisch, mit hohen Anforderungen.

„Wie verhindern Sie Missbrauch?"

Drei Ebenen: Automatische Anomalieerkennung (Duplikate, Volumenanomalien, Plagiate), Peer-Review (jeder Beitrag wird von 2+ verifizierten Fachleuten geprüft) und Qualifikationsverifizierung (Lizenz, Zertifizierung oder Abschluss — geprüft vom Domänen-Governance-Ausschuss). Volumen ohne Qualität bringt nichts.

„Das klingt nach Krypto."

Kein Token. Keine Blockchain. Keine Spekulation. Punkte sind dauerhaft, nicht übertragbar, nicht handelbar. Sie spiegeln verifizierte professionelle Beiträge wider, keine Position zum Verkauf. $5/Monat für Experten. $20/Monat für Verbraucher. Transparente Kosten. Verfassungsmäßiger Schutz.

„Eine Person kann das nicht aufbauen."

Eine Person hat es begonnen. Die Verfassung stellt sicher, dass keine einzelne Person es kontrolliert. Expertengemeinden regieren ihre Domänen. Verfassungsmäßige Beschränkungen verhindern eine Vereinnahmung, unabhängig davon, wer das Unternehmen führt.

Noch nicht überzeugt? Lesen Sie die Verfassung — sie ist der kürzeste Weg herauszufinden, ob wir es ernst meinen.

Kostenlos beitragen · Der Gilde beitreten — $5/Monat