Buktinya

Benchmark yang dipublikasikan. $10. Setiap pertanyaan sulit dijawab.

8 min read

Ini bukan pitch. Ini adalah hasil yang dipublikasikan.

Sebuah model terbuka dengan sembilan miliar parameter — Qwen 3.5, yang di-fine-tune dengan QDoRA pada data interaksi obat berkualitas pakar dan diperkuat dengan retrieval atas label obat yang disetujui FDA — mengungguli GPT-5.4, Claude Opus 4.6, dan Gemini 3.1 Pro dalam identifikasi mekanisme farmakologis.

Ia mengidentifikasi 92% mekanisme interaksi obat. GPT-5.4 mengidentifikasi 69%. Biaya total: sepuluh dolar.


Klaimnya.

Kami mengklaim: Sebuah model kecil, terbuka, terlatih-oleh-pakar dengan retrieval atas data FDA yang otoritatif mengidentifikasi mekanisme interaksi obat lebih akurat daripada model frontier — sambil mengutip buktinya. Bukan AI yang menggantikan apoteker. AI yang bisa dipercaya apoteker.

Kami TIDAK mengklaim: Sebuah model 9B mengalahkan model frontier dalam pengetahuan umum, penulisan kreatif, atau tugas apa pun di luar domain terlatihnya.

Klaim ini sempit dan spesifik. Itulah yang membuatnya kredibel — dan dapat digeneralisasi, karena mekanismenya (pelatihan pakar + retrieval terstruktur) berlaku untuk domain profesional intensif-pengetahuan apa pun.


Hasilnya.

ModelMechanism RecallSeverity AccuracyManagementCitationsKonfigurasi
Qwen 3.5 9B + QDoRA + RAG0,9170,400100%90%Fine-tuned, retrieval atas label FDA
GPT-5.40,6920,900100%0%Konfigurasi default
Claude Opus 4.60,8250,700100%50%Konfigurasi default
Gemini 3.1 Pro0,8920,700100%100%Konfigurasi default

10 skenario interaksi obat held-out dari DrugBank, dievaluasi terhadap ground truth. Model frontier diuji melalui OpenRouter API. Model kami berjalan secara lokal di MacBook Air (kuantisasi Q4, 5,2 GB).

Model kami mencapai mechanism recall tertinggi dan satu-satunya yang secara konsisten mengutip bukti otoritatif (90%) DAN menyediakan rekomendasi pengelolaan (100%). GPT-5.4 menang dalam klasifikasi severitas tetapi tidak pernah mengutip sumber — dalam praktik klinis, jawaban tanpa sumber tidak dapat ditindaklanjuti.


Berapa biayanya.

FaseBiaya
Data pelatihan (4.573 asesmen interaksi klinis)~$8
Fine-tuning (QDoRA, 3 epoch, A100, 54 menit)~$1,30
Korpus RAG (757 label obat FDA, 5.622 bagian)gratis
Benchmarking (perbandingan model frontier via OpenRouter)~$1
Total~$10

Lapisan fine-tuning — tempat keahlian profesional berada — biayanya sepuluh dolar. Bandingkan dengan biaya pelatihan model frontier: ratusan juta per sesi.


Reproduksi.

Semua kode ada di scripts/ai-poc/ di repositori open-source kami:

  1. fetch_drugbank.py — unduh pasangan interaksi obat dari DrugBank
  2. fetch_openfda_interactions.py — ambil teks label obat FDA (gratis, tanpa autentikasi)
  3. build_retrieval_index.py — bangun indeks vektor FAISS atas teks klinis FDA
  4. generate_raft_pairs.py — hasilkan pasangan pelatihan terstruktur-pakar (~$8)
  5. export_training.py — ekspor sebagai JSONL dengan pembagian train/validasi/test
  6. train.sh — fine-tune QDoRA di GPU cloud (~$1,30)
  7. merge_weights.py — gabungkan bobot adapter untuk inferensi cepat
  8. benchmark_local.py — perbandingan lengkap terhadap model frontier

Total waktu aktual: kurang lebih satu hari. Total biaya: kurang lebih sepuluh dolar.

Jika Anda bisa membuktikan kami salah, lakukanlah. Kami menerbitkan kodenya karena kami ingin Anda mencoba.


Pertanyaan sulit. Jawaban jujur.

Jika Anda membaca sejauh ini, Anda adalah tipe orang yang tidak mudah bergabung dengan sesuatu. Bagus. Kami tidak mencari antusiasme. Kami mencari penilaian.


"Mengapa pakar mau berkontribusi?"

Pendapatan. 95% pendapatan konsumen mengalir ke pakar. Anggota Guild mendapat akses AI penuh seharga $5 alih-alih $20.

AI yang bekerja untuk mereka. Dilatih oleh pakar terverifikasi di bidang Anda, dengan retrieval atas basis data yang benar-benar Anda gunakan.

Sepuluh menit, bukan perubahan karier. Kontribusi minimum: penilaian ya/tidak selama lima detik.


"Mengapa $5/bulan? Mengapa tidak gratis?"

Kami mengenakan biaya $5 agar kami tidak pernah harus mengambil modal ventura. Tidak ada investor yang akan mengizinkan 95% mengalir ke kontributor. Tidak ada investor yang akan menerima konstitusi yang melarang desain penggantian tenaga kerja. $5 itu adalah harga kemerdekaan.

Berkontribusi itu gratis — siapa pun dapat mendaftar dan melakukan tinjauan cepat. Keanggotaan Guild ($5/bulan) membuka akses penuh ke alat tinjauan, akses AI, dan bagi hasil.


"95% untuk pakar — bagaimana itu berkelanjutan?"

Dua aliran pendapatan. Biaya Guild ($5/bulan per pakar) mendanai tim inti. Perusahaan juga menerima 5% dari pendapatan konsumen. Konstitusi menjaminnya — perusahaan tidak dapat meningkatkan bagiannya melebihi 5% tanpa pemungutan suara supermayoritas anggota Guild. Biaya infrastruktur diterbitkan setiap bulan.


"Apa yang bisa dilakukan ini yang tidak bisa dilakukan ChatGPT?"

Lima hal yang tidak bisa dijamin model frontier mana pun:

  1. Atribusi sumber. Setiap klaim dapat dilacak ke pakar bernama yang memverifikasinya.
  2. Komputasi deterministik. Tarif pajak, dosis obat, kode bangunan — dihitung, bukan diprediksi.
  3. Validitas temporal. Unit kedaluwarsa ketika hukum berubah. LLM dengan percaya diri mengutip aturan tahun lalu.
  4. Spesifisitas yurisdiksi. Hukum pajak Ceko bukan hukum pajak Jerman. Satu model tidak bisa melayani keduanya.
  5. Persetujuan dan kompensasi. Setiap pakar yang berkontribusi disebutkan namanya, memberikan persetujuan, dan dibayar.

"Bagaimana jika model frontier semakin baik?"

Kesenjangan ini bersifat arsitektural, bukan keunggulan kinerja. Model frontier memprediksi seperti apa jawaban. Kami mengompilasi bagaimana profesional benar-benar bernalar — menjadi unit terverifikasi yang dieksekusi secara deterministik. Model frontier bisa semakin baik dalam menebak perhitungan pajak yang benar. Sistem kami menjalankan perhitungan pajak. Itu adalah properti struktural, bukan keunggulan yang terkikis.

Model dasar semakin baik — kami memasukkannya. Penalaran pakar adalah parit, bukan bobot model.


"Profesi apa yang TIDAK Anda cakup?"

Dengan sengaja: rekayasa perangkat lunak, ilmu data, desain, konsultansi manajemen, pekerjaan kreatif. Ini adalah bidang di mana LLM sudah bekerja dengan baik. Kami membangun untuk 124 profesi di mana AI paling lemah — padat aturan, spesifik yurisdiksi, berisiko tinggi.


"Bagaimana Anda mencegah kecurangan?"

Tiga lapis: deteksi anomali otomatis (duplikat, anomali volume, plagiarisme), tinjauan sejawat (setiap kontribusi ditinjau oleh 2+ profesional terverifikasi), dan verifikasi kredensial (lisensi, sertifikasi, atau gelar — ditinjau oleh komite tata kelola domain). Volume tanpa kualitas tidak menghasilkan apa-apa.


"Ini terdengar seperti kripto."

Tidak ada token. Tidak ada blockchain. Tidak ada spekulasi. Poin bersifat permanen, tidak dapat dipindahtangankan, tidak dapat diperdagangkan. Mereka mencerminkan kontribusi profesional terverifikasi, bukan posisi untuk dijual. $5/bulan untuk pakar. $20/bulan untuk konsumen. Biaya transparan. Perlindungan konstitusional.


"Satu orang tidak bisa membangun ini."

Satu orang memulainya. Konstitusi memastikan tidak ada satu orang yang mengendalikannya. Komunitas pakar mengelola domain mereka. Batasan konstitusional mencegah penguasaan terlepas dari siapa yang menjalankan perusahaan.


Masih belum yakin? Baca Konstitusi — itu adalah jalur terpendek untuk mengetahui apakah kami serius.

Berkontribusi gratis · Bergabung dengan Guild — $5/bulan