Google’i Gemma käitub juba nagu Gemini — keegi tegi sellest ka Claude Opus’i stiilis mõtleja

Kui olete järginud kohalikku AI-stseeni, siis teate tõenäoliselt Qwopust – avatud lähtekoodiga mudelit, mis püüdis distilleerida Claude Opus 4.6 mõtlemisvõimet Alibaba Qweni raames, et te saaksite tasuta oma enda riistvaral käivitada midagi, mis meenutab Opust. See töötas üllatavalt hästi. Ilmne külg: Qwen on hiina mudel ja mitte kõigile on see mugav.

Jackrong, sama anonüümne arendaja, kes seisab selle projektiga taga, kuulis tagasisidet. Tema vastus on Gemopus – uus Claude Opus-stiilis täpsustatud mudelite perekond, mis on ehitatud täielikult Google’i avatud lähtekoodiga Gemma 4 peale. Täiesti ameerika päritolu DNA, sama idee: piiriala taseme mõtlemine, mis töötab kohaliselt teie juba olemasoleval riistvaral.

Perekond on kahe versiooni – Gemopus-4-26B-A4B on raskem variant – ekspertrühmade (Mixture of Experts) mudel, millel on kokku 26 miljardit parameetrit, kuid millest ainult umbes 4 miljardit aktiveerub järeldamisel, mis tähendab, et see annab väga hea tulemuse isegi piiratud riistvaral.

Parameetrid määravad AI õppimis-, mõtlemis- ja teabe salvestamisvõime. Kokku 26 miljardi parameetriga mudelil on väga lai teadmisala. Kuid aktiveerides vaid teie konkreetse päringu jaoks olulised 4 miljardit parameetrit, annab see kvaliteetseid tulemusi suure AI puhul, samas jäädes piisavalt kergelt, et töötada sujuvalt igapäevases riistvaras.

Teine variant on Gemopus-4-E4B – 4-miljardise parameetriga ääremudel, mis on loodud nii, et see töötaks mugavalt kaasaegsel iPhone’il või õhukese ja kerges MacBookil – GPU-d ei ole vaja.

Algmudeli valik on siin oluline. Google’i Gemma 4, mille avaldasid 2. aprillil, põhineb otse samal teadusuuringul ja tehnoloogial, millel põhineb ka Gemini 3 – ettevõte kinnitas seda avalduses selgelt. See tähendab, et Gemopus omab seda, mida ükski Qwen-põhine täpsustatud mudel ei saa väita: selle südamikus on Google’i enda viimase põlvkonna suletud mudeli DNA, millele on lisatud Anthropic’i mõtlemisstiil. Parim mõlema maailma kombinatsioon, enam-vähem.

Mis teeb Gemopus’i erinevaks teiste Gemma täpsustatud mudelite lainest, mis praegu ülevalt Hugging Face’is liiguvad, on selle taga olev filosoofia. Jackrong valis teadlikult välja Claude’i ahela-mõtlemise mõtlemisjälgede sundimise Gemma kaalutesse – lühike tee, mida kasutavad enamik konkureerivaid väljalaskeid.

Tema argument, millele tugineb hiljutine teadusuuring, on see, et õpilasmudeli täitmine õpetaja pinnasliku mõtlemistekstiga ei edasta tegelikult reaalset mõtlemisvõimet. See õpetab imiteerimist, mitte loogikat. „Ei ole vaja liialdatud kujutlusvõimet ega uskumatut Claude’i stiilis ahela-mõtlemise kopeerimist,“ kirjutatakse mudelikaardil. Selle asemel keskendus ta vastuste kvaliteedile, struktuurilisele selgusele ja vestluslikule loomulikkusele – parandades Gemma kõva Wikipedia-tooni ja selle kalduvust teile lugeda asju, mida te pole küsinud.

AI-infrastruktuuri insener Kyle Hessling tegi sõltumatuid testid ja avaldas tulemused otse mudelikaardil. Tema hinnang 26B-versioonile oli üsna soosiv. „Olen rõõmus, et olen seda üsna põhjalikult testinud ja see on väga hea täpsustatud versioon juba eriliselt head mudelit,“ kirjutas ta X-is. „See töötab suurepäraselt ühekordsete päringutega pikas kontekstis ja töötab äärmiselt kiiresti tänu MOE-arhitektuurile (ekspertrühmade segumine).“

Väiksem E4B-variant läbis kõik 14 põhikompetentsi-testi – juhiste järgimine, programmeerimine, matemaatika, mitmeastmeline mõtlemine, tõlkimine, turvalisus, puhverdamine – ning läbis kõik 12 pikas kontekstis toimuvat testi 30K ja 60K tokeni puhul. Nõela-otsingus (needle-in-haystack) läbis ta kõik 13 proovi, sealhulgas ülekoormatud testi ühe miljoni tokeni puhul YaRN 8× RoPE skaleerimisega.

26B-variant toetab nativaalselt 131K konteksti ja YaRN-i abil kuni 524K konteksti, mille üle Hessling tegi ka stressitestid: „See läbis ka minu lihtsad nõela-otsingutestid kuni laiendatud kontekstinä 524K!“

Ääremudelitel töötab E4B tõesti kiiresti. Jackrong teatas 45–60 tokenit sekundis iPhone 17 Pro Maxil ja 90–120 tokenit sekundis MacBook Air M3/M4-l MLX-i kaudu. 26B MoE-arhitektuur võimaldab sellel sujuvalt ülelaadida ühendatud mälu süsteemides või GPU-del, millel on alla 10 GB VRAM-i. Hessling nimetas seda oma igapäevaseks soovitusmudeliks VRAM-i puudusega seadmetele.

Mõlemad mudelid on saadaval GGUF-vormingus, mis tähendab, et neid saab otse paigaldada LM Studio või llama.cpp-sse ilma konfigureerimiseta. Täielik treeningukood ja samm-sammult täpsustatud juhend on Jackrongi GitHubis – sama toru, mida ta kasutas Qwopus’i puhul, sama Unsloth ja LoRA seadistus, mis on reproduutseritav Colabis.

Gemopus ei ole ilma oma puudusteta. Tööriistade kutsumine on ikka veel katki kogu Gemma 4 sarjas llama.cpp-s ja LM Studio-s – kutsumise ebaõnnestumised, formaadi mittevastavused, tsükkel – seega kui teie töövoog sõltub agentidest, kes kasutavad väliste tööriistade funktsioone, siis see ei ole veel teie mudel. Jackrong ise nimetab seda „inseneriliseks uurimisviisiks, mitte täielikult tootmiseks valmis lahenduseks“ ning soovitab kõigile, kes vajavad stabiilsemat lahendust reaalsetele töökoormustele, oma Qwopus 3.5 sarja.

Ja kuna Jackrong teadlikult vältis agressiivset Claude’i stiilis ahela-mõtlemise distilleerimist, ärge oodake, et see tunduks nii sügavalt Opus-mõeldud nagu Qwopus – see oli teadlik kompromiss stabiilsuse nimel, mitte ebaõnnestumine.

Nende jaoks, kes soovivad sügavamalt uurida just mõtlemise jaoks täpsustatud Gemma mudelit, on ka eraldi kogukonnaprojekt, mille väärib jälgida: Ornstein anonüümse arendaja DJLougeni poolt, mis kasutab sama 26B Gemma 4 algmudelit ja keskendub spetsiifiliselt selle mõtlemisahelate parandamisele ilma mingi kolmanda osapoole mudeli loogika või stiili kasutamiseta.

Üks aus varjatud asjaolu: Gemma treeningudünaamika on täpsustajatele kaotatum kui Qwenu oma – laiemad kaotusfluktuatsioonid, suurem hüperparameetrite tundlikkus. Jackrong ise seda ütleb. Kui te vajate rohkem testitud kohalikku mudelit tootmisprotsesside jaoks, siis tema Qwopus 3.5 sarja on ikka veel kindlamalt valideeritud. Kuid kui te soovite ameerika päritolu mudelit Opus-stiilis poliiriga, siis on Gemopus hetkel teie parim saadaval olev valik. Ka 31B Gemopus variandid on plaanis, millest Hessling teeb juba jutu kui „kindlasti suurest kõlakust“.

Kui soovite oma riistvaral kohaliselt käivitada mudelid, vaadake meie juhendit, kuidas alustada kohaliku AI-ga.

Daily Debrief Newsletter

Alustage iga päeva üleüldiselt tähtsaimatest uudistest koos originaalartiklite, podcast’iga, videodega ja muuga.

Allikas: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Google’i Gemma käitub juba nagu Gemini — keegi tegi sellest ka Claude Opus’i stiilis mõtleja

Daily Debrief Newsletter

Teile võib meeldida ka

Suur koostöö XRP ja jaapani e-kaubandusetaim Rakuten vahel – „potentsiaalselt miljardid dollariid”

USA president Trump: ei mõtle rahulepet pikendada

Pi Network’i sõlmide värskenduse värskendus kinnitab püsivat edenemist mainneti arengu suunas

Trendikad uudised

Mida Presidio Bitcoin avastas kvantarvutite kohta: ohtude ajatempla ja järgmised sammud

Metaplanet ostis 5 075 bitcoini, kuna aastas kasvunud BTC-tasu tõusis 2,8%

XRP hinna prognoos: Senat on tagasi töös koos CLARITY seadusega, kuid Pepeto eelmüük võib seda ületada

XRP-i kauplejad on keskmiselt 41 % võrra alla – miks mõned liiguvad üle BMIC-i krüptovaluutade eelmüügile

USA dollari indeks liigub paigas 98,00 üle, kuigi turu optimism kasvab

Otseülekanded ööpäevaringselt

Krüptohinnad

Google’i Gemma käitub juba nagu Gemini — keegi tegi sellest ka Claude Opus’i stiilis mõtleja

Daily Debrief Newsletter

Teile võib meeldida ka

Suur koostöö XRP ja jaapani e-kaubandusetaim Rakuten vahel – „potentsiaalselt miljardid dollariid”

USA president Trump: ei mõtle rahulepet pikendada

Pi Network’i sõlmide värskenduse värskendus kinnitab püsivat edenemist mainneti arengu suunas

Trendikad uudised

Mida Presidio Bitcoin avastas kvantarvutite kohta: ohtude ajatempla ja järgmised sammud

Metaplanet ostis 5 075 bitcoini, kuna aastas kasvunud BTC-tasu tõusis 2,8%

XRP hinna prognoos: Senat on tagasi töös koos CLARITY seadusega, kuid Pepeto eelmüük võib seda ületada

XRP-i kauplejad on keskmiselt 41 % võrra alla – miks mõned liiguvad üle BMIC-i krüptovaluutade eelmüügile

USA dollari indeks liigub paigas 98,00 üle, kuigi turu optimism kasvab

Otseülekanded ööpäevaringselt

Krüptohinnad

Metaplanet ostis 5 075 bitcoini, kuna aastas kasvunud BTC-tasu tõusis 2,8%