O Gemma do Google Já Age Como o Gemini—Alguém Fez Com Que Pensasse Como o Claude Opus Também

Se tem acompanhado a cena de IA local, provavelmente conhece o Qwopus—o modelo de código aberto que tentou destilar o raciocínio do Claude Opus 4.6 no Qwen da Alibaba, para que pudesse executar algo semelhante ao Opus no seu próprio hardware gratuitamente. Funcionou surpreendentemente bem. O problema óbvio: o Qwen é um modelo chinês, e nem todos se sentem confortáveis com isso.

Jackrong, o mesmo programador pseudónimo por trás desse projeto, ouviu o feedback. A sua resposta é o Gemopus—uma nova família de ajustes finos no estilo Claude Opus construídos inteiramente sobre o Gemma 4 de código aberto da Google. ADN totalmente americano, mesma ideia: raciocínio de ponta, executado localmente em hardware que já possui.

A família vem em dois modelos. O Gemopus-4-26B-A4B é a opção mais pesada—um modelo Mixture of Experts que tem 26 mil milhões de parâmetros totais, mas ativa apenas cerca de 4 mil milhões durante a inferência, o que significa que tem um desempenho muito superior ao seu peso em hardware limitado.

Os parâmetros são o que determina a capacidade de uma IA de aprender, raciocinar e armazenar informação. Ter 26 mil milhões de parâmetros totais dá ao modelo uma enorme amplitude de conhecimento. Mas ao "acordar" apenas os 4 mil milhões de parâmetros relevantes para o seu prompt específico, entrega os resultados de alta qualidade de uma IA massiva, mantendo-se suficientemente leve para executar sem problemas em hardware comum.

O outro é o Gemopus-4-E4B, um modelo edge de 4 mil milhões de parâmetros projetado para executar confortavelmente num iPhone moderno ou num MacBook fino e leve—sem necessidade de GPU.

A escolha do modelo base é importante aqui. O Gemma 4 da Google, lançado a 2 de abril, foi construído diretamente a partir da mesma pesquisa e tecnologia do Gemini 3—a empresa disse isso explicitamente no lançamento. Isso significa que o Gemopus carrega algo que nenhum ajuste fino baseado no Qwen pode afirmar: o ADN do próprio modelo fechado de última geração da Google por baixo, envolvido no estilo de pensamento da Anthropic por cima. O melhor dos dois mundos, mais ou menos.

O que torna o Gemopus diferente da onda de outros ajustes finos do Gemma que inundam o Hugging Face agora é a filosofia por trás dele. Jackrong escolheu deliberadamente não forçar os traços de raciocínio em cadeia de pensamento do Claude nos pesos do Gemma—um atalho que a maioria dos lançamentos concorrentes adota.

O seu argumento, apoiado por pesquisas recentes, é que encher um modelo estudante com texto de raciocínio superficial de um professor não transfere realmente capacidade de raciocínio real. Ensina imitação, não lógica. "Não há necessidade de imaginação excessiva ou replicação supersticiosa da cadeia de pensamento no estilo Claude," lê-se no cartão do modelo. Em vez disso, ele focou-se na qualidade das respostas, clareza estrutural e naturalidade conversacional—corrigindo o tom rígido de Wikipédia do Gemma e a sua tendência para dar lições sobre coisas que não pediu.

O engenheiro de infraestrutura de IA Kyle Hessling executou benchmarks independentes e publicou os resultados diretamente no cartão do modelo. O seu veredicto sobre a variante 26B foi bastante favorável. "Feliz por ter testado este a fundo e é um excelente ajuste fino de um modelo já excecional," escreveu no X. "É excelente em pedidos únicos sobre contextos longos, e executa incrivelmente rápido graças à arquitetura MOE (mixture of experts)."

A variante E4B mais pequena passou em todos os 14 testes de competência central—seguimento de instruções, codificação, matemática, raciocínio em várias etapas, tradução, segurança, caching—e passou em todos os 12 testes de contexto longo com 30K e 60K tokens. Na recuperação needle-in-haystack, passou em 13 de 13 sondas, incluindo um teste de extensão com um milhão de tokens com escalamento YaRN 8× RoPE.

O 26B estende-se nativamente a 131K de contexto e até 524K com YaRN, que Hessling também testou sob pressão: "Também passou nos meus testes simples de needle-in-the-haystack até um contexto estendido de 524k!"

Em hardware edge, o E4B é genuinamente rápido. Jackrong reporta 45–60 tokens por segundo no iPhone 17 Pro Max, e 90–120 tokens por segundo no MacBook Air M3/M4 via MLX. A arquitetura MoE 26B significa que descarrega graciosamente em sistemas de memória unificada ou GPUs com menos de 10GB de VRAM. Hessling chamou-lhe a sua recomendação diária para configurações com pouca VRAM.

Ambos os modelos estão disponíveis em formato GGUF, o que significa que pode colocá-los diretamente no LM Studio ou llama.cpp sem configuração. O código de treino completo e um guia de ajuste fino passo a passo estão no GitHub do Jackrong—o mesmo pipeline que usou para o Qwopus, a mesma configuração Unsloth e LoRA, reproduzível no Colab.

O Gemopus não está isento de aspetos menos polidos. A chamada de ferramentas permanece quebrada em toda a série Gemma 4 no llama.cpp e LM Studio—falhas de chamada, incompatibilidades de formato, loops—portanto, se o seu fluxo de trabalho depende de agentes que usam ferramentas externas, este ainda não é o seu modelo. O próprio Jackrong chama-lhe "uma referência de exploração de engenharia em vez de uma solução totalmente pronta para produção," e recomenda a sua própria série Qwopus 3.5 para quem precisa de algo mais estável para cargas de trabalho reais.

E porque Jackrong evitou deliberadamente a destilação agressiva de cadeia de pensamento no estilo Claude, não espere que pareça tão profundamente Opus como o Qwopus—foi uma troca consciente pela estabilidade, não um descuido.

Para aqueles que querem aprofundar especificamente o ajuste fino do Gemma para raciocínio, há também um projeto comunitário separado que vale a pena acompanhar: Ornstein pelo programador pseudónimo DJLougen, que usa a mesma base Gemma 4 26B e foca-se especificamente em melhorar as suas cadeias de raciocínio sem depender da lógica ou estilo de qualquer modelo de terceiros específico.

Uma ressalva honesta: a dinâmica de treino do Gemma é mais confusa do que a do Qwen para quem faz ajustes finos—flutuações de perda mais amplas, mais sensibilidade a hiperparâmetros. O próprio Jackrong diz isso. Se precisa de um modelo local mais testado em batalha para fluxos de trabalho de produção, a sua série Qwopus 3.5 permanece mais robustamente validada. Mas se quer um modelo americano com acabamento no estilo Opus, o Gemopus é atualmente a sua melhor opção disponível. Uma variante Gemopus 31B mais densa também está em desenvolvimento, com Hessling a provocar que é "certamente excelente."

Se quer experimentar executar modelos locais no seu próprio hardware, consulte o nosso guia sobre como começar com IA local.

Newsletter Daily Debrief

Comece todos os dias com as principais notícias agora, além de funcionalidades originais, um podcast, vídeos e muito mais.

Fonte: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

O Gemma do Google Já Age Como o Gemini—Alguém Fez Com Que Pensasse Como o Claude Opus Também

Newsletter Daily Debrief

Você também pode gostar

Metaplanet Compra 5.075 Bitcoin enquanto o Rendimento de BTC Acumulado no Ano Aumenta 2,8%

Previsão de Preço do XRP: Senado de Volta à Sessão Com a Lei CLARITY na Agenda Mas a Pré-venda da Pepeto Pode Superar o Desempenho

Os Traders de XRP Estão a Perder 41% em Média – Porque É Que Alguns Estão a Mudar Para a Pré-venda de Cripto da BMIC

Notícias em alta

Lãnh đạo Dân chủ Thượng viện Mỹ sẽ tổ chức bỏ phiếu tuần để hạn chế quyền chiến tranh của Trump

Ethereum thử thách 2.416 USD khi thị trường chờ hướng đi tiếp theo

Anh em Winklevoss rút 42,77 triệu USD BTC khỏi Gemini

Nỗi sợ XRP lên đỉnh 2 năm, nhưng tín hiệu này báo hồi giá

CryptoValley Thụy Sĩ huy động 728 triệu USD qua 31 thương vụ năm 2025

Notícias ao vivo 24/7

Preços das criptomoedas