Gemma de Google Ya Actúa Como Gemini—Alguien Hizo Que También Piense Como Claude Opus

Si has estado siguiendo la escena de IA local, probablemente conozcas Qwopus: el modelo de código abierto que intentó destilar el razonamiento de Claude Opus 4.6 en Qwen de Alibaba, para que pudieras ejecutar algo parecido a Opus en tu propio hardware de forma gratuita. Funcionó sorprendentemente bien. La trampa obvia: Qwen es un modelo chino, y no todos se sienten cómodos con eso.

Jackrong, el mismo desarrollador seudónimo detrás de ese proyecto, escuchó los comentarios. Su respuesta es Gemopus: una nueva familia de ajustes finos al estilo Claude Opus construidos completamente sobre Gemma 4 de código abierto de Google. ADN totalmente americano, misma idea: razonamiento de nivel frontera, ejecutándose localmente en hardware que ya posees.

La familia viene en dos versiones. Gemopus-4-26B-A4B es la opción más pesada: un modelo de Mezcla de Expertos que tiene 26 mil millones de parámetros totales pero solo activa alrededor de 4 mil millones durante la inferencia, lo que significa que rinde muy por encima de su peso en hardware limitado.

Los parámetros son lo que determina la capacidad de una IA para aprender, razonar y almacenar información. Tener 26 mil millones de parámetros totales le da al modelo una enorme amplitud de conocimiento. Pero al solo "despertar" los 4 mil millones de parámetros relevantes para tu prompt específico, ofrece los resultados de alta calidad de una IA masiva mientras permanece lo suficientemente ligero como para ejecutarse sin problemas en hardware cotidiano.

El otro es Gemopus-4-E4B, un modelo edge de 4 mil millones de parámetros diseñado para ejecutarse cómodamente en un iPhone moderno o una MacBook delgada y ligera, sin necesidad de GPU.

La elección del modelo base importa aquí. Gemma 4 de Google, lanzado el 2 de abril, está construido directamente a partir de la misma investigación y tecnología que Gemini 3: la compañía lo dijo explícitamente en el lanzamiento. Eso significa que Gemopus lleva algo que ningún ajuste fino basado en Qwen puede reclamar: el ADN del propio modelo cerrado de vanguardia de Google bajo el capó, envuelto en el estilo de pensamiento de Anthropic encima. Lo mejor de ambos mundos, más o menos.

Lo que hace diferente a Gemopus de la ola de otros ajustes finos de Gemma que inundan Hugging Face ahora mismo es la filosofía detrás de él. Jackrong deliberadamente eligió no forzar las trazas de razonamiento de cadena de pensamiento de Claude en los pesos de Gemma, un atajo que la mayoría de los lanzamientos competidores toman.

Su argumento, respaldado por investigación reciente, es que llenar un modelo estudiante con el texto de razonamiento superficial de un profesor en realidad no transfiere capacidad de razonamiento real. Enseña imitación, no lógica. "No hay necesidad de imaginación excesiva o replicación supersticiosa de la cadena de pensamiento al estilo Claude", dice la tarjeta del modelo. En cambio, se enfocó en la calidad de las respuestas, claridad estructural y naturalidad conversacional, corrigiendo el tono rígido de Wikipedia de Gemma y su tendencia a darte conferencias sobre cosas que no preguntaste.

El ingeniero de infraestructura de IA Kyle Hessling ejecutó benchmarks independientes y publicó los resultados directamente en la tarjeta del modelo. Su veredicto sobre la variante 26B fue bastante favorable. "Feliz de haber probado este bastante duro y es un excelente ajuste fino de un modelo ya excepcional", escribió en X. "Es excelente en solicitudes de un solo intento sobre contextos largos, y se ejecuta increíblemente rápido gracias a la arquitectura MOE (mixture of experts)."

La variante E4B más pequeña pasó las 14 pruebas de competencia básica: seguimiento de instrucciones, codificación, matemáticas, razonamiento de múltiples pasos, traducción, seguridad, almacenamiento en caché, y superó todas las 12 pruebas de contexto largo en 30K y 60K tokens. En recuperación de aguja en pajar, pasó 13 de 13 sondeos incluyendo una prueba extendida de un millón de tokens con escalado YaRN 8× RoPE.

El 26B se extiende nativamente a 131K de contexto y hasta 524K con YaRN, que Hessling también probó bajo estrés: "¡También aplastó mis simples pruebas de aguja en pajar hasta un contexto extendido de 524k!"

En hardware edge, el E4B es genuinamente rápido. Jackrong reporta 45-60 tokens por segundo en iPhone 17 Pro Max, y 90-120 tokens por segundo en MacBook Air M3/M4 vía MLX. La arquitectura MoE 26B significa que se descarga con gracia en sistemas de memoria unificada o GPUs con menos de 10GB de VRAM. Hessling lo llamó su recomendación de uso diario para configuraciones con VRAM limitada.

Ambos modelos están disponibles en formato GGUF, lo que significa que puedes colocarlos directamente en LM Studio o llama.cpp sin configuración. El código de entrenamiento completo y una guía paso a paso de ajuste fino están en el GitHub de Jackrong: el mismo pipeline que usó para Qwopus, la misma configuración de Unsloth y LoRA, reproducible en Colab.

Gemopus no está exento de bordes ásperos. La llamada de herramientas permanece rota en toda la serie Gemma 4 en llama.cpp y LM Studio: fallos de llamada, desajustes de formato, bucles, así que si tu flujo de trabajo depende de agentes que usan herramientas externas, este no es tu modelo todavía. El propio Jackrong lo llama "una referencia de exploración de ingeniería en lugar de una solución completamente lista para producción", y recomienda su propia serie Qwopus 3.5 para cualquiera que necesite algo más estable para cargas de trabajo reales.

Y porque Jackrong evitó deliberadamente la destilación agresiva de cadena de pensamiento al estilo Claude, no esperes que se sienta tan profundamente Opus-brained como Qwopus: eso fue un compromiso consciente por estabilidad, no un descuido.

Para aquellos que quieren profundizar más en el ajuste fino de Gemma para razonamiento específicamente, también hay un proyecto comunitario separado que vale la pena observar: Ornstein del desarrollador seudónimo DJLougen, que toma la misma base Gemma 4 26B y se enfoca específicamente en mejorar sus cadenas de razonamiento sin depender de la lógica o estilo de ningún modelo de terceros específico.

Una advertencia honesta: las dinámicas de entrenamiento de Gemma son más desordenadas que las de Qwen para ajustadores finos: fluctuaciones de pérdida más amplias, más sensibilidad a hiperparámetros. Jackrong lo dice él mismo. Si necesitas un modelo local más probado en batalla para flujos de trabajo de producción, su serie Qwopus 3.5 permanece más robustamente validada. Pero si quieres un modelo americano con el pulido al estilo Opus, Gemopus es actualmente tu mejor opción disponible. Una variante Gemopus 31B más densa también está en proceso, con Hessling insinuando que es "un éxito seguro".

Si quieres probar ejecutar modelos locales en tu propio hardware, consulta nuestra guía sobre cómo comenzar con IA local.

Daily Debrief Newsletter

Comienza cada día con las principales noticias en este momento, además de características originales, un podcast, videos y más.

Fuente: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Gemma de Google Ya Actúa Como Gemini—Alguien Hizo Que También Piense Como Claude Opus

Daily Debrief Newsletter

También te puede interesar

Predicción del precio de XRP: El Senado vuelve a sesionar con la Ley CLARITY en agenda, pero la preventa de Pepeto podría superar el rendimiento

Los traders de XRP tienen pérdidas del 41% en promedio – Por qué algunos están rotando hacia la preventa de criptomonedas de BMIC

Riesgos de shock energético y dinámicas de inflación más suaves – BNP Paribas

Noticias en tendencia

Nvidia (NVDA) Stock; Gana ligeramente después de presentar herramientas de IA para corrección de errores cuánticos

El token RAVE se desploma: impactante evento de liquidación de $28.67M tras meteórico rally del 6,000%

Análisis de precio de Cardano (ADA): ¿Potencial de ruptura en abril o mayor caída?

Predicción del Precio de Bitcoin (BTC): El Multimillonario Tim Draper Ha Acertado Antes — Ahora Vuelve a Predecir $250K

Deutsche Börse fortalece su impulso en activos digitales con una inversión de $200 millones en Kraken

Noticias en vivo 24/7

Precios de criptos