A empresa de tecnologia Google anunciou uma parceria com a Boston Dynamics para integrar os seus modelos de raciocínio incorporado Gemini Robotics no robô quadrúpede Spot, marcando um avanço na aplicação de inteligência artificial à robótica do mundo real. A colaboração permite ao robô interpretar melhor o seu ambiente, identificar objetos e executar tarefas com base em instruções em linguagem natural, em vez de depender apenas de rotinas pré-programadas.
A integração baseia-se em trabalho experimental realizado durante um hackathon interno de 2025, onde os programadores exploraram como os grandes modelos de linguagem e os sistemas de raciocínio visual poderiam melhorar a autonomia do Spot. Ao aproveitar o Gemini Robotics, o robô pode processar entrada visual das suas câmaras e traduzir instruções de alto nível—como organizar objetos numa sala—em ações físicas coordenadas.
Ao contrário da programação robótica tradicional, que frequentemente depende de lógica rígida e passo a passo, o sistema introduz uma interface mais flexível baseada em prompts conversacionais. Os programadores criaram uma camada de software intermediária usando o kit de desenvolvimento de software do Spot, permitindo que os modelos Gemini comuniquem com a interface de programação de aplicações do robô. Esta estrutura permite à IA selecionar a partir de um conjunto definido de ações, incluindo navegação, deteção de objetos, captura de imagem, agarramento e colocação.
Em demonstrações práticas, o sistema mostrou a capacidade de interpretar instruções gerais e adaptar-se a ambientes dinâmicos. Por exemplo, quando encarregado de organizar itens, o modelo de IA analisou dados visuais, identificou objetos relevantes e dirigiu o robô através de uma sequência de ações. O feedback do robô—como conclusão de tarefas ou restrições físicas—foi incorporado em tempo real, permitindo que o sistema ajustasse o seu comportamento sem intervenção manual.
A abordagem mantém limites operacionais ao restringir a IA a capacidades predefinidas dentro da API do robô, garantindo desempenho previsível e controlado. Este design equilibra adaptabilidade com segurança, uma consideração fundamental para implementar IA em sistemas físicos.
A parceria também destaca potenciais ganhos de eficiência para os programadores. Ao reduzir a necessidade de codificação manual extensiva, as interfaces de linguagem natural permitem aos engenheiros concentrarem-se na definição de objetivos em vez de programar cada sequência de ação. Esta mudança poderá acelerar o desenvolvimento de aplicações de robótica em indústrias como manufatura, inspeção e logística.
Embora a implementação permaneça experimental, a demonstração reflete tendências mais amplas na IA física, onde os modelos fundamentais são cada vez mais utilizados para melhorar a perceção e a tomada de decisão das máquinas. Ambas as empresas indicaram que estão em curso desenvolvimentos adicionais, incluindo a integração contínua de sistemas baseados em Gemini em plataformas robóticas.
A colaboração sugere uma transição para uma interação humano-máquina mais intuitiva, onde o comportamento robótico complexo pode ser orientado através de entradas simplificadas. À medida que os modelos de IA continuam a evoluir, tais integrações podem expandir o âmbito funcional dos sistemas autónomos enquanto reduzem as barreiras técnicas à sua implementação.
O post Google E Boston Dynamics Integram Modelos Gemini Robotics No Spot Para Perceção Avançada E Execução De Tarefas apareceu primeiro em Metaverse Post.


