A Google acaba de lançar o Modelo Gemma 3, a versão mais recente de seu modelo de linguagem pequeno (SLM) de código aberto. Essa novidade chega com um aumento significativo na janela de contexto, atingindo 128 mil tokens, além de apresentar parâmetros maiores e recursos aprimorados de raciocínio multimodal. O novo modelo promete ser uma alternativa interessante aos modelos de linguagem grandes (LLMs), oferecendo um bom desempenho sem os altos custos operacionais.
Com o Modelo Gemma 3, a Google busca atender à crescente demanda por modelos de IA menores e mais eficientes, que podem ser executados em dispositivos como celulares e laptops sem comprometer a precisão. A seguir, vamos explorar os detalhes dessa nova versão e entender o que ela tem a oferecer.
O que esperar do novo Modelo Gemma 3?
O Modelo Gemma 3 chega com quatro tamanhos diferentes: 1B, 4B, 12B e 27B de parâmetros. Essa variedade permite que os desenvolvedores escolham a versão mais adequada para suas necessidades específicas, otimizando o desempenho e os custos. A Google afirma que o Gemma 3 tem o mesmo poder de processamento dos modelos Gemini 2.0 maiores, mas é ideal para dispositivos menores.
Uma das principais novidades é a janela de contexto expandida para 128 mil tokens. Para comparar, o Gemma 2 possuía uma janela de 80 mil. Essa expansão permite que o Modelo Gemma 3 compreenda mais informações e execute solicitações mais complexas. Além disso, o modelo foi atualizado para funcionar em 140 idiomas, analisar imagens, textos e vídeos curtos, e suportar o uso de funções para automatizar tarefas e fluxos de trabalho.
Para reduzir ainda mais os custos de computação, a Google introduziu versões quantizadas do Gemma. Esses modelos quantizados são essencialmente versões comprimidas do modelo original, obtidas através da redução da precisão dos valores numéricos nos pesos do modelo, sem sacrificar a precisão. Essa técnica permite que o Modelo Gemma 3 seja executado de forma mais eficiente, consumindo menos recursos computacionais.
Desempenho do Modelo Gemma 3
A Google garante que o Modelo Gemma 3 oferece um desempenho de ponta para o seu tamanho, superando outros LLMs líderes do mercado, como o Llama-405B, DeepSeek-V3 e o3-mini. Em testes de pontuação Elo do Chatbot Arena, o Gemma 3 27B ficou em segundo lugar, atrás apenas do DeepSeek-R1. Ele superou o modelo menor da DeepSeek, o DeepSeek v3, o o3-mini da OpenAI, o Llama-405B da Meta e o Large da Mistral.
A quantização do Modelo Gemma 3 permite que os usuários melhorem o desempenho, executem o modelo e criem aplicações que podem ser executadas em uma única GPU e unidade de processamento de tensor (TPU). O Gemma 3 se integra com ferramentas de desenvolvedor como Hugging Face Transformers, Ollama, JAX, Keras, PyTorch e outras. Os usuários também podem acessar o Gemma 3 através do Google AI Studio, Hugging Face ou Kaggle. Empresas e desenvolvedores podem solicitar acesso à API do Gemma 3 através do AI Studio.
Para garantir a segurança, a Google implementou protocolos de segurança no Modelo Gemma 3, incluindo um verificador de segurança para imagens chamado ShieldGemma 2. Segundo a Google, o desenvolvimento do Gemma 3 incluiu governança de dados extensiva, alinhamento com as políticas de segurança através de ajuste fino e avaliações de benchmark robustas.
Shield Gemma para maior segurança
O ShieldGemma 2 é um verificador de segurança de imagem de 4B de parâmetros construído sobre a base do Modelo Gemma 3. Ele identifica e impede que o modelo responda com imagens contendo conteúdo sexualmente explícito, violência e outros materiais perigosos. Os usuários podem personalizar o ShieldGemma 2 para atender às suas necessidades específicas.
Desde que a Google lançou o Gemma em fevereiro de 2024, os SLMs têm visto um aumento no interesse. Outros modelos pequenos como o Phi-4 da Microsoft e o Small 3 da Mistral indicam que as empresas querem construir aplicações com modelos tão poderosos quanto os LLMs, mas sem necessariamente usar toda a amplitude do que um LLM é capaz de fazer.
As empresas também começaram a usar versões menores dos LLMs que preferem através da destilação. É importante notar que o Modelo Gemma 3 não é uma destilação do Gemini 2.0; em vez disso, ele é treinado com o mesmo conjunto de dados e arquitetura. Um modelo destilado aprende com um modelo maior, o que não acontece com o Gemma. As organizações frequentemente preferem adaptar certos casos de uso a um modelo específico.
Em vez de implantar um LLM como o o3-mini ou o Claude 3.7 Sonnet em um editor de código simples, um modelo menor, seja um SLM ou uma versão destilada, pode facilmente realizar essas tarefas sem sobrecarregar um modelo enorme. Modelos como o Modelo Gemma 3 surgem como alternativas viáveis para diversas aplicações, equilibrando desempenho e eficiência de custos.
Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Via VentureBeat