Modelo open source QwQ-32B da Alibaba apresenta requisitos computacionais reduzidos

O novo modelo QwQ-32B da Alibaba compete com o DeepSeek-R1, exigindo menos recursos para sua operação.
06/03/2025 às 00:01 | Atualizado há 4 semanas
Modelo QwQ-32B da Alibaba

O novo Modelo QwQ-32B da Alibaba, um modelo de código aberto, está chamando a atenção por igualar o desempenho do DeepSeek-R1, mas com requisitos de computação bem menores. Desenvolvido pela equipe Qwen, da gigante chinesa Alibaba, o modelo de raciocínio de 32 bilhões de parâmetros utiliza aprendizado por reforço para aprimorar a resolução de problemas complexos. Disponível para uso comercial e de pesquisa, o QwQ-32B já está acessível no Hugging Face e no ModelScope, além de poder ser testado individualmente via Qwen Chat.

Quan-with-Questions: A resposta da Alibaba ao modelo de raciocínio original da OpenAI

O QwQ, abreviação de Qwen-with-Questions, foi lançado pela Alibaba em novembro de 2024 com o objetivo de competir com o o1-preview da OpenAI. Na época, o modelo foi projetado para aprimorar o raciocínio lógico e o planejamento, revisando e refinando suas próprias respostas durante a inferência. Essa técnica o tornou particularmente eficaz em tarefas de matemática e programação.

A versão inicial do QwQ apresentava 32 bilhões de parâmetros e um comprimento de contexto de 32.000 tokens. A Alibaba destacou sua capacidade de superar o o1-preview em benchmarks matemáticos como AIME e MATH, bem como em tarefas de raciocínio científico como GPQA. Apesar de seus pontos fortes, as primeiras versões do QwQ enfrentaram dificuldades com benchmarks de programação como o LiveCodeBench, onde os modelos da OpenAI mantiveram uma vantagem.

Como muitos modelos de raciocínio emergentes, o QwQ também enfrentou desafios como mistura de idiomas e loops de raciocínio circular ocasionais. No entanto, a decisão da Alibaba de lançar o modelo sob uma licença Apache 2.0 garantiu que desenvolvedores e empresas pudessem adaptá-lo e comercializá-lo livremente, o que o diferenciou de alternativas proprietárias como o o1 da OpenAI.

Desde o lançamento inicial do QwQ, o cenário da inteligência artificial evoluiu rapidamente. As limitações dos LLMs tradicionais tornaram-se mais evidentes, com as leis de escala produzindo retornos decrescentes nas melhorias de desempenho. Essa mudança alimentou o interesse em modelos de raciocínio grandes (LRMs) — uma nova categoria de sistemas de IA que usam raciocínio em tempo de inferência e autorreflexão para aumentar a precisão.

Estes incluem a série o3 da OpenAI e o DeepSeek-R1, da rival chinesa DeepSeek, uma ramificação da empresa de análise quantitativa de Hong Kong High-Flyer Capital Management. Um novo relatório da empresa de pesquisa e análise de tráfego web SimilarWeb descobriu que, desde o lançamento do R1 em janeiro de 2024, o DeepSeek subiu nas paradas para se tornar o site de fornecimento de modelos de IA mais visitado, atrás apenas da OpenAI.

O Modelo QwQ-32B da Alibaba, a iteração mais recente da empresa, se baseia nesses avanços, integrando RL e autoquestionamento estruturado, posicionando-o como um concorrente sério no crescente campo da IA focada em raciocínio.

Escalando o desempenho com aprendizado por reforço multiestágio

Os modelos tradicionais ajustados por instrução geralmente enfrentam dificuldades com tarefas de raciocínio difíceis, mas a pesquisa da equipe Qwen sugere que o RL pode melhorar significativamente a capacidade de um modelo de resolver problemas complexos. O QwQ-32B se baseia nessa ideia, implementando uma abordagem de treinamento RL multiestágio para aprimorar o raciocínio matemático, a proficiência em programação e a resolução geral de problemas.

O modelo foi comparado com alternativas como DeepSeek-R1, o1-mini e DeepSeek-R1-Distilled-Qwen-32B, demonstrando resultados competitivos, apesar de ter menos parâmetros do que alguns desses modelos. Por exemplo, enquanto o DeepSeek-R1 opera com 671 bilhões de parâmetros (com 37 bilhões ativados), o QwQ-32B atinge um desempenho comparável com uma pegada muito menor.

Isso normalmente requer 24 GB de vRAM em uma GPU (as H100s da Nvidia têm 80GB) em comparação com mais de 1500 GB de vRAM para executar o DeepSeek R1 completo (16 GPUs A100 da Nvidia), destacando a eficiência da abordagem RL do Qwen.

O QwQ-32B segue uma arquitetura de modelo de linguagem causal e inclui várias otimizações: 64 camadas de transformadores com RoPE, SwiGLU, RMSNorm e Attention QKV bias; atenção de consulta generalizada (GQA) com 40 cabeças de atenção para consultas e 8 para pares de chave-valor; comprimento de contexto estendido de 131.072 tokens, permitindo um melhor manuseio de entradas de sequência longa; treinamento multiestágio, incluindo pré-treinamento, ajuste fino supervisionado e RL.

O processo de RL para QwQ-32B foi executado em duas fases: Foco em matemática e programação: O modelo foi treinado usando um verificador de precisão para raciocínio matemático e um servidor de execução de código para tarefas de programação. Essa abordagem garantiu que as respostas geradas fossem validadas quanto à correção antes de serem reforçadas.

Aprimoramento da capacidade geral: Em uma segunda fase, o modelo recebeu treinamento baseado em recompensas usando modelos de recompensa geral e verificadores baseados em regras. Este estágio melhorou o seguimento de instruções, o alinhamento humano e o raciocínio do agente sem comprometer suas capacidades matemáticas e de programação.

O que isso significa para os tomadores de decisão corporativos

Para os líderes empresariais — incluindo CEOs, CTOs, líderes de TI, gerentes de equipe e desenvolvedores de aplicações de IA — o QwQ-32B representa uma mudança potencial em como a IA pode apoiar a tomada de decisões empresariais e a inovação técnica. Com suas capacidades de raciocínio impulsionadas por RL, o modelo pode fornecer insights mais precisos, estruturados e conscientes do contexto, tornando-o valioso para casos de uso como análise de dados automatizada, planejamento estratégico, desenvolvimento de software e automação inteligente.

Empresas que procuram implementar soluções de IA para resolução de problemas complexos, assistência de programação, modelagem financeira ou automação de atendimento ao cliente podem achar a eficiência do QwQ-32B uma opção atraente. Além disso, a sua disponibilidade de peso aberto permite que as organizações ajustem e personalizem o modelo para aplicações específicas do domínio sem restrições proprietárias, tornando-o uma escolha flexível para estratégias de IA empresarial.

O fato de vir de uma gigante chinesa do comércio eletrônico pode levantar algumas preocupações de segurança e viés para alguns usuários não chineses, especialmente ao usar a interface Qwen Chat. Mas, como com o DeepSeek-R1, o fato de o modelo estar disponível no Hugging Face para download e uso offline e ajuste fino ou retraining sugere que estes podem ser superados com bastante facilidade. E é uma alternativa viável ao DeepSeek-R1.

Reações iniciais de usuários avançados e influenciadores de IA

O lançamento do QwQ-32B já atraiu a atenção da comunidade de pesquisa e desenvolvimento de IA, com vários desenvolvedores e profissionais da indústria compartilhando suas impressões iniciais no X (antigo Twitter): Vaibhav Srivastav (@reach_vb) do Hugging Face destacou a velocidade do QwQ-32B na inferência graças ao provedor Hyperbolic Labs, chamando-o de “incrivelmente rápido” e comparável aos modelos de nível superior. Ele também observou que o modelo “supera o DeepSeek-R1 e o OpenAI o1-mini com a licença Apache 2.0″.

A editora de notícias e boatos de IA, Chubby (@kimmonismus) ficou impressionada com o desempenho do modelo, enfatizando que o QwQ-32B às vezes supera o DeepSeek-R1, apesar de ser 20 vezes menor. “Santo Deus! Qwen cozinhou!”, escreveram. Yuchen Jin (@Yuchenj_UW), cofundador e CTO da Hyperbolic Labs, comemorou o lançamento observando os ganhos de eficiência. “Modelos pequenos são tão poderosos! Alibaba Qwen lançou o QwQ-32B, um modelo de raciocínio que supera o DeepSeek-R1 (671B) e o OpenAI o1-mini!”

Outro membro da equipe do Hugging Face, Erik Kaunismäki (@ErikKaum) enfatizou a facilidade de implantação, compartilhando que o modelo está disponível para implantação com um clique nos terminais do Hugging Face, tornando-o acessível aos desenvolvedores sem configuração extensa.

Capacidades agentic

O QwQ-32B incorpora capacidades agentic, permitindo-lhe ajustar dinamicamente os processos de raciocínio com base no feedback ambiental. Para um desempenho ideal, a equipe Qwen recomenda usar as seguintes configurações de inferência: Temperatura: 0,6; TopP: 0,95; TopK: Entre 20-40; Escalonamento YaRN: Recomendado para lidar com sequências com mais de 32.768 tokens.

O modelo suporta a implantação usando vLLM, uma estrutura de inferência de alto rendimento. No entanto, as implementações atuais do vLLM suportam apenas o escalonamento YaRN estático, que mantém um fator de escalonamento fixo, independentemente do comprimento da entrada.

Desenvolvimentos futuros

A equipe da Qwen vê o QwQ-32B como o primeiro passo para escalar o RL para aprimorar as capacidades de raciocínio. Olhando para o futuro, a equipe planeja: Explorar ainda mais o escalonamento do RL para melhorar a inteligência do modelo; Integrar agentes com RL para raciocínio de longo alcance; Continuar desenvolvendo modelos de fundação otimizados para RL; Avançar para a inteligência geral artificial (AGI) por meio de técnicas de treinamento mais avançadas.

Com o QwQ-32B, a equipe da Qwen está posicionando o RL como um motor chave da próxima geração de modelos de IA, demonstrando que o escalonamento pode produzir sistemas de raciocínio altamente eficientes e eficazes.

Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.

Via VentureBeat

Os artigos assinados por nossa Redação, são artigos colaborativos entre redatores, colaboradores e/por nossa inteligência artificial (IA).
Tekimobile Midia LTDA - Todos os direitos reservados