Nova tecnologia em óculos Ray-Ban da Meta: agora eles enxergam o que você vê, graças à inteligência artificial!

Eu disse essas palavras enquanto usava um par de óculos Meta Ray-Bans na sede da gigante de tecnologia em Nova York, enquanto olhava para uma mesa com quatro pacotes de chá com os rótulos de cafeína apagados com um marcador. Um pequeno som de clique em meus ouvidos foi seguido pela voz de inteligência artificial da Meta me dizendo que o chá de camomila provavelmente não continha cafeína. Ela estava lendo os rótulos e fazendo julgamentos usando IA generativa.

Eu estava demonstrando um recurso que está sendo lançado nos óculos Ray-Ban de segunda geração da Meta a partir de hoje, um recurso que o CEO da Meta, Mark Zuckerberg, já havia prometido em setembro, quando os novos óculos foram anunciados. Os recursos de IA, que podem acessar as câmeras dos óculos da Meta para analisar imagens e interpretá-las com IA generativa, deveriam ser lançados em 2024. A Meta decidiu introduzir esses recursos muito mais rápido do que eu esperava, embora o modo de acesso antecipado ainda esteja em fase beta. Além de adicionar a pesquisa alimentada pelo Bing aos Ray-Bans como parte de uma nova atualização, que aumenta o poder das capacidades já disponíveis por meio de comando de voz dos óculos, os óculos da Meta estão ganhando rapidamente uma série de novas habilidades.

Fiquei muito impressionado com a demonstração, porque nunca tinha visto nada parecido antes. Em partes: o Google Lens e outras ferramentas de telefone usam câmeras e IA juntas desde já, e o Google Glass – uma década atrás – tinha algumas ferramentas de tradução. Dito isso, a maneira fácil como os óculos da Meta têm de invocar a IA para identificar coisas ao meu redor no mundo me parece bem avançada. Estou animado para experimentar isso mais vezes.

CONTINUA DEPOIS DA PUBLICIDADE

Uma placa de restaurante em italiano, com legendas acima e abaixo pedindo a ajuda de um assistente de IA para traduzir — Os óculos não possuem uma tela e apenas falam as respostas de volta. Mas o aplicativo Meta View salva as fotos e as respostas de IA para uso posterior.

Meta

IA multimodal: Como funciona agora

O recurso tem limitações no momento. Ele só pode reconhecer o que você vê tirando uma foto, que é então analisada pela IA. Você pode ouvir o som do obturador ao fazer uma solicitação por voz e há uma pausa de alguns segundos antes de receber uma resposta. Também é preciso utilizar comandos de voz completos: cada solicitação de voz nos óculos da Meta precisa começar com “Ei, Meta” e depois você precisa seguir com “Dê uma olhada nisso” para acionar a captura de fotos, imediatamente seguido pelo que você deseja solicitar à IA. “Ei, Meta, dê uma olhada nisso e me diga uma receita com esses ingredientes.” “Ei, Meta, dê uma olhada nisso e faça uma legenda engraçada.” “Ei, Meta, dê uma olhada nisso. Que planta é esta?”

Todas as respostas da IA e as fotos analisadas são armazenadas no aplicativo de telefone Meta View que é emparelhado com os óculos. Gosto disso, porque é um registro visual/escrito para uso posterior, como anotações para ajudar na memória. Consigo me imaginar caminhando por aí e fazendo perguntas, usando isso como uma espécie de pesquisa do Google para meus olhos, durante as compras ou quem sabe o que mais.

Uma foto de churrasco, com legendas pedindo ajuda a um assistente de IA para cozinhar

Também pode ter usos possíveis para fins assistivos. Usei um par de teste dos óculos Meta que não tinham a minha receita médica e perguntei o que estava olhando. As respostas podem variar em detalhes e precisão, mas podem dar uma noção. Ele sabia que eu estava mostrando meus óculos, que ele disse ter lentes com tons azulados (armação preta-azulada, bem próximo).

Às vezes, ele pode ter alucinações. Perguntei aos óculos sobre frutas em uma tigela na minha frente, e ele disse que havia laranjas, bananas, fruta-do-dragão, maçãs e romãs. Ele acertou, exceto pelas romãs. (Não havia nenhuma delas.) Pediram-me para fazer uma legenda para um grande panda de pelúcia na frente de uma janela. Ele fez algumas legendas fofas, mas uma delas era sobre alguém se sentir solitário e olhar para um telefone, o que não fazia sentido.

Olhei para um cardápio em espanhol e pedi aos óculos para me mostrar pratos picantes. Ele leu alguns pratos e traduziu alguns ingredientes importantes para mim, mas perguntei novamente sobre pratos com carne e ele leu tudo de volta em espanhol.

As possibilidades aqui são selvagens e fascinantes, e possivelmente incrivelmente úteis. A Meta admite que esse lançamento antecipado servirá para descobrir bugs e ajudar a evoluir a forma como a IA dos óculos funciona. Achei que havia muitos momentos de “Ei, Meta, olhe para isso”. Mas esse processo pode mudar, quem sabe. Quando envolvido na análise imediata de imagens, fazer perguntas diretas de acompanhamento pode funcionar sem dizer “Olhe para isso” novamente, mas tenho certeza de que meu sucesso variará.

Uma mão apontando para uma montanha, com balões pedindo ajuda de IA para fazer a legenda de uma foto — Quando as legendas serão úteis e quando elas terão alucinações?

Meta

O futuro da IA vestível está se tornando interessante

Essa IA, que a Meta chama de “IA multimodal” porque usa câmeras e chat de voz juntos, é um precursor da futura IA que a empresa planeja incorporar usando muitas formas de entradas, incluindo mais dados sensoriais. O chipset focado em IA da Qualcomm nos novos Ray-Bans da Meta parece estar pronto para assumir mais funções. Também é um processo que a Meta planeja tornar mais perfeito ao longo do tempo.

O CTO da Meta, Andrew Bosworth, disse a mim em setembro que, embora os óculos agora precisem de um comando de voz para ativar e “enxergar” para que não consumam muita bateria, eventualmente eles terão “sensores com baixo consumo de energia que são capazes de detectar um evento que desencadeia uma consciência que aciona a IA. Esse é realmente o sonho pelo qual estamos trabalhando.” A Meta também já está pesquisando ferramentas de IA que combinam várias formas de dados sensoriais, em preparação para futuros dispositivos vestíveis mais avançados.

Agora, saiba que se trata de uma versão beta de acesso antecipado. A Meta está usando dados de consulta anonimizados para ajudar a melhorar seus serviços de IA durante a fase de acesso antecipado, o que pode preocupar aqueles que desejam mais privacidade. Ainda não conheço os detalhes específicos de adesão, mas parece que haverá mais controles discretos sobre o compartilhamento de dados quando os recursos finais de IA forem lançados, provavelmente no próximo ano.

Tudo isso me lembra exatamente do que a Humane está buscando com seu Pin de IA vestível, um dispositivo que ainda não vi pessoalmente. Enquanto o produto da Humane é caro e precisa ser usado nas roupas, os óculos da Meta custam $300 e já estão nas prateleiras das lojas. Com relógios, headsets de RV e óculos inteligentes evoluindo suas capacidades de IA, as coisas podem ficar muito diferentes para o futuro da tecnologia vestível e seu nível de conscientização assistiva.

Fica claro que uma nova fronteira de produtos de IA vestíveis já está em andamento, e os óculos da Meta estão chegando primeiro.

Via