As Inteligências Artificiais: A Era da Corrida pelo Conhecimento

por soucurioso
em Blog, Ciência e Tecnologia
on 16 de maio de 2024

Inteligências artificiais: a corrida pela nova era do conhecimento. Imagem cortesia de: https://www.icmc.usp.br/noticias/6422-especialistas-mundiais-criam-documento-sobre-capacidades-e-riscos-da-inteligencia-artificial

As Inteligências Artificiais (IA) é um campo da informática que se concentra na criação de sistemas e programas capazes de realizar tarefas que normalmente requerem inteligência humana.

Essas tarefas incluem reconhecimento de voz, aprendizado, planejamento, compreensão da linguagem natural, percepção visual e tomada de decisões.

Neste mês de maio de 2024, duas das empresas de Inteligência Artificial mais importantes do mundo, OpenAI e Google, apresentaram as novas versões de ChatGPT, GPT-4o (omni) e Gemini.

Apresentações no Google I/O das Inteligências Artificiais

No evento anual do Google, Google I/O, se apresentou as principais novidades sobre o modelo Gemini, com uma ampla variedade de versões disponíveis e melhorias em suas capacidades multimodais e na sua grande janela de contexto.

Essas inovações estão implementadas em todas as ferramentas do Google, desde o buscador até o Google Workspace, dispositivos Android e diversos aplicativos como Google Fotos.

Para mostrar um pouco o funcionamento de todas essas novas instalações, no evento foram realizadas algumas demonstrações, por exemplo, como a ferramenta do Google Fotos ajuda a identificar elementos concretos em uma extensa coleção de fotografias.

Em um segundo exemplo, um pouco mais complexo, foi mostrado como a IA do Gemini pode analisar uma grande coleção de fotografias para documentar a evolução ao longo do tempo de um processo muito específico.

Neste caso, usando um exemplo de natação de uma filha, ofereceram um resumo visual de toda a evolução nesse esporte.

Além disso, enfatizaram como o modelo Gemini melhorou desde seu lançamento original em 6 de dezembro de 2023, melhorando substancialmente em todas as tarefas que essa IA realiza.

Principais Anúncios Inteligências Artificiais

O primeiro grande anúncio do evento foi que o modelo de IA Gemini 1.5 Pro agora está disponível no Gemini Advanced, que é para competir com o ChatGPT.

Também foram apresentados os “Agentes”, ou seja, ferramentas de IA autônomas desenhadas para planejar e executar uma série de tarefas para alcançar objetivos específicos.

Por exemplo, mostraram que, no caso de precisar devolver uns tênis que não são de nosso tamanho após uma compra online, a IA pode gerenciar desde o início até o fim todas as tarefas envolvidas nesse processo.

Projeto Astra de Gemini

Eles também apresentaram o projeto Astra de Gemini. Na demonstração mostrou-se como a IA, através do Gemini, poderá gerenciar interações completamente multimodais no mundo real. A demonstração ilustrou-se com dois exemplos:

Usando um telefone móvel
Usando óculos inteligentes

Em ambos os exemplos, uma pessoa navegava por um espaço mostrando seu entorno em vídeo e interagindo com a IA por meio da voz, enquanto a IA processava o vídeo em tempo real, analisando todos os elementos do entorno e respondendo perguntas com grande rapidez e precisão.

Para mais detalhes desses exemplos, clique aqui.

Apresentação da OpenAI das Inteligências Artificiais

Um dia antes da apresentação do Google, a OpenAI fez uma apresentação similar com seu GPT-4o (omni):

um modelo capaz de operar nativamente com funções multimodais.

GPT-4o é um modelo que pode reagir através de vídeos, visão e texto em tempo real. Na apresentação do GPT-4o, mostrou-se que agora podemos interagir com o modelo com nossa voz e ele poderá responder a essas interações quase como se fosse um humano.

O modelo utiliza um sistema de linguagem com expressões e articulações como os humanos. O tempo de latência nesta nova versão é em tempo real, algo nunca visto em qualquer modelo de IA.

Vários dos exemplos mostrados são interessantes:

por exemplo, a IA guia uma pessoa cega em um espaço de interação de vários elementos, descrevendo todos os elementos ao redor da pessoa.

Até mesmo como pegar um táxi, tudo em tempo real.

GPT-4o não só é capaz de interagir com o usuário de uma maneira coerente, mas também tem um amplo alcance em termos de interações.

Além disso, o modelo oferece a capacidade de criar personagens consistentes ao longo de diferentes séries de imagens e em diferentes ambientes. Parece que o modelo será mais útil do que seus predecessores no que diz respeito à geração de imagens.

Para mais detalhes, clique aqui

Reflexão Final

A tecnologia avança a passos rápidos; estamos na era da interação com as máquinas. Perderemos nossa essência que nos caracteriza como humanos?

Para mais conteúdo sobre ciências e tecnologia, clique aqui.

As Inteligências Artificiais: A Era da Corrida pelo Conhecimento