Da EPFL, um novo modelo multimodal para IA mais flexível

Pode aprender a partir de texto, imagens, vídeo e som e, graças à modularidade, produz qualquer número ou combinação de previsões

Machine Learning: um novo modelo multimodal para IA mais flexível da EPFL
Da EPFL, um novo modelo multimodal para IA mais flexível (Foto: Brian Penny/Pixabay)

Quer estejamos falando de OpenAI ou ChatGPT, a grande maioria dos chatbots inteligência artificial generativa baseiam-se nos chamados Modelo de linguagem grande (LLM), modelos de deep learning em grande escala, treinados para fornecer respostas às perguntas que lhes são feitas, aprendendo informações por meio de grandes quantidades de texto.

A última fronteira doIA generativa são o modelos multimodais, que combinam compreensão linguística e imagens, vídeo e áudio para oferecer uma experiência e serviço ainda mais avançados.

A sua criação, no entanto, apresenta vários desafios, especialmente se a intenção é construir modelos multimodais em pequena escala: a frequente presença de dados faltantes pela indisponibilidade de informações, quase sempre por disponibilidade parcial de recursos.

Em suma, o risco é que o modelo aprenda com base numa falta e que os cálculos e previsões sejam distorcidos. E foi aqui que a EPFL começou com o seu novo projeto.

Da Universidade Técnica de Lausanne e Zurique, uma coalizão para energia verde
Em 3D a luva tecnológica que vai tornar tangível a Realidade Virtual

Machine Learning
Campus da Politécnica Federal de Lausanne (Foto: Facebook/EFPL)

MultiModN, o modelo multimodal modular nascido em Lausanne

Os pesquisadores da Politécnico Federal de Lausanne (EPFL), uma das melhores universidades do mundo em termos de engenharia e tecnologia da informação, desenvolveram de fato MultiModN, um modelo multimodal modular exclusivo apresentado recentemente no NeurIPS2023.

Pesquisadores dos laboratórios de Machine Learning for Education (ML4ED) e Machine Learning and Optimization (MLO) da Escola de Ciência da Computação e Comunicação da EPFL decidiram desenvolver e testar exatamente o oposto de uma escala grande, mas pensar em uma escala menor.

Liderado pelo professor Mary-Anne Hartley, diretor do Laboratório de Tecnologias Globais Inteligentes de Saúde, hospedado conjuntamente na MLO e na Escola de Medicina de Yale, e professor Tanja Käser, diretor do ML4ED, a equipe criou um modelo multimodal que pode aprender a partir de textos, imagens, vídeos e sons, mas que, ao contrário dos existentes, é composto por um número variável de módulos menores, autônomo e específico de entrada.

Estes últimos podem ser selecionados com base nas informações disponíveis e depois reunidos em uma sequência de qualquer número, combinação ou tipo de entrada. Pode, portanto, produzir qualquer número ou combinação de previsões.

"Avaliamos MultiModN em dez atividades reais, incluindo suporte para diagnóstico médico, previsão de desempenho acadêmico e previsão do tempo”, ele explicou Vinitra Swamy, doutorando no ML4ED e MLO e primeiro coautor do projeto.

“Através desses experimentos, acreditamos que MultiModN é a primeira abordagem intrinsecamente interpretável e resistente a dados perdidos para modelagem multimodal".

A "receita" da EPFL para computadores quânticos mais poderosos
Da Inteligência Artificial um impulso decisivo às criptomoedas?

Machine Learning
Escola EPFL de Ciência da Computação e Comunicação (Foto: Facebook/EPFL IC)

O primeiro caso de uso: decisões clínicas para pessoal médico

O primeiro caso de uso do MultiModN será como sistema de suporte para decisões clínicas para pessoal médico em ambientes com recursos limitados.

De facto, no sector da saúde, muitas vezes faltam dados clínicos, talvez devido a recursos limitados (um paciente não pode pagar um teste específico) ou, inversamente, devido à abundância de recursos e informação. O MultiModN é capaz de aprender com esses dados do mundo real sem absorver seus chamados vieses e de adaptar as previsões a qualquer combinação ou número de entradas.

"Dados ausentes são uma marca registrada em contextos de recursos limitados e, à medida que os modelos aprendem esses padrões ausentes, eles podem codificar erros em suas previsões”, estressado Mary-Anne Hartley.

“A necessidade de flexibilidade diante de recursos disponíveis imprevisivelmente foi o que inspirou o MultiModN".

Em um evento importante, o impacto da IA ​​e do aprendizado de máquina nos serviços
Todas as razões para a crescente influência da IA ​​na arte digital

Machine Learning
Um laboratório de análises (Foto: Michal Jarmoluk/Pixabay)

Do laboratório à vida real: está em curso um ensaio sobre pneumonia e tuberculose

A publicação, no entanto, é apenas o primeiro passo para a implementação e testes de campo. O professor Hartley trabalhou com colegas do Hospital Universitário de Lausanne (CHUV) e do Inselspital, o Hospital Universitário de Berna, para conduzir estudos clínicos concentra-se no diagnóstico de pneumonia e tuberculose em locais com recursos limitados e está em processo de recrutamento de milhares de pacientes África do Sul, Tanzânia, Namíbia e Benim.

Os grupos de pesquisa empreenderam uma ampla iniciativa de formação, ensinando mais de 100 médicos coletar sistematicamente dados multimodais, incluindo imagens e vídeos de ultrassom, para que o MultiModN possa ser treinado para ser sensível a dados reais de regiões com poucos recursos.

“Estamos coletando exatamente o tipo de dados multimodais complexos que o MultiModN foi projetado para lidar”, disse o médico Noémie Boillat-Blanco, especialista em doenças infecciosas do CHUV.

“Estamos entusiasmados em ver um modelo que pode apreciar o complexidade de recursos ausentes em nossos contextos e a falta sistemática de avaliações clínicas de rotina", acrescentou o médico Cristina Keitel do Inselspital, o hospital universitário da capital suíça.

A segurança da IA? A declaração de Bletchley Park é crucial
Eixo Axel Springer-OpenAI para IA a serviço do jornalismo

A inovação da EPFL foi projetada para melhorar a tomada de decisões clínicas, fornecendo acesso ao conhecimento médico especializado (Foto: Irwan/Unsplash)

Aprendizado de máquina a serviço do bem público

O desenvolvimento e treinamento do MultiModN representa a continuação dos esforços da EPFL para adaptar as ferramentas de aprendizado de máquina à realidade e ao bem público, e ocorre logo após o lançamento do Meditron, um modelo de inteligência artificial projetado especificamente para o setor médico.

A Meditron também pertence à categoria de Large Language Models (LLM), mas ao contrário dos modelos generalistas, que atendem a uma ampla gama de tarefas, está focada em campo médico, e é mais compacto em termos de tamanho, mas igualmente eficaz.

O objetivo da Meditron é democratizar o acesso à informação médica de alta qualidade, auxiliando assim nas decisões clínicas.

Os pesquisadores da EPFL desenvolveram duas versões com 7 bilhões e 70 bilhões de parâmetros, respectivamente, e os modelos foram treinados em fontes de dados médicos selecionadas e de alta qualidade, incluindo literatura científica revisada por pares e diversas diretrizes clínicas, garantindo uma base de conhecimento ampla e precisa.

Tanto o Meditron, apresentado em novembro de 2023, como o MultiModN estão, portanto, alinhados com a missão do novo Centro de IA da EPFL, que se concentra em como a inteligência artificial responsável e eficaz pode promover a inovação tecnológica em benefício de todos os setores da sociedade.

Os sensores revolucionários que podem economizar milhões de baterias
AI: a guerra que está prestes a eclodir não será como esperamos…

Machine Learning: um novo modelo multimodal para IA mais flexível da EPFL
Exterior do campus da EPFL com logotipo da Politécnica Federal de Lausanne (Foto: Facebook/EFPL IC)