A AgiBot, uma fabricante chinesa de robôs humanoides, revelou nesta semana um novo modelo de robô com mobilidade quase humana. De acordo com a companhia, o Lingxi X2 é equipado com inteligência artificial (IA) e já apresenta grande potencial de aplicação em cenários como companhia familiar ou serviços de cuidados para idosos.
Em um vídeo (veja abaixo) divulgado por Peng Zhihui, cofundador da AgiBot, o robô Lingxi X2, que tem 1,3 metro de altura e 33,8 quilos, não apenas anda ou corre, como também dança como um humano, se vira rapidamente e também anda de bicicleta, patinete e hoverboard. E isto tudo com uma flexibilidade que já supera outros robôs do tipo.
Lingxi X2 entende horas e lê bulas de remédios rapidamente
De acordo com Peng, o robô traz competências esportivas, de interação e operação, e foi fabricado com materiais flexíveis e resistentes a impactos. Em meio aos testes realizados, o Lingxi X2 foi capaz de responder às horas — Peng pegou um smartphone e mostrou ao robô, perguntando que horas são.
Baseado em um modelo de linguagem multimodal de grande escala (ou seja, ele foi “exposto” a vários formatos de informação, como texto, áudio, imagens e vídeos), o novo modelo de robô humanoide pode alcançar respostas de interação em milissegundos, avaliar os estados emocionais humanos por meio de expressões faciais e tons de voz, e fornecer respostas correspondentes.
+ Orquestra na Suécia apresenta o primeiro robô violoncelista do mundo
+ Robô ganha rosto com pele viva criada em laboratório
+ China apresenta robô humanoide dotado de IA e que serve café
Além disso, o AgiBot Lingxi X2 mostra que está preparado para ser útil dentro de casa. Em outro teste realizado, ele foi capaz de ler e entender rapidamente uma bula de remédio. Para especialistas que observaram a atuação de X2, o robô atingiu um novo nível de naturalidade na interação entre humanos e robôs.
Entendendo o que é o modelo de linguagem multimodal
O modelo de linguagem multimodal de grande escala mencionado acima refere-se à tecnologia que permite ao Lingxi X2 processar e entender informações de diferentes formas (ou “modos” — por isso é multimodal), como texto, áudio, imagens e até gestos.
Como já explicado, o multimodal significa que o robô não se limita a apenas um tipo de entrada de dados (como apenas texto). Ele consegue trabalhar com múltiplos formatos de informação, que inclui também áudio, imagens e vídeos.
Já o “grande escala” indica que o modelo de linguagem foi treinado com uma enorme quantidade de dados, o que o torna mais preciso e capaz de lidar com uma variedade maior de situações e interações.