NeuralMind disponibiliza modelo BERT do Google em português
Em dezembro do ano passado, o Google anunciou a implantação de um novo algoritmo em seu motor de buscas: o BERT (Bidirectional Encoder Representations from Transformers). Disponível em três distribuições pela empresa global, treinadas em inglês, chinês e multi-línguas, a solução consiste em uma biblioteca pré-treinada para processamento de linguagem natural, que permite melhor entendimento do que está sendo pesquisado pelo usuário e, por consequência, fornece resultados mais assertivos.
A fim de popularizar o uso do algoritmo na língua portuguesa, a NeuralMind, startup focada em soluções de análise de texto e imagens usando inteligência artificial, treinou o algoritmo usando o BrWaC (Brazilian Web as Corpus) para disponibilizá-lo em seu GitHub. A empresa é a primeira a fornecer a solução no idioma brasileiro.
“O que fizemos foi treinar o BERT para língua portuguesa. Foi um trabalho hercúleo, de vários dias das máquinas do Google Cloud, além de várias semanas de preparação dos dados”, afirma o CTO da startup, o professor Roberto Lotufo, que coordenou o trabalho junto ao time de pesquisadores da NeuralMind.
Estima-se que 15% das procuras feitas na plataforma do Google, diariamente, sejam formuladas de forma inédita. Por isso, é preciso chegar ao real significado da busca para garantir a entrega do resultado ideal, através de correlações, associações, entre outros métodos. É esperado que uma em cada dez buscas feitas seja impactada com a adoção do algoritmo. “O BERT permitiu que praticamente todas as tarefas de Linguagem Natural fossem melhor resolvidas, muitas vezes ultrapassando o desempenho humano”, avalia Lotufo.
A solução é um grande ganho para empresas que queiram adotá-la, bem como para a comunidade de programação e tecnologia. Interessados devem acessar o GitHub da NeuralMind ou na página do HuggingFaces para ter acesso ao repositório. Informações: www.github.com/neuralmind-ai/portuguese-bert.