BERTimbau, da NeuralMind, é recordista em downloads

BERTimbau, da NeuralMind, é recordista em downloads

Pessoas observando um notebook e um banco de dados

O BERTimbau, algoritmo desenvolvido pela NeuralMind que consiste no BERT (Bidirectional Encoder Representations from Transformers), desenvolvido pelo Google para melhorar o motor de buscas da plataforma, treinado para língua portuguesa, é recordista em downloads do site Hugging Face, ocupando a 38ª posição de uma lista de mais 4,1 mil modelos disponíveis. Entre os modelos especializados em línguas, a vantagem é ainda maior: o BERTimbau está na 6ª posição.

A solução está disponível para a comunidade de desenvolvedores desde janeiro, após árduo trabalho do time da startup campineira. “O que fizemos foi treinar o BERT para língua portuguesa. Foi um trabalho hercúleo, de vários dias das máquinas do Google Cloud, além de várias semanas de preparação dos dados”, afirma o CTO da startup, o professor Roberto Lotufo, que coordenou o trabalho junto ao time de pesquisadores da NeuralMind.

É estimado que 15% das buscas feitas no Google, diariamente, sejam formuladas de forma inédita. Por isso, é preciso chegar ao real significado para garantir a entrega do resultado ideal, através de correlações, associações, entre outros métodos. Disponibilizar essa solução para a língua portuguesa permite avanços na entrega de resultados no idioma brasileiro.

Os primeiros passos do Google

Foi em dezembro do ano passado que o Google anunciou a implantação de um novo algoritmo em seu motor de buscas: o BERT. Disponível em três distribuições pela empresa global, treinadas em inglês, chinês e multi-línguas, a solução consiste em uma biblioteca pré-treinada para processamento de linguagem natural, que permite melhor entendimento do que está sendo pesquisado pelo usuário e, por consequência, fornece resultados mais assertivos.

A fim de popularizar o uso do algoritmo na língua portuguesa, a NeuralMind, startup focada em soluções de análise de texto e imagens usando inteligência artificial, treinou o algoritmo usando o BrWaC (Brazilian Web as Corpus) para disponibilizá-lo em seu GitHub. A empresa foi a primeira a fornecer a solução no idioma brasileiro.

Acesso o modelo desenvolvido pela NeuralMind

Interessados devem acessar o GitHub da NeuralMind ou na página do HuggingFaces para ter acesso ao repositório. Informações: www.github.com/neuralmind-ai/portuguese-bert.