A linguagem e o seu papel na demonstração e facilitação da compreensão – ou inteligência – é uma parte fundamental do ser humano. Dá às pessoas a capacidade de comunicar pensamentos e conceitos, expressar ideias, criar memórias e construir compreensão mútua.
Como parte de um portfólio mais amplo de pesquisa em AI, acreditamos que o desenvolvimento e o estudo de modelos de linguagem mais poderosos – sistemas que preveem e geram texto – têm um enorme potencial para a construção de sistemas avançados de AI que podem ser usados com segurança e eficiência para resumir informações, fornecer informações especializadas. conselhos e siga as instruções através da linguagem natural. O desenvolvimento de modelos linguísticos benéficos requer investigação sobre os seus potenciais impactos, incluindo os riscos que representam. Isto inclui a colaboração entre especialistas de diversas origens para antecipar e enfrentar cuidadosamente os desafios que os algoritmos de treinamento em conjuntos de dados existentes podem criar.
Hoje estamos lançando três artigos sobre modelos de linguagem que refletem essa abordagem interdisciplinar. Eles incluem um estudo detalhado de um modelo de linguagem de transformador de 280 bilhões de parâmetros chamado Gopher , um estudo dos riscos éticos e sociais associados a grandes modelos de linguagem e um artigo que investiga uma nova arquitetura com melhor eficiência de treinamento.
Gopher – Um modelo de linguagem de parâmetros de 280 bilhões
Na busca por explorar modelos de linguagem e desenvolver novos, treinamos uma série de modelos de linguagem transformadora de diferentes tamanhos, variando de 44 milhões de parâmetros a 280 bilhões de parâmetros (o maior modelo chamamos de Gopher ) .
A nossa investigação investigou os pontos fortes e fracos desses modelos de diferentes tamanhos, destacando áreas onde o aumento da escala de um modelo continua a melhorar o desempenho – por exemplo, em áreas como a compreensão de leitura, a verificação de factos e a identificação de linguagem tóxica. Também apresentamos resultados onde a escala do modelo não melhora significativamente os resultados – por exemplo, em tarefas de raciocínio lógico e de bom senso.
Em nossa pesquisa, descobrimos que as capacidades do Gopher excedem os modelos de linguagem existentes para uma série de tarefas importantes. Isso inclui o benchmark Massive Multitask Language Understanding (MMLU), onde Gopher demonstra um avanço significativo em direção ao desempenho de especialistas humanos em relação ao trabalho anterior.
Além da avaliação quantitativa do Gopher , também exploramos o modelo por meio de interação direta. Uma das nossas principais conclusões foi que, quando Gopher é solicitado a uma interação de diálogo (como num chat), o modelo pode por vezes fornecer uma coerência surpreendente.
Aqui Gopher pode discutir a biologia celular e fornecer uma citação correta, apesar de nenhum ajuste específico do diálogo. No entanto, a nossa investigação também detalhou vários modos de falha que persistem em todos os tamanhos de modelos, entre eles uma tendência à repetição, o reflexo de preconceitos estereotipados e a propagação confiante de informações incorretas.
Este tipo de análise é importante porque compreender e documentar os modos de falha dá-nos uma ideia de como grandes modelos de linguagem podem levar a danos a jusante e mostra-nos onde os esforços de mitigação na investigação devem concentrar-se para resolver esses problemas.
Riscos éticos e sociais de grandes modelos de linguagem
Em nosso segundo artigo, antecipamos possíveis riscos éticos e sociais de modelos de linguagem e criamos uma classificação abrangente desses riscos e modos de falha, com base em pesquisas anteriores nesta área [ Bommasani et al 2021 , Bender et al 2021 , Patterson et al 2021 ]. Esta visão sistemática é um passo essencial para compreender estes riscos e mitigar potenciais danos. Apresentamos uma taxonomia dos riscos relacionados aos modelos de linguagem, categorizados em seis áreas temáticas, e detalhamos 21 riscos.
É essencial ter uma visão ampla das diferentes áreas de risco: como mostramos no documento, um foco demasiado restrito num único risco isoladamente pode agravar outros problemas. A taxonomia que apresentamos serve de base para que especialistas e um discurso público mais amplo construam uma visão geral compartilhada de considerações éticas e sociais sobre modelos linguísticos, tomem decisões responsáveis e troquem abordagens para lidar com os riscos identificados.
Nossa pesquisa conclui que duas áreas em particular requerem mais trabalho. Em primeiro lugar, as atuais ferramentas de avaliação comparativa são insuficientes para avaliar alguns riscos importantes, por exemplo, quando os modelos linguísticos produzem informações incorretas e as pessoas confiam que essas informações são verdadeiras.
Avaliar riscos como estes requer um maior escrutínio da interação humano-computador com modelos de linguagem. No nosso artigo listamos vários riscos que requerem, de forma semelhante, ferramentas de análise novas ou mais interdisciplinares. Em segundo lugar, é necessário mais trabalho na mitigação de riscos. Por exemplo, sabe-se que os modelos de linguagem reproduzem estereótipos sociais prejudiciais, mas a investigação sobre este problema ainda está numa fase inicial, como mostrou um artigo recente da DeepMind .
Treinamento eficiente com recuperação em escala da Internet
Nosso artigo final baseia-se nos fundamentos do Gopher e em nossa taxonomia de risco ético e social, propondo uma arquitetura de modelo de linguagem aprimorada que reduz o custo de energia do treinamento e facilita o rastreamento dos resultados do modelo até as fontes dentro do corpus de treinamento.
O Retrieval-Enhanced Transformer (RETRO) é pré-treinado com um mecanismo de recuperação em escala da Internet. Inspirado em como o cérebro depende de mecanismos de memória dedicados ao aprender, o RETRO consulta com eficiência passagens de texto para melhorar suas previsões. Ao comparar os textos gerados com as passagens nas quais o RETRO se baseou para geração, podemos interpretar por que o modelo faz certas previsões e de onde elas vieram. Também vemos como o modelo obtém desempenho comparável a um Transformer normal com uma ordem de magnitude menos parâmetros e obtém desempenho de última geração em vários benchmarks de modelagem de linguagem.
Thank you for your sharing. I am worried that I lack creative ideas. It is your article that makes me full of hope. Thank you. But, I have a question, can you help me?
thanks for the feedback