GEMINI o modelo mais robusto do mundo

AI Generativa Artificial Intelligence Chat GPT GAN Machine Learning Redes Neurais TecnologiaLeave a Comment on GEMINI o modelo mais robusto do mundo

GEMINI o modelo mais robusto do mundo

Qualquer coisa para qualquer coisa

Como adiantado pela OneToday.News Gemini é nativamente multimodal, o que lhe dá o potencial de transformar qualquer tipo de entrada em qualquer tipo de saída.

Cada mudança tecnológica é uma oportunidade para promover a descoberta científica, acelerar o progresso humano e melhorar vidas. Acredito que a transição que estamos vendo agora com a AI será a mais profunda de nossas vidas, muito maior do que a mudança para dispositivos móveis ou para a web antes dela. A AI tem o potencial de criar oportunidades — do quotidiano ao extraordinário — para pessoas em todo o mundo. Trará novas ondas de inovação e progresso económico e impulsionará o conhecimento, a aprendizagem, a criatividade e a produtividade numa escala nunca vista antes.

É isso que me entusiasma: a oportunidade de tornar a AI útil para todos, em qualquer lugar do mundo.

Após quase oito anos de nossa jornada como uma empresa que prioriza a AI, o ritmo do progresso está apenas acelerando: milhões de pessoas estão agora usando AI generativa em nossos produtos para fazer coisas que não conseguiam há um ano, desde encontrar respostas até soluções mais complexas. questões sobre o uso de novas ferramentas para colaborar e criar. Ao mesmo tempo, os desenvolvedores estão usando nossos modelos e infraestrutura para criar novas aplicações generativas de AI, e startups e empresas em todo o mundo estão crescendo com nossas ferramentas de AI.

Este é um impulso incrível e, no entanto, estamos apenas começando a arranhar a superfície do que é possível.

Estamos abordando esse trabalho com ousadia e responsabilidade. Isso significa sermos ambiciosos na nossa investigação e procurarmos capacidades que trarão enormes benefícios às pessoas e à sociedade, ao mesmo tempo que construímos salvaguardas e trabalhamos em colaboração com governos e especialistas para enfrentar os riscos à medida que a AI se torna mais capaz. E continuamos investindo nas melhores ferramentas, modelos básicos e infraestrutura e trazendo-os para nossos produtos e para outros, guiados por nossos Princípios de AI.

Agora, estamos dando o próximo passo em nossa jornada com o Gemini, nosso modelo mais capaz e geral até agora, com desempenho de última geração em muitos benchmarks líderes. Nossa primeira versão, Gemini 1.0, é otimizada para diferentes tamanhos: Ultra, Pro e Nano. Estes são os primeiros modelos da era Gemini e a primeira concretização da visão que tínhamos quando formamos o Google DeepMind no início deste ano. Esta nova era de modelos representa um dos maiores esforços científicos e de engenharia que empreendemos como empresa. Estou genuinamente animado com o que está por vir e com as oportunidades que GEMINI abrirá para pessoas em todos os lugares.

–Sundar

CEO do Google

Apresentando Gemini

A AI tem sido o foco de muitas companhias. Hoje, estamos um passo mais perto dessa visão ao apresentarmos o Gemini, o modelo mais capaz e geral já construido .

Gemini é o resultado de esforços colaborativos em grande escala entre equipes do Google, incluindo nossos colegas do Google Research. Foi construído desde o início para ser multimodal, o que significa que pode generalizar e compreender, operar e combinar diferentes tipos de informação, incluindo texto, código, áudio, imagem e vídeo.

Gemini também é nosso modelo mais flexível até agora — capaz de funcionar com eficiência em tudo, desde data centers até dispositivos móveis. Seus recursos de última geração melhorarão significativamente a forma como os desenvolvedores e clientes empresariais constroem e escalam com IA.

Otimizamos o Gemini 1.0, nossa primeira versão, para três tamanhos diferentes:

  • Gemini Ultra — nosso maior e mais capaz modelo para tarefas altamente complexas.
  • Gemini Pro — nosso melhor modelo para escalabilidade em uma ampla variedade de tarefas.
  • Gemini Nano: nosso modelo mais eficiente para tarefas no dispositivo.

Desempenho de última geração

Testamos rigorosamente nossos modelos Gemini e avaliamos seu desempenho em uma ampla variedade de tarefas. Da imagem natural, compreensão de áudio e vídeo ao raciocínio matemático, o desempenho do Gemini Ultra excede os resultados atuais de última geração em 30 dos 32 benchmarks acadêmicos amplamente utilizados na pesquisa e desenvolvimento de modelos de linguagem grande (LLM).

Com uma pontuação de 90,0%, o Gemini Ultra é o primeiro modelo a superar os especialistas humanos em MMLU (compreensão massiva de linguagem multitarefa), que usa uma combinação de 57 disciplinas, como matemática, física, história, direito, medicina e ética, para testar o conhecimento mundial e as habilidades de resolução de problemas.

Nossa nova abordagem de benchmark para MMLU permite que Gemini use seus recursos de raciocínio para pensar com mais cuidado antes de responder perguntas difíceis, levando a melhorias significativas em relação ao uso apenas de sua primeira impressão.

Um gráfico que mostra o desempenho do Gemini Ultra em benchmarks de texto comuns, em comparação com GPT-4 (números de API calculados onde faltavam os números relatados).

Gemini supera o desempenho de última geração em uma série de benchmarks, incluindo texto e codificação.

O Gemini Ultra também alcança uma pontuação de última geração de 59,4% no novo benchmark MMMU, que consiste em tarefas multimodais abrangendo diferentes domínios que exigem raciocínio deliberado.

Com os benchmarks de imagem que testamos, o Gemini Ultra superou os modelos de última geração anteriores, sem a ajuda de sistemas de reconhecimento óptico de caracteres (OCR) que extraem texto de imagens para processamento posterior. Esses benchmarks destacam a multimodalidade nativa de GEMINI e indicam os primeiros sinais das habilidades de raciocínio mais complexas de GEMINI.

Veja mais detalhes NO relatório técnico do Gemini.

Um gráfico que mostra o desempenho do Gemini Ultra em benchmarks multimodais em comparação com o GPT-4V, com modelos SOTA anteriores listados em locais onde os recursos não são suportados no GPT-4V.

Gemini supera o desempenho de última geração em uma série de benchmarks multimodais.

Capacidades de próxima geração

Até agora, a abordagem padrão para a criação de modelos multimodais envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar aproximadamente algumas dessas funcionalidades. Às vezes, esses modelos podem ser bons na execução de determinadas tarefas, como descrever imagens, mas enfrentam dificuldades com raciocínios mais conceituais e complexos.

Projetamos o Gemini para ser nativamente multimodal, pré-treinado desde o início em diferentes modalidades. Em seguida, aperfeiçoámo-lo com dados multimodais adicionais para refinar ainda mais a sua eficácia. Isso ajuda a Gemini a compreender e raciocinar perfeitamente sobre todos os tipos de informações desde o início, muito melhor do que os modelos multimodais existentes – e suas capacidades são de última geração em quase todos os domínios.

Saiba mais sobre os recursos do Gemini e veja como ele funciona.

Raciocínio sofisticado

Os sofisticados recursos de raciocínio multimodal do Gemini 1.0 podem ajudar a compreender informações escritas e visuais complexas. Isso o torna excepcionalmente hábil em descobrir conhecimentos que podem ser difíceis de discernir em meio a grandes quantidades de dados.

A sua notável capacidade de extrair insights de centenas de milhares de documentos através da leitura, filtragem e compreensão de informações ajudará a proporcionar novos avanços a velocidades digitais em muitos campos, da ciência às finanças.

Gêmeos desbloqueia novos insights científicos.

Compreender texto, imagens, áudio e muito mais

O Gemini 1.0 foi treinado para reconhecer e compreender textos, imagens, áudio e muito mais ao mesmo tempo, para compreender melhor informações diferenciadas e poder responder perguntas relacionadas a tópicos complicados. Isso o torna especialmente bom para explicar o raciocínio em assuntos complexos como matemática e física.

Gêmeos explica o raciocínio em matemática e física.

 

Codificação avançada

Nossa primeira versão do Gemini pode compreender, explicar e gerar código de alta qualidade nas linguagens de programação mais populares do mundo, como Python, Java, C++ e Go. Sua capacidade de trabalhar em vários idiomas e raciocinar sobre informações complexas o torna um dos principais modelos básicos de codificação do mundo.

O Gemini Ultra se destaca em vários benchmarks de codificação, incluindo HumanEval, um importante padrão do setor para avaliar o desempenho em tarefas de codificação, e Natural2Code, nosso conjunto de dados interno mantido, que usa fontes geradas pelo autor em vez de informações baseadas na Web.

O Gemini também pode ser usado como mecanismo para sistemas de codificação mais avançados. Há dois anos apresentamos o AlphaCode, o primeiro sistema de geração de código de AI a atingir um nível competitivo de desempenho em competições de programação.

Usando uma versão especializada do Gemini, criamos um sistema de geração de código mais avançado, AlphaCode 2, que se destaca na resolução de problemas de programação competitivos que vá além da codificação para envolver matemática complexa e ciência da computação teórica.

Gêmeos é excelente em codificação e programação competitiva.

Gemini se destaca em codificação e programação competitiva

Quando avaliado na mesma plataforma do AlphaCode original, o AlphaCode 2 apresenta grandes melhorias, resolvendo quase o dobro de problemas, e estimamos que seu desempenho seja melhor que 85% dos participantes da competição – acima dos quase 50% do AlphaCode. Quando os programadores colaboram com o AlphaCode 2 definindo certas propriedades a serem seguidas pelos exemplos de código, ele tem um desempenho ainda melhor.

Estamos entusiasmados com o fato de os programadores usarem cada vez mais modelos de AI altamente capazes como ferramentas colaborativas que podem ajudá-los a raciocinar sobre os problemas, propor designs de código e ajudar na implementação – para que possam lançar aplicativos e projetar serviços melhores com mais rapidez.

Veja mais detalhes em nosso relatório técnico do AlphaCode 2.

Mais confiável, escalável e eficiente

Treinamos o Gemini 1.0 em escala em nossa infraestrutura otimizada para AI usando unidades de processamento de tensor (TPUs) v4 e v5e projetadas internamente pelo Google . E o projetamos para ser nosso modelo mais confiável e escalonável para treinamento e mais eficiente para servir.

Nas TPUs, o Gemini funciona significativamente mais rápido do que os modelos anteriores, menores e com menos capacidade. Esses aceleradores de AI personalizados estão no centro dos produtos baseados em AI do Google que atendem bilhões de usuários como Pesquisa, YouTube, Gmail, Google Maps, Google Play e Android. Eles também permitiram que empresas em todo o mundo treinassem modelos de AI em grande escala de maneira econômica.

Hoje anunciamos o sistema TPU mais poderoso, eficiente e escalonável até o momento, Cloud TPU v5p, projetado para treinamento de corte- modelos de AI de ponta. Esta TPU de próxima geração acelerará o desenvolvimento do Gemini e ajudará desenvolvedores e clientes corporativos a treinar modelos de AI generativos em grande escala com mais rapidez, permitindo que novos produtos e recursos cheguem aos clientes mais rapidamente.

Uma fileira de supercomputadores aceleradores de IA Cloud TPU v5p em um data center do Google.

Uma fileira de supercomputadores aceleradores de AI Cloud TPU v5p em um data center do Google.

Construído com responsabilidade e segurança no centro

No Google, temos o compromisso de promover uma AI ousada e responsável em tudo o que fazemos. Com base nos Princípios de AI do Google e nas políticas de segurança robustas de nossos produtos, estamos adicionando novas proteções para levar em conta os recursos multimodais do Gemini. Em cada estágio de desenvolvimento, consideramos riscos potenciais e trabalhamos para testá-los e mitigá-los.

O Gemini tem as avaliações de segurança mais abrangentes de qualquer modelo de AI do Google até o momento, inclusive quanto a preconceitos e toxicidade. Conduzimos novas pesquisas sobre possíveis áreas de risco como crimes cibernéticos, persuasão e autonomia, e aplicamos o que há de melhor do Google Research para ajudar a identificar problemas críticos de segurança antes da implantação do Gemini.técnicas de testes adversários

Para identificar pontos cegos na nossa abordagem de avaliação interna, estamos a trabalhar com um grupo diversificado de especialistas e parceiros externos para testar a resistência dos nossos modelos numa série de questões.

Para diagnosticar problemas de segurança de conteúdo durante as fases de treinamento do Gemini e garantir que seus resultados sigam nossas políticas, estamos usando referências como Avisos de toxicidade real , um conjunto de 100.000 prompts com vários graus de toxicidade extraídos da web, desenvolvidos por especialistas do Allen Institute for AI. Mais detalhes sobre este trabalho serão divulgados em breve.

Para limitar os danos, construímos classificadores de segurança dedicados para identificar, rotular e classificar conteúdos que envolvem violência ou estereótipos negativos, por exemplo. Combinada com filtros robustos, esta abordagem em camadas foi projetada para tornar o Gemini mais seguro e inclusivo para todos. Além disso, continuamos a abordar desafios conhecidos para modelos como factualidade, fundamentação, atribuição e corroboração.

A responsabilidade e a segurança serão sempre fundamentais para o desenvolvimento e implementação dos nossos modelos. Este é um compromisso de longo prazo que requer construção colaborativa, por isso estamos fazendo parceria com a indústria e com o ecossistema mais amplo para definir melhores práticas e estabelecer padrões de referência de segurança por meio de organizações como MLCommons , o Fórum do Modelo de Fronteira e seu Segurança de IA Fund e nosso Secure AI Framework (SAIF), que foi projetado para ajudar a mitigar riscos de segurança específicos para sistemas de AI em todos os setores público e privado. Continuaremos fazendo parcerias com pesquisadores, governos e grupos da sociedade civil em todo o mundo à medida que desenvolvemos o Gemini.

Disponibilizando GEMINI para o mundo

O Gemini 1.0 agora está sendo lançado em uma variedade de produtos e plataformas:

Gemini Pro em produtos do Google

Estamos levando o Gemini a bilhões de pessoas por meio dos produtos do Google.

A partir de hoje, Bard usará uma versão aprimorada do Gemini Pro para raciocínio, planejamento, compreensão mais avançados e muito mais. Esta é a maior atualização do Bard desde seu lançamento. Estará disponível em inglês em mais de 170 países e territórios, e planejamos expandir para diferentes modalidades e oferecer suporte a novos idiomas e locais em um futuro próximo.

Também estamos trazendo o Gemini para o Pixel. O Pixel 8 Pro é o primeiro smartphone projetado para rodar o Gemini Nano, que está potencializando novos recursos como o Summarize no aplicativo Recorder e o Smart Reply no Gboard, começando com WhatsApp, Line e KakaoTalk1– com mais aplicativos de mensagens chegando no próximo ano.

Nos próximos meses, o Gemini estará disponível em mais produtos e serviços como Pesquisa, Anúncios, Chrome e Duet AI.

Já estamos começando a testar o Gemini na Pesquisa, o que torna nossa Experiência Gerativa de Pesquisa (SGE) mais rápida para os usuários, com uma redução de 40% na latência em inglês nos EUA, além de melhorias na qualidade.

Construindo com GEMINI

A partir de 13 de dezembro, desenvolvedores e clientes corporativos poderão acessar o Gemini Pro por meio da API Gemini no Google AI Studio ou no Google Cloud Vertex AI.

O Google AI Studio é uma ferramenta de desenvolvedor gratuita baseada na Web para criar protótipos e lançar aplicativos rapidamente com uma chave de API. Quando chegar a hora de uma plataforma de IA totalmente gerenciada, a Vertex AI permite a personalização do Gemini com controle total de dados e se beneficia de recursos adicionais do Google Cloud para segurança empresarial, proteção, privacidade e governança e conformidade de dados.

Os desenvolvedores Android também poderão desenvolver com o Gemini Nano, nosso modelo mais eficiente para tarefas no dispositivo, por meio do AICore, um novo recurso de sistema disponível no Android 14, a partir dos dispositivos Pixel 8 Pro. Inscreva-se para uma visualização antecipada do AICore.

GEMINI Ultra em breve

Para o Gemini Ultra, estamos atualmente concluindo extensas verificações de confiança e segurança, incluindo a formação de equipes externas de confiança, e refinando ainda mais o modelo usando ajuste fino e aprendizagem por reforço a partir de feedback humano (RLHF) antes de torná-lo amplamente disponível.

Como parte desse processo, disponibilizaremos o Gemini Ultra para clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade selecionados para experimentação e feedback iniciais antes de lançá-lo para desenvolvedores e clientes corporativos no início do próximo ano.

No início do próximo ano, também lançaremos o Bard Advanced, uma nova experiência de IA de ponta que oferece acesso ao nosso melhor modelos e recursos, começando pelo Gemini Ultra.

A era Gemini: possibilitando um futuro de inovação

Este é um marco significativo no desenvolvimento da AI ​​e o início de uma nova era para nós no Google, à medida que continuamos a inovar rapidamente e a desenvolver de forma responsável as capacidades dos nossos modelos.

Fizemos grandes progressos no Gemini até agora e estamos trabalhando duro para ampliar ainda mais seus recursos para versões futuras, incluindo avanços no planejamento e na memória, e aumentando a janela de contexto para processar ainda mais informações para fornecer respostas melhores.

Estamos entusiasmados com as incríveis possibilidades de um mundo capacitado de forma responsável pela AI  — um futuro de inovação que aumentará a criatividade, ampliará o conhecimento, fará avançar a ciência e transformará a forma como milhares de milhões de pessoas vivem e trabalham em todo o mundo.

Leave a Reply

Your email address will not be published. Required fields are marked *

Back To Top