O último recurso anunciado pela OpenAI é um dos recursos que eu estava esperando: o GPT-4 Vision. Este modelo possui uma característica inovadora: a compreensão de imagens.
Agora, o modelo de IA da OpenAI pode “ver” e “compreender” os recursos visuais, analisá-los e interagir com eles para fornecer respostas perspicazes.
Vamos nos aprofundar nisso e ver como o modelo pode ajudar você como designer de produto em seu trabalho diário.
O que é o modo de visão ChatGPT?
ChatGPT 4 Vision permite que o modelo de IA capture imagens, analise-as e responda a consultas baseadas em texto sobre elas.
Como resultado desta capacidade, a IA torna-se mais poderosa. Ele pode processar dados visuais e entradas textuais para compreender melhor o conteúdo.
Com esse novo recurso, os usuários podem fazer upload de imagens com notas manuscritas, diagramas, gráficos e muito mais. Eles podem extrair insights detalhados de conteúdo visual para transcrever texto, transformar gráficos e diagramas em tabelas ou descrições de texto e resolver problemas matemáticos visuais.
Como usar o modo ChatGPT Vision?
- Acesso: Primeiro, certifique-se de ser assinante do ChatGPT Plus ou ChatGPT Enterprise, pois o Vision Mode está disponível apenas para assinantes. Você pode acessar o recurso no aplicativo iOS baseado em navegador do ChatGPT ou no aplicativo Android.
- Interface: Ao abrir a interface do ChatGPT, você verá um modo de bate-papo “GPT-4”. Selecione este como seu modo de bate-papo padrão.
- Carregar imagem: agora você poderá fazer upload de imagens. Clique no ícone “carregar imagem” e selecione a imagem que deseja que o ChatGPT analise.
- Faça perguntas: Após o upload, você pode usar o espaço de texto para tirar dúvidas ou buscar informações sobre a imagem enviada.
- Enviar: Agora, relaxe e observe enquanto o ChatGPT analisa a imagem e fornece insights e respostas detalhadas com base em suas perguntas.
- Capacidades exclusivas do ChatGPT 4 Vision
- Identificação de objetos: O ChatGPT 4 Vision pode identificar e descrever objetos em imagens, estendendo sua utilidade além da compreensão do texto.
- Transcrição de texto de imagens: O recurso pode transcrever conteúdo em texto digital.
- Interpretação de dados: O GPT-4V pode ler e interpretar gráficos e fornecer resumos com base em vários parâmetros.
- Assistência Educacional: Além da versatilidade no reconhecimento de imagens, o ChatGPT 4 Vision também é ótimo para explicar temas complexos, tirar dúvidas e elaborar diagramas de livros didáticos.
- Transformar uma imagem em código: O modelo pode pegar uma imagem da estrutura de um site e convertê-la em um site real.
Limitações e cuidados da visão GPT-4
Não confie 100% no Chat
Embora o ChatGPT 4 Vision represente um salto incrível na tecnologia de IA, também é fundamental reconhecer que o modelo pode cometer erros ao analisar um visual.
Portanto, é importante ser crítico quanto à resposta do chat e não confiar 100% nela. O modelo de IA pode apresentar detalhes ou narrativas baseadas em imagens que não correspondem à realidade.
Não carregue imagens ou dados confidenciais
Ao trabalhar com ChatGPT, devemos lembrar que quando carregamos informações, não temos controle sobre o que a IA faz com esses dados (lembramos da história da Samsung) .
Por isso, não carregue nada privado ou confidencial que o bate-papo possa usar posteriormente.
Ideias para usar ChatGPT 4 Vision como designer de produto
Para maximizar os benefícios do GPT-4 Vision, é útil compreender seu potencial e casos de uso em vários domínios. Aqui estão algumas maneiras de utilizar efetivamente o GPT-4 Vision:
Entenda o estilo de uma interface
Aqui, carreguei uma imagem de uma interface e perguntei ao ChatGPT qual é o estilo; ChatGPT respondeu que é Skeuomorfismo. Além disso, me mostrou informações sobre por que pensa ser do estilo Skeuomorfismo.
Qual é o logotipo?
Aqui mostrei a imagem de um copo de cerveja com o logotipo da La Chouffe. Perguntei ao ChatGPT e ele me deu as informações sobre o logotipo.
É importante saber que tentei fazer upload apenas do logotipo sem o copo de cerveja e não encontrei resposta. Depois que carreguei a imagem com o copo de cerveja ficou mais fácil me responder.
Analise designs de interface do usuário em busca de problemas de acessibilidade
Carreguei a imagem de um cartão no chat e perguntei sobre questões de acessibilidade. Eu tinha feito um contraste ruim no botão. O chat encontrou o problema, mas para minha surpresa, me deu mais ideias para melhorar a acessibilidade.
Posso ver como, no futuro, teremos um verificador de acessibilidade em nossa ferramenta de design com um clique baseado nesta ferramenta.
Uma imagem para codificar: Cartão
Eu queria que o ChatGPT produzisse um cartão móvel usando uma imagem e especificações que criei com o plugin EightShapes .
Embora o cartão não tenha saído exatamente como planejado, ele está próximo do design solicitado.
Acho que com o passar do tempo, essa capacidade ficará melhor para que a IA possa criar interfaces exatamente como desejamos.
Marcar zona específica
O objetivo deste teste foi ver se o ChatGPT entendeu a zona que marquei na imagem. Perguntei qual é o nome do componente que marquei.