Screenshot 2023 04 16 at 22.08.52.png

Veja por que o GPT-4 supera o GPT3.5, LLMs na depuração de código

O aumento da popularidade da inteligência artificial (IA) provavelmente levou muitos a se perguntarem se esta é apenas a próxima mania tecnológica que terminará em seis meses.

No entanto, um recente teste de benchmarking conduzido por CatId revelou o quão longe o GPT-4 chegou – sugerindo que poderia ser um divisor de águas para o ecossistema web3.

Teste de depuração de código AI

Os dados abaixo mostram vários testes em Large Language Models (LLMs) de código aberto disponíveis, semelhantes ao ChatGPT-3.5 e GPT-4 da OpenAI. CatId testado a mesma amostra de código C+ em cada modelo e registrou alarmes falsos para erros e o número de bugs identificados.

LLaMa 65B (4-bit GPTQ) model: 1 false alarms in 15 good examples.  Detects 0 of 13 bugs.
Baize 30B (8-bit) model: 0 false alarms in 15 good examples.  Detects 1 of 13 bugs.
Galpaca 30B (8-bit) model: 0 false alarms in 15 good examples.  Detects 1 of 13 bugs.
Koala 13B (8-bit) model: 0 false alarms in 15 good examples.  Detects 0 of 13 bugs.
Vicuna 13B (8-bit) model: 2 false alarms in 15 good examples.  Detects 1 of 13 bugs.
Vicuna 7B (FP16) model: 1 false alarms in 15 good examples.  Detects 0 of 13 bugs.

GPT 3.5: 0 false alarms in 15 good examples.  Detects 7 of 13 bugs.
GPT 4: 0 false alarms in 15 good examples.  Detects 13 of 13 bugs.

Os LLMs de código aberto detectaram apenas 3 dos 13 bugs em seis modelos, identificando quatro falsos positivos. Enquanto isso, o GPT-3.5 detectou 7 dos 13, e a última oferta da OpenAi, GPT-4, detectou todos os 13 dos 13 bugs sem alarmes falsos.

O avanço na detecção de bugs pode mudar o jogo para a implantação de contratos inteligentes na web3, além de inúmeros outros setores da web2 que se beneficiarão enormemente. Por exemplo, a web3 conecta atividades e propriedades digitais com instrumentos financeiros, dando a ela o apelido de ‘a Internet do Valor’. Portanto, é de vital importância que todo o código executado nos contratos inteligentes que alimentam o web3 esteja livre de todos os bugs e vulnerabilidades. Um único ponto de entrada para um mau ator pode levar à perda de bilhões de dólares em instantes.

GPT-4 e AutoGPT

Os resultados impressionantes do GPT-4 demonstram que o hype atual é justificado. Além disso, a capacidade da IA ​​de ajudar a garantir a segurança e a estabilidade do ecossistema web3 em evolução está ao nosso alcance.

Aplicativos como o AutoGPT surgiram, permitindo que a OpenAI crie outros agentes de IA para delegar tarefas de trabalho. Ele também usa o Pinecone para indexação de vetores para obter acesso ao armazenamento de memória de longo e curto prazo, abordando assim as limitações de token do GPT-4. Várias vezes na semana passada, o aplicativo foi tendência no Twitter globalmente por pessoas girando sua própria IA exércitos de agentes em todo o mundo.

Usando o AutoGPT como referência, pode ser possível desenvolver um aplicativo semelhante ou bifurcado para monitorar continuamente, detectar bugs e sugerir soluções para o código em contratos inteligentes atualizáveis. Essas edições podem ser aprovadas manualmente pelos desenvolvedores ou até mesmo por um DAO, garantindo que haja um ‘humano no loop’ para autorizar a implantação do código.

Um fluxo de trabalho semelhante também pode ser criado para implantar contratos inteligentes por meio de revisão de bugs e transações simuladas.

Verificação da realidade?

No entanto, as limitações técnicas precisariam ser resolvidas antes que os contratos inteligentes gerenciados por IA pudessem ser implantados em ambientes de produção. Embora os resultados do Catid revelem que o escopo do teste é limitado, concentrando-se em um pequeno trecho de código em que o GPT-4 se destaca.

No mundo real, os aplicativos contêm vários arquivos de código complexo com inúmeras dependências, que ultrapassariam rapidamente as limitações do GPT-4. Infelizmente, isso significa que o desempenho do GPT-4 em situações práticas pode não ser tão impressionante quanto o teste sugere.

No entanto, agora está claro que a questão não é mais se um gravador/depurador de código AI impecável é viável; a questão agora é quais preocupações éticas, regulatórias e de agência surgem. Além disso, aplicativos como o AutoGPT já estão razoavelmente próximos de serem capazes de gerenciar autonomamente uma base de código por meio do uso de vetores e agentes adicionais de IA. As limitações estão principalmente na robustez e escalabilidade do aplicativo — que pode ficar preso em loops.

O jogo está mudando

O GPT-4 foi lançado há apenas um mês e já há uma abundância de novos projetos públicos de IA – como AutoGPT e X.AI de Elon Musk– reimaginando a conversa futura sobre tecnologia.

A indústria criptográfica parece privilegiada para alavancar o poder de modelos como o GPT-4 como contratos inteligentes, oferecendo um caso de uso ideal para criar produtos financeiros genuinamente autônomos e descentralizados.

Quanto tempo levará para ver o primeiro DAO verdadeiramente autônomo sem humanos no circuito?

o posto Veja por que o GPT-4 supera o GPT3.5, LLMs na depuração de código apareceu primeiro em CryptoSlate.

Fonte

Compartilhe:

Facebook
Twitter
LinkedIn
Pinterest
Pocket
WhatsApp

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *