antrópicoa startup de IA fundada por ex-executivos da OpenAI, revelou recentemente seu mais novo player no campo da IA, Claude 2, marcando um passo importante no desenvolvimento de modelos generativos de IA.
Este novo modelo de linguagem grande (LLM), Claude 2, causa um impacto significativo no campo da IA com sua janela de contexto sem precedentes de 100.000 tokens – uma capacidade que excede em muito seu antecessor e a maioria dos modelos concorrentes.
Limites de token para modelos de linguagem grandes
Para contextualizar, o OpenAI tem 8.000 símbolo limite para seu principal produto, GPT-4. O modelo GPT-4 de ponta oferece um limite de 32.000 tokens, mas isso só é acessível a um número seleto de clientes no momento. Além disso, GPT-3.5-turbo, o modelo usado para a versão gratuita do ChatGPT, oferece até 16.000 tokens, mas fica aquém do GPT-4.
Um limite de token define o tamanho máximo possível da janela de contexto de um modelo. Essencialmente, o limite é o volume de texto que o modelo pode analisar antes de gerar novo conteúdo e é vital para determinar a eficácia de um modelo.
A janela de contexto refere-se a todo o objeto de texto que o modelo considera antes de gerar texto adicional ou, neste caso, formular uma resposta. Sempre que ocorre uma interação, toda a conversa até aquele ponto, incluindo a última mensagem do usuário, é enviada ao LLM por meio da API. Este processo pode aparecer como uma interação contínua da perspectiva do usuário. Ainda assim, na realidade, o LLM prevê a resposta mais adequada com base na conversa até aquele momento.
O LLM não retém informações sobre solicitações anteriores, e cada resposta é gerada com base no histórico de conversas que recebe naquele momento. Esse mecanismo oculto é um fator crucial que permite que esses modelos gerem respostas contextualmente coerentes e relevantes.
Avanços antrópicos em IA
De acordo com o TechCrunch relatório, a janela de contexto de 100.000 tokens do Claude 2 é a maior de qualquer modelo comercialmente disponível. Uma janela de contexto tão grande oferece várias vantagens. Por um lado, os modelos com janelas de contexto menores muitas vezes lutam para lembrar até mesmo conversas recentes. Por outro lado, uma janela de contexto maior facilita a geração e a ingestão de muito mais texto. Por exemplo, Claude 2 pode analisar cerca de 75.000 palavras – a extensão de alguns romances inteiros – e gerar uma resposta de cerca de 3.125 tokens. O Techcrunch também informou que um modelo de 200.000 tokens é viável com o Claude 2, “mas a Anthropic não planeja oferecer suporte a isso no lançamento”.
Como a Índia Times observado, o cenário da IA está se transformando em um campo de batalha aberto, com grandes empresas de tecnologia se esforçando para desenvolver suas contribuições para chatbots de IA. Claude 2, com seu alto limite de fichas e recursos aprimorados, de fato representa uma força formidável nessa área.
No entanto, é vital ressaltar que o desenvolvimento da IA não é apenas sobre o avanço tecnológico; trata-se igualmente de assegurar um crescimento responsável e ético. A Anthropic adotou uma abordagem cautelosa ao revelar o Claude 2, com o chefe de go-to-market da empresa, Sandy Banerjee, enfatizando a importância de implantar seus sistemas no mercado para entender seu uso real e como eles podem ser melhorados.
Marco crucial para IA generativa
Por fim, o lançamento do Claude 2 e seu limite de 100.000 tokens para o público é um marco crucial no progresso da IA generativa. À medida que a janela de contexto dos LLMs se expande e o poder de processamento dos chips que os executam aumenta, as possibilidades aparentemente ilimitadas da IA generativa tornam-se mais nítidas.
Muitas metodologias de solicitação emergentes, como o árvore do pensamento processo, têm a ganhar significativamente com este desenvolvimento. Esse processo estratégico de quatro fases – brainstorming, avaliação, expansão e decisão – envolve o modelo de IA gerando inúmeras soluções potenciais, refinando cada uma e, finalmente, escolhendo a mais eficaz.
A janela de contexto maior do Claude 2 poderia aprimorar cada fase desse processo. Por exemplo, durante a fase de brainstorming, o modelo pode gerar uma ampla gama de ideias para a solução de problemas. À medida que as fases de avaliação e expansão se desenrolam, o modelo pode fornecer uma análise mais sutil e uma expansão abrangente de cada estratégia potencial. Por fim, a janela de contexto maior pode permitir um processo de tomada de decisão mais informado, com o modelo tendo acesso a dados mais amplos para decidir a abordagem mais promissora.
Olhando para o futuro, com a combinação do grande limite de tokens de Claude 2 e o sempre crescente poder de processamento da infraestrutura de IA, podemos antecipar modelos de IA que podem efetivamente lidar com problemas mais complexos e multifacetados e gerar soluções cada vez mais sofisticadas.
Um exemplo no blog de IA, Tudo sobre IA, examina um cenário real de negociação de aumento de salário. Um modelo de IA mais avançado poderia fornecer estratégias mais diversificadas, antecipar possíveis respostas, formular argumentos persuasivos e fornecer um plano de ação mais detalhado. Como tal, o crescimento e o avanço da IA generativa, apresentados pelo lançamento de Claude 2, estão abrindo novas perspectivas para a resolução de problemas e processos de tomada de decisão assistidos por IA.