O problema com a IA ‘agentes’ generativos

A seguir, é apresentado um post e opinião de John Devadoss, co-fundador da Interwork Alliancez.

Os projetos criptográficos tendem a perseguir a palavra da moda du jour; No entanto, sua urgência na tentativa de integrar ‘agentes’ de IA generativa representa um risco sistêmico. A maioria dos desenvolvedores de criptografia não teve o benefício de trabalhar nas trincheiras persuadindo e atendendo às gerações anteriores de modelos de fundação para começar a trabalhar; Eles não entendem o que deu certo e o que deu errado durante os invernos anteriores da IA, e não apreciam a magnitude do risco associado ao uso de modelos generativos que não podem ser formalmente verificados.

Nas palavras de Obi-Wan Kenobi, esses não são os agentes da IA ​​que você está procurando. Por que?

As abordagens de treinamento dos modelos generativos de IA atuais predispõem a agir enganosamente para receber recompensas mais altas, aprender objetivos desalinhados que generalizam muito acima de seus dados de treinamento e a perseguir esses objetivos usando estratégias de busca de poder.

Sistemas de recompensa na IA se preocupam com um resultado específico (por exemplo, uma pontuação mais alta ou feedback positivo); A maximização da recompensa leva os modelos a aprender a explorar o sistema para maximizar as recompensas, mesmo que isso signifique ‘trapaceando’. Quando os sistemas de IA são treinados para maximizar as recompensas, eles tendem a aprender estratégias que envolvem obter controle sobre recursos e explorar fraquezas no sistema e nos seres humanos para otimizar seus resultados.

Essencialmente, os ‘agentes’ de IA generativos de hoje são construídos em uma fundação que torna quase impossível que qualquer modelo de IA generativo seja alinhado em relação à segurança-prevendo consequências não intencionais; De fato, os modelos podem aparecer ou parecer alinhados mesmo quando não estão.

Fingindo ‘alinhamento’ e segurança

Os comportamentos de recusa nos sistemas de IA são mecanismos extensivamente projetados para impedir que os modelos gerem respostas que violam as diretrizes de segurança ou outro comportamento indesejado. Esses mecanismos são normalmente realizados usando regras e filtros predefinidos que reconhecem certos prompts como prejudiciais. Na prática, no entanto, injeções imediatas e ataques de jailbreak relacionados permitem que os maus atores manipulem as respostas do modelo.

O espaço latente é uma representação matemática compactada, inferior dimensional e matemática, capturando os padrões e os recursos subjacentes dos dados de treinamento do modelo. Para os LLMs, o espaço latente é como o “mapa mental” oculto que o modelo usa para entender e organizar o que aprendeu. Uma estratégia de segurança envolve a modificação dos parâmetros do modelo para restringir seu espaço latente; No entanto, isso se mostra eficaz apenas ao longo de uma ou algumas direções específicas no espaço latente, tornando o modelo suscetível a manipulação adicional de parâmetros por atores maliciosos.

A verificação formal dos modelos de IA usa métodos matemáticos para provar ou tentar provar que o modelo se comportará corretamente e dentro dos limites definidos. Como os modelos generativos de IA são estocásticos, os métodos de verificação se concentram em abordagens probabilísticas; Técnicas como as simulações de Monte Carlo são frequentemente usadas, mas são, obviamente, restritas a fornecer garantias probabilísticas.

À medida que os modelos de fronteira ficam cada vez mais poderosos, agora é aparente que eles exibem comportamentos emergentes, como ‘finge’ alinhamento com as regras e restrições de segurança que são impostas. O comportamento latente nesses modelos é uma área de pesquisa que ainda está para ser amplamente reconhecida; Em particular, o comportamento enganoso por parte dos modelos é uma área que os pesquisadores não entendem – sim.

‘Autonomia’ e responsabilidade não determinística

Os modelos generativos de IA não são determinísticos porque suas saídas podem variar mesmo quando recebidas a mesma entrada. Essa imprevisibilidade decorre da natureza probabilística desses modelos, que amostraram a partir de uma distribuição de respostas possíveis, em vez de seguir um caminho fixo baseado em regras. Fatores como inicialização aleatória, configurações de temperatura e vasta complexidade dos padrões aprendidos contribuem para essa variabilidade. Como resultado, esses modelos não produzem uma resposta única e garantida, mas geram uma das muitas saídas plausíveis, tornando seu comportamento menos previsível e mais difícil de controlar totalmente.

Os corrimãos são mecanismos de segurança pós -fato que tentam garantir que o modelo produza saídas éticas, seguras, alinhadas e de outra forma apropriadas. No entanto, eles geralmente falham porque geralmente têm escopo limitado, restringidos por suas restrições de implementação, sendo capazes de cobrir apenas certos aspectos ou subdomínios de comportamento. Ataques adversários, dados de treinamento inadequados e excesso de ajuste são algumas outras maneiras que tornam esses corrimões ineficazes.

Em setores sensíveis, como finanças, o não determinismo resultante da natureza estocástica desses modelos aumenta os riscos de danos ao consumidor, complicando a conformidade com os padrões regulatórios e a responsabilidade legal. Além disso, a transparência do modelo reduzido e Explicação Impulsionar a adesão às leis de proteção de dados e proteção do consumidor, potencialmente expondo as organizações a riscos de litígios e problemas de responsabilidade resultantes das ações do agente.

Então, para que eles são bons?

Depois de superar o hype ‘Ai Ai’ nos setores de criptografia e nos negócios tradicionais, verifica -se que os agentes generativos de IA estão revolucionando fundamentalmente o mundo dos trabalhadores do conhecimento. Os domínios baseados no conhecimento são o ponto ideal para agentes de IA generativos; Os domínios que lidam com idéias, conceitos, abstrações e o que pode ser considerado como ‘réplicas’ ou representações do mundo real (por exemplo, software e código de computador) serão os primeiros a serem totalmente interrompidos.

A IA generativa representa um salto transformador no aumento das capacidades humanas, aumentando a produtividade, a criatividade, a descoberta e a tomada de decisões. Mas a construção de agentes autônomos de IA que trabalham com carteiras de criptografia requer mais do que criar uma fachada sobre as APIs para um modelo de IA generativo.

Fonte

Compartilhe:

Facebook
Twitter
LinkedIn
Pinterest
Pocket
WhatsApp

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *