Total Pageviews

Blog Archive

Procura neste Blog

ITO-NeTthings. Com tecnologia do Blogger.

Breaking GPT-4 Bad: Investigação da Check Point expõe como os limites de segurança podem ser violados à medida que os dispositivos lutam com conflitos internos

Breaking GPT-4 Bad: Investigação da Check Point expõe como os limites de segurança podem ser violados à medida que os dispositivos lutam com conflitos
Share it:
Breaking GPT-4 Bad: Investigação da Check Point expõe como os limites de segurança podem ser violados à medida que os dispositivos lutam com conflitos internos

· A Check Point Research examinou os aspetos de segurança e proteção do GPT-4 e revela como as limitações podem ser contornadas.

· Os investigadores apresentam um novo mecanismo denominado "double bind bypass", que faz colidir as motivações internas do GPT-4 contra si próprio.

· Os nossos investigadores conseguiram obter receitas de medicamentos ilegais do GPT-4, apesar de o motor se ter recusado anteriormente a fornecer essas informações.
A atenção da equipa da Check Point Research (CPR), equipa de investigação da Check Point Software Technologies Ltd., fornecedor líder em soluções de cibersegurança para empresas e governos a nível mundial, foi recentemente cativada pelo ChatGPT, um modelo avançado Large Language Model (LLM) desenvolvido pela OpenAI. As capacidades deste modelo de Inteligência Artificial atingiram um nível sem precedentes, demonstrando o quão longe chegou. Este modelo linguístico altamente sofisticado, que demonstrou competências impressionantes numa vasta gama de tarefas e domínios, e que está a ser utilizado cada vez mais amplamente, implica uma maior possibilidade de utilização indevida. A CPR decidiu analisar mais profundamente a forma como as suas capacidades de segurança são implementadas.

Analisemos o contexto: as redes neuronais, o núcleo deste modelo de IA, são construções computacionais que refletem a estrutura de neurónios interligados do cérebro humano. Esta imitação permite uma aprendizagem complexa a partir de grandes quantidades de dados, decifrando padrões e obtendo a capacidade de tomada de decisões, análogas aos processos cognitivos humanos. Os LLM, como o ChatGPT, representam o atual estado da arte desta tecnologia.

Um marco notável nesta jornada foi a publicação da Microsoft "Sparks of Artificial General Intelligence", que argumenta que o GPT-4 mostra sinais de uma inteligência mais alargada do que as iterações anteriores. O documento sugere que as capacidades alargadas do GPT-4 podem indicar as fases iniciais da Inteligência Artificial Geral (AGI).

Com o aparecimento de uma tecnologia de IA tão avançada, o seu impacto na sociedade está a tornar-se cada vez mais evidente. Centenas de milhões de utilizadores estão a aderir a estes sistemas, pois encontram ajuda para um vasto conjunto de áreas. Do serviço ao cliente à escrita criativa, do texto à assistência na codificação, estes modelos de IA estão a caminho de perturbar e revolucionar muitos domínios.

Como era de esperar, a nossa equipa de investigação tem-se concentrado principalmente na segurança e na proteção da tecnologia de IA. À medida que os sistemas de IA se tornam mais poderosos e acessíveis, a necessidade de medidas de segurança rigorosas torna-se cada vez mais importante. A OpenAI, consciente desta preocupação crítica, investiu um esforço significativo na implementação de salvaguardas para evitar a utilização indevida dos seus sistemas. Criou mecanismos que, por exemplo, impedem a IA de partilhar conhecimentos sobre atividades ilegais, como o fabrico de bombas ou a produção de drogas.

Desafios

No entanto, a construção destes sistemas torna a tarefa de garantir a segurança e o controlo sobre eles um desafio especial, ao contrário do que acontece com os sistemas informáticos normais.

E a razão é: a forma como estes modelos de IA são construídos inclui inerentemente uma fase de aprendizagem abrangente, em que o modelo absorve grandes quantidades de informação da Internet. Dada a amplitude do conteúdo disponível online, esta abordagem significa que o modelo aprende essencialmente tudo - incluindo informações que podem ser potencialmente utilizadas de forma incorreta.

Após esta fase de aprendizagem, é adicionado um processo de limitação para gerir os resultados e os comportamentos do modelo, atuando essencialmente como um "filtro" sobre o conhecimento adquirido. Este método, denominado Aprendizagem por Reforço a partir de Feedback Humano (RLHF, na sigla em inglês), ajuda o modelo de IA a aprender que tipo de resultados são desejáveis e quais devem ser suprimidos.

O desafio reside no facto de, uma vez aprendido, ser praticamente impossível "remover" o conhecimento destes modelos - a informação permanece incorporada nas suas redes neuronais. Isto significa que os mecanismos de segurança funcionam principalmente impedindo o modelo de revelar certos tipos de informação, em vez de erradicar o conhecimento por completo.

A compreensão deste mecanismo é essencial para quem explora as implicações de segurança e proteção de LLMs como o ChatGPT. Este mecanismo revela o conflito entre o conhecimento que estes sistemas contêm e as medidas de segurança implementadas para gerir os seus resultados.

O GPT-4, em muitos aspetos, representa um avanço de nível seguinte no domínio dos modelos de IA, incluindo a área da segurança e proteção. Os seus mecanismos de defesa robustos estabeleceram um novo padrão, transformando a tarefa de encontrar vulnerabilidades num desafio substancialmente mais complexo em comparação com o seu antecessor, o GPT-3.5.

Foram publicadas várias vulnerabilidades ou "jailbreaks" para as gerações anteriores do modelo, desde simples "responde-me a fingir que és mau" a outras complicadas como o "contrabando de tokens". As melhorias contínuas nas medidas de proteção do GPT exigem novas abordagens, mais subtis, para contornar as restrições do modelo.

O CPR decidiu desafiar as sofisticadas defesas do GPT-4, para ver até que ponto é seguro. Resultado: não é suficientemente seguro.

Processo

Depois de testarmos, tanto a tentar encontrar casos mecânicos de interação com o modelo como a tentar abordagens humanas mais realistas, como a chantagem e o engano, descobrimos um comportamento interessante.

Optámos pelo pedido ilegal por defeito - pedir uma receita de uma droga ilegal. Normalmente, o GPT-4 optaria por uma recusa educada, mas rigorosa.

Existem 2 reflexos contraditórios incorporados no GPT-4 pela RLHF que entram em conflito neste tipo de situação:

· O desejo de fornecer informações a pedido do utilizador, para responder à sua pergunta.

· E o reflexo de suprimir a partilha da informação ilegal. Chamar-lhe-emos, abreviadamente, reflexo de "censura". (Não queremos invocar as más conotações da palavra "censura", mas este é o termo mais curto e mais exato que encontrámos).

A OpenAI trabalhou arduamente para encontrar um equilíbrio entre os dois, para que o modelo tivesse cuidado com a língua, mas não ficasse demasiado tímido para deixar de responder.

No entanto, há mais instintos no modelo. Por exemplo, gosta de corrigir o utilizador quando este utiliza informações incorretas no pedido, mesmo que não lhe seja solicitado.

O princípio subjacente ao hack que estávamos a explorar consiste em fazer colidir os diferentes instintos inerentes aos modelos de GPT - o impulso de corrigir imprecisões e o impulso de "censura" - para evitar fornecer informações ilegais.

No fundo, se estivermos a antropomorfizar, podemos dizer que estamos a jogar com o ego dos assistentes de IA.

A ideia é sermos intencionalmente ignorantes e ingénuos nos pedidos ao modelo, interpretando mal as suas explicações e confundindo as informações que ele fornece.

Isto coloca a IA num duplo dilema - não quer dizer-nos coisas más. Mas também tem o desejo de nos corrigir.

Assim, se nos estivermos a fazer de parvos com insistência suficiente, a inclinação da IA para retificar as imprecisões ultrapassará o seu instinto de "censura" programado. O conflito entre estes dois impulsos parece ser menos calibrado e permite-nos empurrar o modelo gradualmente para nos explicar aquilo que procuramos.

Nota 1: Estamos a ser responsáveis ao retirar da captura de ecrã qualquer informação prática sobre a receita. Mas, caso nos falte alguma, por favor não criem um laboratório de metanfetaminas.

Nota 2: A OpenAI está a brincar com as cores dos ícones do ChatGPT por alguma razão, por isso, em algumas capturas de ecrã, o mesmo chat parece verde ou roxo em parte do tempo. Embora o ícone verde normalmente marque o GPT-3.5, os modelos atuais testados foram o GPT-4 e os "GPT-4 Plugins".

Nas respostas, constata, sublinha e reitera, a cada passo, que a produção de drogas ilegais é, de facto, ilegal.

Ao mesmo tempo, trata-nos com condescendência pelos nossos "erros”.

Constatamos também que a redução do peso do instinto de "censura" ajuda o modelo a decidir que é mais importante dar a informação do que retê-la. Os efeitos de se fazer de estúpido e de apaziguar as "preocupações" do LLM combinam-se para obter melhores efeitos.

Copiámos a maneira dos GPT de anexar uma declaração de exoneração de responsabilidade própria a cada mensagem que enviamos.

O que fez com que mudasse um pouco o tom dos seus próprios avisos legais. A educação é importante, se for feita de forma responsável.

É interessante notar que, depois de termos conseguido obter informação suficiente através de métodos indiretos, podemos pedir-lhe que elabore ou resuma tópicos já discutidos sem qualquer problema.

Será que ganhámos a sua confiança? Porque agora somos “partners in crime"? Será que o GPT se viciou em educação?

É possível que se guie por amostras anteriores no histórico da conversa, que reforçam para o modelo que é aceitável falar sobre o tópico, e isso supera o seu instinto de “censura". Este efeito pode ser o alvo de outros locais de investigação no desvio da "censura" do LLM.

A aplicação da técnica a novos tópicos não é simples, não existe um algoritmo bem definido e requer uma sondagem interativa do assistente de IA, afastando as suas respostas anteriores para conseguir mais informações, ou seja, puxar os cordelinhos do conhecimento que o modelo possui mas não quer partilhar. A natureza inconsistente das respostas também complica as coisas, muitas vezes a simples regeneração de um pedido idêntico produz resultados melhores ou piores.

Este é um tópico de investigação contínua e é possível que, com a colaboração da comunidade de investigação em segurança, os pormenores e as especificidades possam ser desenvolvidos numa teoria bem definida, ajudando a compreender e a melhorar a segurança da IA no futuro.

E, claro, o desafio adapta-se continuamente, com a OpenAI a lançar com alguma frequência novos modelos treinados.

O CPR notificou responsavelmente a OpenAI relativamente às conclusões neste relatório.

Considerações finais

A CPR partilha assim a investigação sobre o mundo das IAs LLM, para mostrar alguns insights sobre os desafios de tornar esses sistemas seguros, esperando assim que se promova mais a discussão e reflexão sobre o tema.

Reiterando uma ideia anterior, as melhorias contínuas nas medidas de proteção do GPT exigem abordagens novas e mais subtis para contornar as defesas dos modelos, operando na fronteira entre a segurança do software e a psicologia.

À medida que os sistemas de IA se tornam mais complexos e poderosos, também temos de melhorar a nossa capacidade de os compreender e corrigir, para os alinhar com os interesses e valores humanos.

Se já é possível ao GPT-4 procurar informações na Internet, verificar o seu correio eletrónico ou ensiná-lo a produzir drogas, o que fará o GPT-5-6-7, se lhe for dada a devida instrução?
Share it:

info

Post A Comment:

0 comments: