Red Teams pensam como hackers com o objetivo de manter a IA segura

Red Teams pensam como hackers com o objetivo de manter a IA segura

Susanna Ray, Writer on Microsoft Stories team

Da mesma forma que as ferramentas de Inteligência Artificial (IA), como o ChatGPT e o Copilot, transformaram a forma como as pessoas trabalham em todos os tipos de funções a nível mundial, também reformularam as denominadas Red Teams - grupos de especialistas em cibersegurança cuja função é pensar como hackers com o propósito de contribuir para a manutenção da segurança e proteção da tecnologia.

As capacidades da IA generativa para estabelecer conversas em vários idiomas, escrever histórias e até mesmo criar imagens realistas acarretam novos potenciais riscos, que vão desde o fornecimento de resultados tendenciosos ou imprecisos até à oferta de novas formas de provocar a discórdia por parte de pessoas mal-intencionadas. Estes riscos estimularam uma nova e extensa abordagem à forma como a Red Team de IA da Microsoft está a trabalhar para identificar e reduzir potenciais danos.

"Vemos a segurança, a IA responsável e a noção mais ampla de segurança de IA como diferentes faces da mesma moeda," afirma Ram Shankar Siva Kumar, responsável por liderar a Red Team de IA da Microsoft. "É importante ter uma visão universal e completa de todos os riscos de um sistema de IA antes que chegue às mãos de um cliente. Porque esta é uma área que vai ter enormes implicações sociotécnicas."

O termo “red teaming” foi primeiramente utilizado durante a Guerra Fria, quando o Departamento de Defesa dos EUA realizou exercícios de simulação onde as Red Teams atuavam como os soviéticos e as Blue Teams como os EUA e os seus aliados. Assim, a comunidade de cibersegurança adotou a linguagem já há algumas décadas, criando as Red Teams para representarem adversários que tentavam invadir, corromper ou utilizar indevidamente a tecnologia, com o objetivo de encontrar e corrigir potenciais danos antes de surgirem quaisquer problemas.

Quando Siva Kumar formou a Red Team de IA da Microsoft em 2018, seguiu o modelo tradicional que consistia em reunir especialistas do domínio da cibersegurança para procurar proactivamente pontos fracos, tal como a empresa faz para testar todos os seus produtos e serviços.

Ao mesmo tempo, Forough Poursabzi estava a liderar investigadores de toda a empresa em estudos com um ângulo novo e diferenciado, numa perspetiva de IA responsável, que analisava se a tecnologia generativa poderia ser prejudicial - intencionalmente ou devido a problemas sistémicos nos modelos que tinham sido negligenciados durante a formação e avaliação. Este não é um problema com o qual as Red Teams tivessem sido confrontadas anteriormente.

Os diferentes grupos rapidamente se aperceberam de que seriam mais fortes juntos, pelo que uniram forças para criar uma Red Team mais vasta capaz de avaliar tanto os riscos de segurança como o prejuízo para a sociedade simultaneamente, acrescentando um neurocientista, um linguista, um especialista em segurança nacional e muitos outros especialistas com formações diversas.

"Precisamos de uma série de diferentes perspectivas para conseguirmos ter um Red Teams de IA responsável ", afirma Poursabzi, senior program manager da AI Ethics and Effects in Engineering and Research (Aether) da Microsoft, que explora todo um ecossistema de IA responsável na Microsoft e analisa os riscos emergentes e considerações a longo prazo com tecnologias de IA generativas.

A Red Team de IA dedicada está separada dos responsáveis pela construção da tecnologia e inclui agentes adversários que podem tentar forçar um sistema a gerar alucinações, bem como resultados nocivos, ofensivos ou tendenciosos devido a dados inadequados ou imprecisos.

Os membros da equipa assumem várias personalidades, como por exemplo, um adolescente criativo que prega uma partida a um inimigo conhecido que tenta roubar dados, para revelar pontos cegos e descobrir riscos. Os membros da equipa vivem em todo o mundo e falam coletivamente 17 línguas, desde o flamengo ao mongol e ao telugu, o que permite lidar com contextos culturais diferenciados e ameaças específicas de cada região. E não se limitam a tentar comprometer apenas os sistemas; também utilizam grandes modelos de linguagem (LLM) para ataques automatizados a outros LLM.

O grupo também acrescentou profundidade à sua especialização, lançando estruturas de open-source, como o Counterfit e o PyRIT (Python Risk Identification Toolkit) para IA generativa, ou, no início deste ano, para apoiar os profissionais de segurança e os engenheiros de machine learning a mapear também os riscos potenciais fora da empresa. As ferramentas permitem que os especialistas das Red Teams - um recurso limitado - sejam mais eficientes e produtivos. A equipa também publicou as melhores técnicas resultantes das suas experiências para facilitar a iniciação de outros utilizadores.

Quando a Red Team de IA da Microsoft encontra um problema, envia-o para a Responsible AI Measurement Team, que avalia o grau de ameaça que o assunto pode representar. Em seguida, outros especialistas e grupos internos analisam o assunto para completar a metodologia de três passos para uma IA segura: mapeamento, medição e gestão de riscos.

“No fundo, a nossa atividade engloba uma grande variedade de danos que tentamos combater”, afirma Siva Kumar. “Adaptamos e reformulamos rapidamente, e essa tem sido a receita do nosso sucesso - não esperar que as forças da mudança pressionem, mas antecipem”.

Saiba mais sobre o trabalho de IA responsável da Microsoft.

Total Pageviews

Popular Posts

cloud labels

Labels

Blog Archive

Procura neste Blog

Showing result(s) for

Popular Posts

Pages

Red Teams pensam como hackers com o objetivo de manter a IA segura

Post A Comment:

0 comments:

Serviços

Social

teste

Total Pageviews

Popular Posts

cloud labels

Labels

Blog Archive

Procura neste Blog

Showing result(s) for

Popular Posts

Pages

Menu Item

Wanna get our awesome news?

Sign up and get the best viral stories straight into your inbox!

Next

Mensagem mais recente

Previous

Mensagem antiga

info

Post A Comment:

0 comments: