Ferramentas de IA, como o ChatGPT e o Copilot, revolucionaram o modo como as pessoas trabalham globalmente. Da mesma forma, essas inovações também reformularam o papel dos “red teams”, equipes de especialistas em segurança cibernética que pensam como hackers para garantir que a tecnologia permaneça segura.
Os Novos Riscos da IA Generativa
A IA generativa, com sua capacidade de se comunicar em vários idiomas, criar narrativas e produzir imagens realistas, apresenta novos riscos. Desde resultados tendenciosos até possíveis usos maliciosos para fomentar discórdia, esses riscos exigiram uma nova abordagem por parte do Red Team de IA da Microsoft, focada em identificar e mitigar possíveis danos.
Uma Visão Ampla e Integrada dos Riscos
“Acreditamos que segurança, IA responsável e a segurança da IA são aspectos diferentes da mesma moeda”, explica Ram Shankar Siva Kumar, principal líder de pesquisa da Microsoft. “É crucial ter uma visão abrangente de todos os riscos de um sistema de IA antes de colocá-lo nas mãos dos usuários, devido ao seu impacto sociotécnico massivo”, completa.
A Origem e a Evolução dos Red Teams
O conceito de “red teaming” surgiu na Guerra Fria, onde as “equipes vermelhas” simulavam o papel dos soviéticos e as “equipes azuis” representavam os Estados Unidos e seus aliados. Essa estratégia foi adotada pela segurança cibernética para criar equipes que agem como adversários, buscando identificar e corrigir falhas antes que problemas reais ocorram.
Unindo Segurança Cibernética e IA Responsável
Ao fundar a Red Team de IA da Microsoft em 2018, Siva Kumar seguiu esse modelo tradicional, reunindo especialistas em segurança cibernética para analisar proativamente as vulnerabilidades. Paralelamente, a pesquisadora Forough Poursabzi liderava estudos focados em IA responsável, investigando se a tecnologia generativa poderia ser prejudicial, seja intencionalmente ou devido a falhas sistêmicas negligenciadas durante o desenvolvimento dos modelos. Essa dimensão era inédita para as equipes vermelhas.
A Importância da Diversidade de Perspectivas
Com o tempo, os diferentes grupos perceberam que unindo forças poderiam avaliar riscos de segurança e danos sociais de forma mais eficaz. Assim, nasceu uma equipe mais ampla, composta por neurocientistas, linguistas, especialistas em segurança nacional e outros profissionais com diversos backgrounds.
“Precisamos de uma ampla gama de perspectivas para que o Red Team de IA responsável seja eficaz”, afirma Poursabzi, gerente sênior do programa de Ética e Efeitos de IA em Engenharia e Pesquisa da Microsoft. A equipe examina todo o ecossistema de IA responsável na empresa, considerando riscos emergentes e o impacto a longo prazo das tecnologias de IA generativa.
A Abordagem de Três Etapas para uma IA Segura
Separada dos desenvolvedores da tecnologia, a Red Team de IA liderada por Siva Kumar também enfrenta desafios como adversários que tentam induzir sistemas a gerar respostas prejudiciais ou tendenciosas devido a dados inadequados. Os membros da equipe assumem várias identidades, desde um adolescente pregando peças até hackers tentando roubar dados, revelando pontos cegos e riscos potenciais.
Ferramentas de Código Aberto e Colaboração Global
A equipe não trabalha sozinha na tarefa de comprometer sistemas. Eles também utilizam grandes modelos de linguagem (LLMs) para realizar ataques automatizados a outros LLMs. Além disso, ampliaram suas capacidades lançando ferramentas de código aberto, como o Counterfit e o PyRIT (Python Risk Identification Toolkit for Generative AI), para ajudar profissionais de segurança e engenheiros de aprendizado de máquina a mapear riscos potenciais.
Antecipando Riscos e Impulsionando a Segurança da IA
Após identificar um problema, a Red Team de IA da Microsoft o encaminha para a equipe de medição de IA responsável, que avalia o nível de ameaça. Outros especialistas e grupos internos colaboram para completar a abordagem de três etapas para uma IA segura: mapeamento, medição e gerenciamento de riscos.
“Nosso trabalho cobre uma ampla variedade de danos que tentamos prever“, diz Siva Kumar. “Adaptamo-nos rapidamente às mudanças, antecipando riscos antes que se tornem grandes problemas.”