Por alguns anos da década de 80, candidatos à Faculdade de Medicina do Hospital St. George em Londres foram selecionados por um método high-tech. Um programa de computador, um dos primeiros do tipo, fazia a primeira avaliação de seus currículos, fazendo a seleção inicial de cerca de 2.000 candidatos a cada ano. O programa analisava os históricos de contratações para entender as características de candidaturas bem sucedidas, e era ajustado até que suas decisões batessem com as feitas pela equipe de admissões.
Mas o programa aprendeu a procurar por mais que boas notas e sinais de excelência acadêmica. Quatro anos depois dele ser implementado, dois médicos do hospital descobriram que o programa tendia a rejeitar candidatas do sexo feminino e aqueles com nomes que não soavam europeus, independentemente do mérito acadêmico. Cerca de 60 candidatos a cada ano podem ter perdido uma entrevista simplesmente por causa do gênero ou da etnia, descobriram os médicos. O programa havia incorporado o gênero e parcialidades raciais nos dados utilizados para treiná-lo — essencialmente, foi ensinado que mulheres e estrangeiros não serviam para ser médicos.
Três décadas depois, estamos enfrentando um problema parecido, mas os programas com parcialidades internalizadas agora estão mais espalhados e fazem decisões muito mais importantes. Algoritmos de inteligência artificial que utilizam do aprendizado de máquina agora são usados por todos os lados, de instituições governamentais a sistemas de saúde, auxiliando na tomada de decisões ao fornecer previsões baseadas em dados históricos. Ao aprender padrões com os dados, eles também absorvem parcialidades, e as perpetuam. O Google, por exemplo, mostrou mais anúncios de vagas que pagam menos a mulheres do que homens, a entrega no mesmo dia da Amazon ignorava bairros com predominância negra, e o software de vários tipos de câmera digital tinha dificuldade em reconhecer os rostos de usuários que não eram brancos. Em um dos exemplos mais surpreendentes, foi descoberto que um algoritmo chamado COMPAS, usado por agências policiais em vários estados dos EUA para avaliar o risco de reincidência de um réu, estava selecionando erroneamente indivíduos negros quase duas vezes mais que brancos, de acordo com uma investigação da ProPublica.
É difícil descobrir quando um algoritmo é parcial ou justo, até mesmo para especialistas da computação. Um motivo é que os detalhes por trás da criação de um algoritmo são frequentemente considerados informação confidencial, e intimamente guardados por seus donos. Em casos mais avançados, os algoritmos são tão complexos que até mesmo seus criadores não sabem como ele funciona, exatamente. Esse é o problema da inteligência artificial chamado de caixa preta — nossa falta de habilidade de observar o interior de um algoritmo e entender como ele chega a uma decisão. Se isso não for solucionado, pode devastar nossas sociedades ao garantir que a discriminação histórica, que muitos se esforçaram para deixar para trás, seja codificada no nosso futuro.
Essas preocupações, sussurradas entre comunidades menores da ciência da computação por alguns anos, estão agora entrando no palco do ramo. Nos últimos dois anos, a área da computação viu um aumento enorme no número de publicações sobre justiça na inteligência artificial. Com essa consciência, também há um crescente sentimento de responsabilidade. “Há coisas que simplesmente não deveríamos criar?” pergunta Kate Crawford, pesquisadora da Microsoft e co-fundadora do AI Now Institute na Universidade de Nova York, em um discurso recente.
“O aprendizado de máquina finalmente entrou no palco principal. Agora estamos tentando usá-lo para centenas de propósitos diferentes no mundo real,” diz Rich Caruana, pesquisador-sênior da Microsoft. “É possível que as pessoas implementem algoritmos danosos que podem se acumular e causar um grande impacto na sociedade no longo termo… Agora é como se, de repente, todos estejam cientes de que esse é um importante novo capítulo em nosso campo.”
O algoritmo me fez fazer isso
Temos usado algoritmos há muito tempo, mas o problema da caixa preta é, de certa forma, sem precedentes. Algoritmos mais antigos eram mais simples e transparentes. Muitos deles ainda são usados — por exemplo, a pontuação de crédito do Serasa. Para cada novo uso, a regulamentação seguiu.
“As pessoas têm usado algoritmos de pontuação de crédito por décadas, mas nessas áreas houveram regulamentos robustos que se desenvolveram junto a esses algoritmos de previsão,” diz Caruana. Esses regulamentos garantem que os algoritmos de previsão forneçam uma explicação para cada pontuação: você foi reprovado porque seus balanços de empréstimo estão muito altos, ou porque sua renda é muito baixa.
Os regulamentos que previnem que empresas de pontuação de crédito usem algoritmos injustos não estão presentes em outras áreas, como o meio legal e a publicidade. Você pode não saber por que foi negado um empréstimo ou perdeu uma oportunidade de emprego, porque ninguém força o dono do algoritmo a explicar como ele funciona. “Mas sabemos que [pelos algoritmos] serem treinados com dados do mundo real, eles têm que ser parciais — porque o mundo real é parcial,” diz Caruana.
Considere o idioma, por exemplo — uma das fontes mais óbvias da parcialidade. Quando algoritmos aprendem de texto redigido, eles fazem algumas associações entre palavras que aparecem juntas com mais frequência. Aprendem, por exemplo, que “homem está para programador assim como mulher está para dona de casa.” Quando esse algoritmo recebe a tarefa de encontrar o currículo certo para uma vaga de programador, ele tenderá a escolher mais candidatos homens que mulheres.
Problemas como esse são relativamente fáceis de corrigir, mas muitas empresas simplesmente não se dão ao trabalho de fazer isso. Ao contrário, escondem essas inconsistências atrás do escudo da informação proprietária. Sem acesso aos detalhes de um algoritmo, em muitos casos até mesmo especialistas não conseguem determinar se a parcialidade existe ou não.
Por conta dos algoritmos serem tão secretos e fora da jurisdição da regulamentação, é praticamente impossível que a população faça uma ação contra os criadores. Aqueles que tentaram não chegaram muito longe. Em 2016, o supremo tribunal do Wisconsin negou o pedido de um homem de avaliar a estrutura interna do COMPAS. O homem, Eric L. Loomis, foi sentenciado a seis anos de prisão parcialmente porque o COMPAS o considerou de “alto risco.” Loomis diz que seu direito a julgamento imparcial foi violado pela confiança do juiz em um algoritmo opaco. Uma apelação final para levar o caso à Suprema Corte americana fracassou em junho de 2017. Em outro caso, dois professores de Direito passaram um ano sondando os estados para entender como eles pontuam no sistema criminal. A única coisa que a investigação confirmou é que essa informação é muito bem escondida por trás de contratos de confidencialidade.
Mas empresas reservadas podem não aproveitar dessa liberdade eternamente. Em março, a União Europeia decretará leis que exigirão que empresas expliquem aos clientes que perguntarem como seus algoritmos funcionam e tomam decisões.
Os EUA não tem legislação do tipo em discussão. Mas há sinais de que a maré possa estar mudando em direção à fiscalização regulatória. Em dezembro de 2017, o Conselho da cidade de Nova York assinou uma lei que estabelece uma força-tarefa que estudará algoritmos usados por agências municipais e explorará formas de tornar compreensíveis os processos de tomada de decisão ao público.
Forênsica da Caixa Preta
Com reguladores se envolvendo ou não, uma mudança cultural no desenvolvimento e implementação de algoritmos pode reduzir a onipresença de algoritmos parciais. Ao passo que mais companhias e programadores se comprometerem a tornar seus algoritmos transparentes e explicáveis, alguns esperam que as empresas que não o fazem serão acusadas e perderão o apoio do público.
Recentemente, o crescimento do poder computacional possibilitou a criação de algoritmos que são tanto precisos quanto explicáveis — um desafio técnico que desenvolvedores tiveram dificuldades em superar historicamente. Estudos recentes mostram que é possível criar modelos explicáveis que preveem se criminosos serão reincidentes de forma tão precisa quanto as versões caixa preta como o COMPAS.
“A pesquisa está lá — sabemos como criar modelos que não são caixas pretas,” diz Cynthia Rudin, professora-associada de ciência da computação e de engenharia elétrica e de computação da Universidade Duke. “Mas há alguma dificuldade em fazer que esse trabalho seja percebido. Se as agências governamentais pararem de pagar por modelos caixa preta, ajudaria. Se os juízes recusarem o uso de modelos caixa preta para sentenças, também ajudaria.”
Outros estão trabalhando para encontrar formas de testar a imparcialidade de algoritmos criando um sistema de checagem antes de lançar o algoritmo ao mundo, da mesma forma que novos remédios precisam passar por testes clínicos.
“O que está acontecendo agora é que os modelos estão sendo feitos muito rapidamente e então são implementados. Não há checagem adequada durante o processo ou requerimentos para avaliá-los no mundo real por um período de testes,” diz Sarah Tan, doutoranda em Estatística na Universidade Cornell.
O ideal seria que desenvolvedores limpassem parcialidades conhecidas — como aquelas de gênero, idade e etnia — dos dados de treinamento, e fizessem simulações internas para encontrar outros problemas dos algoritmos que possam acabar surgindo.
Enquanto isso, antes de chegar ao ponto em que todos os algoritmos são rigorosamente testados antes do lançamento, há formas de identificar quais possam sofrer de parcialidade.
Em um estudo recente, Tan, Caruana e seus colegas descreveram uma nova forma de entender o que pode estar acontecendo sob o capô de algoritmos caixa preta. A equipe criou um modelo que imita um algoritmo caixa preta como o COMPAS ao treiná-lo com a pontuação de risco de reincidência que o COMPAS emitia. Também criaram outro modelo que treinaram nos dados do mundo real que mostram se aquela reincidência prevista realmente aconteceu. As comparações entre os dois modelos permitiram que os pesquisadores avaliassem a precisão da pontuação prevista sem dissecar o algoritmo. As diferenças nos resultados dos dois modelos podem revelar quais variáveis, como etnia ou idade, podem ter tido mais importância em um modelo ou outro. Suas descobertas estão alinhadas ao que o ProPublica e outros pesquisadores encontraram — que o COMPAS é parcial contra indivíduos negros.
Poderiam haver grandes benefícios em corrigir essas parcialidades. Algoritmos, se criados de forma adequada, têm o poder de apagar antigas parcialidades na justiça criminal, policiamento e muitas outras áreas da sociedade.
“Se trabalharmos nisso e conseguirmos reduzir a parcialidade, poderemos ter um círculo virtuoso de retorno, onde os algoritmos podem lentamente nos ajudar a nos tornarmos menos parciais como sociedade,” diz Caruana.
Traduzido do site Futurism.