Nossos dados pessoais são
compartilhados em dezenas de bases de dados e muitas destas bases contem
informações sensíveis que nem todo mundo gostaria de compartilhar, como sites visualizados
ou palavras chaves que buscadas no google... O mesmo se aplica aos dados públicos
com informações particulares sobre sua saúde – que podem ser usados para negar
empregos, seguros ou empréstimos - ou sobre crimes eventualmente ocorridos na
sua residência, ou ainda sobre sua renda, para mencionar alguns tipos de dados
sensíveis que os órgãos governamentais detém.
Por outro lado, sabemos que na
era da I.A. estas informações são as vezes relevantes para o desenvolvimento de
modelos estatísticos, pesquisas e tratamentos médicos, avaliações de impacto de
políticas, distribuição de recursos policiais e dezenas de outras atividades
acadêmicas e operacionais. A questão é como conciliar o direito individual à
privacidade ao mesmo tempo em que se permite o acesso de nossas informações
para bases públicas e privadas para fins de pesquisa ou outros usos socialmente
relevantes. Interessa à coletividade conhecer as ruas mais perigosas, a melhor
rota de trânsito, o desenvolvimento do tratamento de doenças, o impacto dos programas
sociais na renda, etc. e isso só é possível com a utilização de bases
gigantescas, razoavelmente detalhadas e não enviesadas.
Uma prática comum dos detentores
de dados é fornecer bases que sejam anonimizadas, isto é, sem nomes, números de
documentos ou outros dados que permitam a individualização das informações.
Essa precaução, todavia, não garante que se faça a “reidentificação”, que é a
utilização de filtros de pesquisa e cruzamento de informações para que se
consiga novamente chegar a indivíduos específicos. A probabilidade de
reidentificação pode ser entendida como a inversa do número de indivíduos que
compartilham as mesmas características.
Vou dar um exemplo concreto a
partir de uma base de dados de 137 mil presos que obtive para pesquisa nos anos
90, que foi anonimizada, mas que contém informações demográficas como data de
nascimento, gênero e cor dos indivíduos, entre outras informações. Não seria
muito difícil reidentificar indivíduos com o conhecimento de algumas poucas informações
demográficas sobre eles.
Se soubermos a data de
aniversário, já podemos utilizar um primeiro filtro, que resultaria teoricamente
em 375 indivíduos, aproximadamente, uma vez que cada aniversário se repete
cerca de 365 vezes. (137000: 365 = 375,3). Sabendo que se trata de uma mulher
reduziríamos nossa busca a 187,5 pessoas. Supondo ademais que conhecemos que se
trata de uma mulher negra, e que os “pretos”, conforme a classificação do
SEADE, representam cerca de 5,5% da população de São Paulo, nossa lista final
de candidatas teria menos de 10 pessoas. Assim, quanto mais informações
tivermos e mais detalhadas as informações, mais fácil se torna filtrar os dados
para chegarmos ao indivíduo de interesse.
O procedimento é um pouco mais
complicado, se não estivermos falando de uma amostra representativa da
população, mas de um subconjunto específico, como a população prisional. A
probabilidade de reidentificação também depende da distribuição da população na
base de dados. Por exemplo, a data de nascimento nunca é precisamente a mesma
para cada dia do ano, uma vez que nascem mais pessoas em alguns dias e meses.
Cerca de 95,9% da população prisional é masculina, em contraste com metade da
população paulista. Na nossa amostra, descobrimos também que “pretos”
representam 12,1% dos presos, em contraste com 5,5% da população paulista.
Trata-se, portanto de uma amostra bem distinta da população em geral, mas
conhecendo este perfil, é fácil proceder aos cálculos.
Selecionamos um aniversário ao
acaso (15 de junho) e encontramos na amostra 466 presos que fazem aniversário
nesta data. Quando filtramos as mulheres, encontramos 22 casos e quando
adicionamos a informação sobre a cor, chegamos a apenas dois indivíduos. Partimos
de uma base anonimizada com 137 mil indivíduos e apenas utilizando três
filtros, reduzimos as possibilidades para 2 pessoas!
A data de nascimento é uma
variável considerada altamente identificável, especialmente quando combinada
com outras variáveis demográficas e é definida como um “quase-identificador”.
Mesmo em uma grande base de dados, com milhares de registros, a data de
nascimento pode ser única ou quase única, o que aumenta o risco de
reidentificação. Estudos indicam que datas de nascimento são um dos principais
fatores de risco para reidentificação, especialmente quando combinadas com
outras variáveis. Em um estudo clássico conduzido por Latanya Sweeney, ela
demonstrou que 87% da população dos Estados Unidos poderia ser identificada
unicamente usando apenas três atributos: data de nascimento, gênero e CEP. (Sweeney, L. (1997), Weaving Technology and
Policy Together to Maintain Confidentiality. The Journal of Law, Medicine &
Ethics, 25: 98-110. https://doi.org/10.1111/j.1748-720X.1997.tb01885.x). De fato, quando o
governador do seu Estado resolveu divulgar os dados de saúde anonimizados, não
demorou muito para que Sweeney enviasse ao governador pelo correio sua ficha
médica anônima...
Uma técnica
comum para proteger os dados contra a possibilidade de reidentificação é
garantir que cada combinação de quasi-identificadores esteja presente em pelo
menos k registros na base de dados. Se uma combinação específica de data de
nascimento, gênero e CEP for única ou quase única, a base de dados não
satisfaria um nível de k-anonimato adequado, sugerindo um risco elevado de
reidentificação. Analistas de dados atualmente fazem testes deste tipo para
verificar os riscos de reidentificação das bases e introduzir medidas para
mitiga-los.
Algumas
estratégias foram pensadas para reduzir esse risco, como generalização ou
agregação, que consiste em agrupar datas de nascimento em faixas etárias ou
limitar a granularidade do CEP. Supressão, por sua vez, seria remover
completamente datas de nascimento ou outros quasi-identificadores quando o
risco de reidentificação for alto e a informação muito sensível. Perturbação,
finalmente, significa introduzir ruído ou pequenas alterações nos dados para
dificultar a reidentificação.
Qualquer
que seja a estratégia adotada é importante que a base de dados mantenha as
mesmas características da original. Infelizmente, os gestores de bases nem
sempre atentam para este ponto e introduzem vieses nos dados. Muitos pesquisadores
utilizam como eu as bases criminais georeferenciadas disponibilizadas pela
SSP-SP para estudar a criminalidade no Estado. Pensando na privacidade das
vítimas, a SSP disponibilizou as bases de dados sem os endereços ou
geolocalização, sempre que o tipo de local era classificado como “residência”,
“casa”, “apartamento” etc. Esse procedimento foi adotado não apenas em casos de
“violência doméstica” ou crime sexuais – dados mais sensíveis – mas até mesmo
para casos corriqueiros de furto ou roubo.
O resultado
foi o enviesamento da base quando se trata de refinar a análise
geograficamente, uma vez que todos os eventos dentro de residências
desaparecerão, restando apenas os ocorridos em locais públicos e outros. A
análise pode ainda ser feita num nível mais agregado, como bairros ou distritos
(generalização), mas é preciso levar em conta esse viés sistemático ao produzir
mapas ou modelos estatísticos. Nesse caso específico, uma estratégia possível
seria a “perturbação”, introduzindo, por exemplo, um ruido aleatório nas
coordenadas geográficas, deslocando o centroide para um raio de N metros ao
redor do local real do crime.
Mas é
preciso ter em mente que o ruído introduzido pela perturbação proposital pode
reduzir a precisão de modelos preditivos baseados em localização, usados hoje
em sistemas do tipo “policiamento preditivo”. Modelos que tentam prever a
ocorrência de eventos futuros com base em dados históricos podem ser menos
eficazes se a localização precisa dos eventos passados estiver comprometida.
Esse alerta deveria ser incorporado nos meta dados de qualquer base
disponibilizada para o público. O jornal Estado de São Paulo, por exemplo,
construiu excelentes ferramentas de visualização de crimes na cidade, o Radar
da Criminalidade, mas iniciativas como estas ficam parcialmente comprometidas
pela ausência de crimes residenciais, suprimidos em nome da privacidade. https://www.estadao.com.br/sao-paulo/radar-da-criminalidade-sao-paulo-roubos-por-ruas-bairros/
O uso de
dados sintéticos é uma abordagem que vem sendo utilizada para lidar com
questões de privacidade e segurança em conjuntos de dados que contêm
informações sensíveis. Esta técnica permite a criação de dados que mantêm as
propriedades estatísticas dos dados reais, sem expor informações identificáveis
dos indivíduos. Dados sintéticos são conjuntos de dados gerados
artificialmente, que reproduzem as características estatísticas dos dados
originais. Eles são criados de maneira que se assemelhem aos dados reais em
termos de distribuição, correlações e estrutura, mas não correspondem a
registros de indivíduos reais. Dessa forma, permitem análises e treinamentos de
modelos sem risco de reidentificação direta.
O problema
aqui é que a qualidade dos dados sintéticos depende muito da precisão dos
modelos geradores. Se os modelos não capturarem adequadamente a complexidade
dos dados reais, os dados sintéticos podem não ser representativos e levar a
conclusões incorretas.
Existe um
trade-off entre privacidade e a necessidade de gerar informações públicas que
sejam úteis e confiáveis. É preciso pensar na sensibilidade de cada tipo de
informação para decidir, em cada situação específica, quando é necessário
omitir ou camuflar dados e quando é possível ampliar a sua divulgação. A
simples anonimização, como vimos, não é garantia de privacidade, quando
existirem outras informações que permitam a reidentificação. Excluir dados
relevantes da base, por outro lado, pode implicar em sérios vieses na
identificação de padrões e modelos.
Somos cada
vez mais uma sociedade dependente de algoritmos baseados em dados, o que tem
contribuído para o avanço desde atividades do dia a dia – como escolher um
filme ou música – até o desenvolvimento de diagnósticos médicos, novas
medicações e sistemas de predição de crimes. O princípio básico deve ser o da
transparência das informações e quando necessário, o uso de algumas das
técnicas sugeridas acima, pode evitar a violação da privacidade de dados
sensíveis. O problema, como sempre, é que estamos diante de dois princípios
igualmente válidos, o que torna mais relevante a discussão pública sobre regras
e critérios sobre o que e como deve ser divulgado.
Obs: este
texto foi escrito com auxílio parcial de I.A.