terça-feira, 3 de setembro de 2024

Transparência das informações versus privacidade

 


Nossos dados pessoais são compartilhados em dezenas de bases de dados e muitas destas bases contem informações sensíveis que nem todo mundo gostaria de compartilhar, como sites visualizados ou palavras chaves que buscadas no google... O mesmo se aplica aos dados públicos com informações particulares sobre sua saúde – que podem ser usados para negar empregos, seguros ou empréstimos - ou sobre crimes eventualmente ocorridos na sua residência, ou ainda sobre sua renda, para mencionar alguns tipos de dados sensíveis que os órgãos governamentais detém.

Por outro lado, sabemos que na era da I.A. estas informações são as vezes relevantes para o desenvolvimento de modelos estatísticos, pesquisas e tratamentos médicos, avaliações de impacto de políticas, distribuição de recursos policiais e dezenas de outras atividades acadêmicas e operacionais. A questão é como conciliar o direito individual à privacidade ao mesmo tempo em que se permite o acesso de nossas informações para bases públicas e privadas para fins de pesquisa ou outros usos socialmente relevantes. Interessa à coletividade conhecer as ruas mais perigosas, a melhor rota de trânsito, o desenvolvimento do tratamento de doenças, o impacto dos programas sociais na renda, etc. e isso só é possível com a utilização de bases gigantescas, razoavelmente detalhadas e não enviesadas.

Uma prática comum dos detentores de dados é fornecer bases que sejam anonimizadas, isto é, sem nomes, números de documentos ou outros dados que permitam a individualização das informações. Essa precaução, todavia, não garante que se faça a “reidentificação”, que é a utilização de filtros de pesquisa e cruzamento de informações para que se consiga novamente chegar a indivíduos específicos. A probabilidade de reidentificação pode ser entendida como a inversa do número de indivíduos que compartilham as mesmas características.

Vou dar um exemplo concreto a partir de uma base de dados de 137 mil presos que obtive para pesquisa nos anos 90, que foi anonimizada, mas que contém informações demográficas como data de nascimento, gênero e cor dos indivíduos, entre outras informações. Não seria muito difícil reidentificar indivíduos com o conhecimento de algumas poucas informações demográficas sobre eles.

Se soubermos a data de aniversário, já podemos utilizar um primeiro filtro, que resultaria teoricamente em 375 indivíduos, aproximadamente, uma vez que cada aniversário se repete cerca de 365 vezes. (137000: 365 = 375,3). Sabendo que se trata de uma mulher reduziríamos nossa busca a 187,5 pessoas. Supondo ademais que conhecemos que se trata de uma mulher negra, e que os “pretos”, conforme a classificação do SEADE, representam cerca de 5,5% da população de São Paulo, nossa lista final de candidatas teria menos de 10 pessoas. Assim, quanto mais informações tivermos e mais detalhadas as informações, mais fácil se torna filtrar os dados para chegarmos ao indivíduo de interesse.

 

O procedimento é um pouco mais complicado, se não estivermos falando de uma amostra representativa da população, mas de um subconjunto específico, como a população prisional. A probabilidade de reidentificação também depende da distribuição da população na base de dados. Por exemplo, a data de nascimento nunca é precisamente a mesma para cada dia do ano, uma vez que nascem mais pessoas em alguns dias e meses. Cerca de 95,9% da população prisional é masculina, em contraste com metade da população paulista. Na nossa amostra, descobrimos também que “pretos” representam 12,1% dos presos, em contraste com 5,5% da população paulista. Trata-se, portanto de uma amostra bem distinta da população em geral, mas conhecendo este perfil, é fácil proceder aos cálculos.

Selecionamos um aniversário ao acaso (15 de junho) e encontramos na amostra 466 presos que fazem aniversário nesta data. Quando filtramos as mulheres, encontramos 22 casos e quando adicionamos a informação sobre a cor, chegamos a apenas dois indivíduos. Partimos de uma base anonimizada com 137 mil indivíduos e apenas utilizando três filtros, reduzimos as possibilidades para 2 pessoas!

A data de nascimento é uma variável considerada altamente identificável, especialmente quando combinada com outras variáveis demográficas e é definida como um “quase-identificador”. Mesmo em uma grande base de dados, com milhares de registros, a data de nascimento pode ser única ou quase única, o que aumenta o risco de reidentificação. Estudos indicam que datas de nascimento são um dos principais fatores de risco para reidentificação, especialmente quando combinadas com outras variáveis. Em um estudo clássico conduzido por Latanya Sweeney, ela demonstrou que 87% da população dos Estados Unidos poderia ser identificada unicamente usando apenas três atributos: data de nascimento, gênero e CEP. (Sweeney, L. (1997), Weaving Technology and Policy Together to Maintain Confidentiality. The Journal of Law, Medicine & Ethics, 25: 98-110. https://doi.org/10.1111/j.1748-720X.1997.tb01885.x). De fato, quando o governador do seu Estado resolveu divulgar os dados de saúde anonimizados, não demorou muito para que Sweeney enviasse ao governador pelo correio sua ficha médica anônima...

Uma técnica comum para proteger os dados contra a possibilidade de reidentificação é garantir que cada combinação de quasi-identificadores esteja presente em pelo menos k registros na base de dados. Se uma combinação específica de data de nascimento, gênero e CEP for única ou quase única, a base de dados não satisfaria um nível de k-anonimato adequado, sugerindo um risco elevado de reidentificação. Analistas de dados atualmente fazem testes deste tipo para verificar os riscos de reidentificação das bases e introduzir medidas para mitiga-los.

Algumas estratégias foram pensadas para reduzir esse risco, como generalização ou agregação, que consiste em agrupar datas de nascimento em faixas etárias ou limitar a granularidade do CEP. Supressão, por sua vez, seria remover completamente datas de nascimento ou outros quasi-identificadores quando o risco de reidentificação for alto e a informação muito sensível. Perturbação, finalmente, significa introduzir ruído ou pequenas alterações nos dados para dificultar a reidentificação.

Qualquer que seja a estratégia adotada é importante que a base de dados mantenha as mesmas características da original. Infelizmente, os gestores de bases nem sempre atentam para este ponto e introduzem vieses nos dados. Muitos pesquisadores utilizam como eu as bases criminais georeferenciadas disponibilizadas pela SSP-SP para estudar a criminalidade no Estado. Pensando na privacidade das vítimas, a SSP disponibilizou as bases de dados sem os endereços ou geolocalização, sempre que o tipo de local era classificado como “residência”, “casa”, “apartamento” etc. Esse procedimento foi adotado não apenas em casos de “violência doméstica” ou crime sexuais – dados mais sensíveis – mas até mesmo para casos corriqueiros de furto ou roubo.

O resultado foi o enviesamento da base quando se trata de refinar a análise geograficamente, uma vez que todos os eventos dentro de residências desaparecerão, restando apenas os ocorridos em locais públicos e outros. A análise pode ainda ser feita num nível mais agregado, como bairros ou distritos (generalização), mas é preciso levar em conta esse viés sistemático ao produzir mapas ou modelos estatísticos. Nesse caso específico, uma estratégia possível seria a “perturbação”, introduzindo, por exemplo, um ruido aleatório nas coordenadas geográficas, deslocando o centroide para um raio de N metros ao redor do local real do crime.

Mas é preciso ter em mente que o ruído introduzido pela perturbação proposital pode reduzir a precisão de modelos preditivos baseados em localização, usados hoje em sistemas do tipo “policiamento preditivo”. Modelos que tentam prever a ocorrência de eventos futuros com base em dados históricos podem ser menos eficazes se a localização precisa dos eventos passados estiver comprometida. Esse alerta deveria ser incorporado nos meta dados de qualquer base disponibilizada para o público. O jornal Estado de São Paulo, por exemplo, construiu excelentes ferramentas de visualização de crimes na cidade, o Radar da Criminalidade, mas iniciativas como estas ficam parcialmente comprometidas pela ausência de crimes residenciais, suprimidos em nome da privacidade. https://www.estadao.com.br/sao-paulo/radar-da-criminalidade-sao-paulo-roubos-por-ruas-bairros/

O uso de dados sintéticos é uma abordagem que vem sendo utilizada para lidar com questões de privacidade e segurança em conjuntos de dados que contêm informações sensíveis. Esta técnica permite a criação de dados que mantêm as propriedades estatísticas dos dados reais, sem expor informações identificáveis dos indivíduos. Dados sintéticos são conjuntos de dados gerados artificialmente, que reproduzem as características estatísticas dos dados originais. Eles são criados de maneira que se assemelhem aos dados reais em termos de distribuição, correlações e estrutura, mas não correspondem a registros de indivíduos reais. Dessa forma, permitem análises e treinamentos de modelos sem risco de reidentificação direta.

O problema aqui é que a qualidade dos dados sintéticos depende muito da precisão dos modelos geradores. Se os modelos não capturarem adequadamente a complexidade dos dados reais, os dados sintéticos podem não ser representativos e levar a conclusões incorretas.

Existe um trade-off entre privacidade e a necessidade de gerar informações públicas que sejam úteis e confiáveis. É preciso pensar na sensibilidade de cada tipo de informação para decidir, em cada situação específica, quando é necessário omitir ou camuflar dados e quando é possível ampliar a sua divulgação. A simples anonimização, como vimos, não é garantia de privacidade, quando existirem outras informações que permitam a reidentificação. Excluir dados relevantes da base, por outro lado, pode implicar em sérios vieses na identificação de padrões e modelos.

Somos cada vez mais uma sociedade dependente de algoritmos baseados em dados, o que tem contribuído para o avanço desde atividades do dia a dia – como escolher um filme ou música – até o desenvolvimento de diagnósticos médicos, novas medicações e sistemas de predição de crimes. O princípio básico deve ser o da transparência das informações e quando necessário, o uso de algumas das técnicas sugeridas acima, pode evitar a violação da privacidade de dados sensíveis. O problema, como sempre, é que estamos diante de dois princípios igualmente válidos, o que torna mais relevante a discussão pública sobre regras e critérios sobre o que e como deve ser divulgado.

 

Obs: este texto foi escrito com auxílio parcial de I.A.

 

keepinhouse

Arquivo do blog

Seguidores