segunda-feira, 11 de março de 2019

Estatísticas Criminais e a Lei de Newcomb-Benford



Vamos supor que sou um policial pouco honesto e que o desempenho da minha área – e a minha renumeração - seja medido ou varie em função da quantidade mensal de roubos. Ao invés de registrar a quantidade real de roubos na planilha, digamos, posso ser tentado a inventar os números, tirando-os da minha própria cabeça ou recorrendo a algum sorteio aleatório de números. Não o aconselho a fazer isso, exceto se for um bom conhecedor da lei de Newcomb-Benford. Não adianta consultar o Código Penal. Trata-se de uma “Lei” no sentido matemático do termo.

Na tabela abaixo utilizamos o gerador de números aleatório do Google e ele nos gerou doze quantidades fictícias de “roubos” para minha área, uma para cada mês do ano. Para efeito de demonstração, deixei os números variarem de 100 a 1000 (o que raramente ocorre com crimes, que na verdade são bastante estáveis) e aparentemente, a série gerada pelo computador faz sentido para um observador desatento.

Com um exercício para entender a natureza do problema, separe-se, por exemplo, o primeiro dígito de cada centena gerada: na terceira coluna da tabela vemos estes dígitos em destaque. Note-se que o digito 8 aparece na série três vezes na primeira posição (25%), o número 7 aparece apenas uma vez (8,3%), o número 5 surge duas vezes (16,7%) e assim por diante.

Análise do 1º dígito de números aleatórios
Mês
Roubos
1º digito

Digito
Freq.
%
jan
899
8

1
2 vezes
16,7%
fev
776
7

2
1 vez
8,3%
mar
535
5

3
0 vezes
0,0%
abr
241
2

4
2 vezes
16,7%
mai
149
1

5
2 vezes
16,7%
jun
487
4

6
1 vez
8,3%
jul
547
5

7
1 vez
8,3%
ago
853
8

8
3 vezes
25,0%
set
111
1

9
0 vezes
0,0%
out
420
4


12
100,0%
nov
620
6




dez
890
8




Fonte: gerados de números do Google

Segundo a lei dos grandes números, se a nossa amostra de casos sorteados aleatoriamente aumentasse, a distribuição percentual de cada dígito de 1 a 9 se aproximaria de 11,1%, que é a frequência teórica esperada, supondo que cada dígito tem uma probabilidade equivalente de ocorrência. (se incluíssemos o dígito 0, a porcentagem seria 10%, obviamente)

E é precisamente ai que nosso policial desonesto se estrepa. Ocorre que para diversos tipos de fenômenos, a distribuição do primeiro digito numa coleção de números não é equiprovável. Trata-se de um fenômeno descoberto há cerca de dois séculos e que se aplica à uma série de diferentes listas de números: valor de contas de luz, lista de códigos postais, população municipal, edifícios mais altos do mundo, preços de ações, comprimento de rios,  pesos, moleculares, etc. Infelizmente não há uma regra que diga à priori e quando uma distribuição de frequências segue o formato Newcomb- Benford. É preciso coletar os dados e realizar um teste empírico. 

Para infelicidade do nosso policial pouco versado em estatística, a distribuição da maioria dos crimes também segue uma distribuição de frequência Newcomb-Benford, em homenagem a seus descobridores. 

Benford já notara esta característica nos anos 30 com as taxas de mortalidade e Hikman e Rice observaram o mesmo padrão ao estudarem em 2010 as estatísticas criminais nacional e estaduais norte americanas. (Digital Analysis of Crime Statistics: Does Crime Conform to Benford’s Law? Hickman, M.J. & Rice, S.K. J Quant Criminol (2010) 26: 333. https://doi.org/10.1007/s10940-010-9094-6.)

Numa distribuição deste tipo, quando separamos o primeiro dígito de cada número, o digito 1, por exemplo, aparece 30,1% do tempo e o dígito 9, apenas 4,6% do tempo. A probabilidade de ocorrência de cada dígito não é equiprovável, mas antes decai numa forma que é logarítmica, como no gráfico abaixo.



A tabela seguinte traz exemplos com crimes brasileiros, agregados em nível estadual[1]. Vamos explorá-la um pouco. Nas duas últimas colunas vemos a distribuição teórica dos dígitos segundo a distribuição esperada de Benford e na última coluna a distribuição real encontrada pelo autor nas taxas de mortalidade que estudou em 1938. Nas demais colunas encontramos a distribuição dos primeiros dígitos nas estatísticas criminais reportadas pelos Estados brasileiros entre 2001 e 2019, formando uma coleção de números com 32 mil linhas. Os crimes analisados são Estupro, furto, furto de veículo (FV), homicídio doloso (HD), lesão corporal dolosa (LCD), lesão corporal seguida de morte, roubo (RB), roubo de veículo (RV) e tráfico de drogas.

Como pode ser notado pela tabela, com exceção da lesão corporal dolosa, a maioria dos crimes parece realmente seguir uma distribuição de Newcomb-Benford, quando analisamos a frequência dos primeiros dígitos em cada coleção de crimes. Quando combinamos todos os crimes na coluna Total Geral, observe-se a notável semelhança com a distribuição esperada.




Na parte de baixo da tabela anotamos as diferenças, em cada célula, entre a distribuição esperada e a distribuição encontrada nas estatísticas criminais nacionais. Quando somamos os números absolutos em cada coluna (desconsiderando o sinal), temos uma medida rústica do quanto cada indicador criminal se desvia ou não da distribuição teórica esperada. Note-se que é raro encontrarmos um desvio maior do que + ou – 5%, com exceção da mencionada coluna lesão corporal dolosa.

Não é o caso de discutir no escopo deste artigo por que a maioria dos crimes segue a distribuição de Benford ou por que as estatísticas nacionais de lesão corporal dolosa se afastam aparentemente deste padrão. Mais importante aqui é perceber como esta característica desta coleção de números pode ser utilizada como uma ferramenta para detectar tentativas de fraude. De fato, desde os anos 70, contadores e outros profissionais de auditorias procuram utilizá-las desta manceira.

No setor de estatística criminal que coordenei em São Paulo, adotávamos diversos mecanismos de controle de qualidade: leitura diária de uma amostra aleatória de boletins em busca de inconsistências, comparações entre as séries históricas de homicídios com as mortes por agressão compiladas pelo ministério da saúde, controle estatístico de qualidade “3 sigmas”, e, esporadicamente, também a técnica ilustrada acima, de distribuição de frequência do primeiro dígito. Com exceção de um ou outro episódio excepcional – greve na polícia, ataques de maio de 2006, mudança no código penal, criação da denúncia on-line, etc. – assinale-se que jamais identificamos em oito anos de SSP, tentativas “dolosas” de fraude nas estatísticas criminais, embora certamente tenham ocorrido erros de digitação e outras inconsistências.

Para o bem ou para o mal, o fato é que crimes são fenômenos sociais extremamente regulares e previsíveis: existem padrões sazonais, cíclicos, perfis conhecidos de horários, dias da semana, vítimas, autores, etc. Eles seguem também as leis de concentração espacial. Em resumo, para falsificar uma ocorrência ou um grupo de ocorrências que seja coerente, é preciso conhecer muito bem este perfil, para que os dados não fujam muito dos padrões.

Nestes tempos de políticas “compliance” adotados por empresas e governos, é sempre bom lembrar que as estatísticas são ferramentas importantes para a detecção de fraudes e erros. Lembrando sempre que estatísticas são de natureza probabilística.

Recentemente, um jornal de grande circulação nacional calculou a razão entre gastos eleitorais e votos e identificou indícios de candidaturas “laranjas”, pois diversos candidatos(as) tinham obtido poucos votos, mesmo gastando milhares de reais (este mesmo jornal esqueceu de averiguar o desvio inverso, muitos votos com poucos recursos). Como sempre, as estatísticas fornecem indícios probabilísticos das fraudes, jamais certezas e é sempre complicado expor publicamente pessoas com base em probabilidades estatísticas. Como diz o ditado, a estatística deve ser utilizada como um bêbado usa um poste: mais como ponto de apoio do que como fonte de luz! De todo modo, pode ser um passo inicial importante para o aprofundamento das investigações. As estatísticas criminais nacionais, em sua maioria, parecem passar neste teste de integridade.

Fontes adicionais





[1] Observe-se que a distribuição de Newcomb-Benford, depende em parte da unidade de análise utilizada. Estatísticas agregadas por municípios ou por Distritos policiais não seguem necessariamente esta distribuição, uma vez que a quantidade absoluta de crimes cai. No caso de crimes raros, teríamos uma grande porcentagem de primeiros dígitos concentrados entre os dígitos 1 e 2. Quando usamos taxas ao invés de números absolutos, a distribuição também se afasta da esperada, uma vez que alteramos a escala dos dados.

keepinhouse

Arquivo do blog

Seguidores