Vamos supor que sou um policial
pouco honesto e que o desempenho da minha área – e a minha renumeração - seja
medido ou varie em função da quantidade mensal de roubos. Ao invés de registrar
a quantidade real de roubos na planilha, digamos, posso ser tentado a inventar
os números, tirando-os da minha própria cabeça ou recorrendo a algum sorteio aleatório
de números. Não o aconselho a fazer isso, exceto se for um bom conhecedor da
lei de Newcomb-Benford. Não adianta consultar o Código Penal. Trata-se de uma “Lei”
no sentido matemático do termo.
Na tabela abaixo utilizamos o
gerador de números aleatório do Google e ele nos gerou doze quantidades fictícias
de “roubos” para minha área, uma para cada mês do ano. Para efeito de
demonstração, deixei os números variarem de 100 a 1000 (o que raramente ocorre
com crimes, que na verdade são bastante estáveis) e aparentemente, a série
gerada pelo computador faz sentido para um observador desatento.
Com um exercício para entender a
natureza do problema, separe-se, por exemplo, o primeiro dígito de cada centena
gerada: na terceira coluna da tabela vemos estes dígitos em destaque. Note-se que
o digito 8 aparece na série três vezes na primeira posição (25%), o número 7
aparece apenas uma vez (8,3%), o número 5 surge duas vezes (16,7%) e assim por
diante.
Análise do 1º dígito de números
aleatórios
Mês
|
Roubos
|
1º
digito
|
Digito
|
Freq.
|
%
|
|
jan
|
899
|
8
|
1
|
2 vezes
|
16,7%
|
|
fev
|
776
|
7
|
2
|
1 vez
|
8,3%
|
|
mar
|
535
|
5
|
3
|
0 vezes
|
0,0%
|
|
abr
|
241
|
2
|
4
|
2 vezes
|
16,7%
|
|
mai
|
149
|
1
|
5
|
2 vezes
|
16,7%
|
|
jun
|
487
|
4
|
6
|
1 vez
|
8,3%
|
|
jul
|
547
|
5
|
7
|
1 vez
|
8,3%
|
|
ago
|
853
|
8
|
8
|
3 vezes
|
25,0%
|
|
set
|
111
|
1
|
9
|
0 vezes
|
0,0%
|
|
out
|
420
|
4
|
12
|
100,0%
|
||
nov
|
620
|
6
|
||||
dez
|
890
|
8
|
Fonte: gerados de números do
Google
Segundo a lei dos grandes
números, se a nossa amostra de casos sorteados aleatoriamente aumentasse, a
distribuição percentual de cada dígito de 1 a 9 se aproximaria de 11,1%, que é
a frequência teórica esperada, supondo que cada dígito tem uma probabilidade
equivalente de ocorrência. (se incluíssemos o dígito 0, a porcentagem seria
10%, obviamente)
E é precisamente ai que nosso
policial desonesto se estrepa. Ocorre que para diversos tipos de fenômenos, a
distribuição do primeiro digito numa coleção de números não é equiprovável.
Trata-se de um fenômeno descoberto há cerca de dois séculos e que se aplica à
uma série de diferentes listas de números: valor de contas de luz, lista de
códigos postais, população municipal, edifícios mais altos do mundo, preços de
ações, comprimento de rios, pesos,
moleculares, etc. Infelizmente não há uma regra que diga à priori e quando uma
distribuição de frequências segue o formato Newcomb- Benford. É preciso coletar
os dados e realizar um teste empírico.
Para infelicidade do nosso
policial pouco versado em estatística, a distribuição da maioria dos crimes
também segue uma distribuição de frequência Newcomb-Benford, em homenagem a
seus descobridores.
Benford já notara esta característica
nos anos 30 com as taxas de mortalidade e Hikman e Rice observaram o mesmo padrão
ao estudarem em 2010 as estatísticas criminais nacional e estaduais norte
americanas. (Digital Analysis
of Crime Statistics: Does Crime Conform to Benford’s Law? Hickman, M.J. &
Rice, S.K. J Quant Criminol (2010) 26: 333. https://doi.org/10.1007/s10940-010-9094-6.)
Numa distribuição deste tipo,
quando separamos o primeiro dígito de cada número, o digito 1, por exemplo,
aparece 30,1% do tempo e o dígito 9, apenas 4,6% do tempo. A probabilidade de
ocorrência de cada dígito não é equiprovável, mas antes decai numa forma que é logarítmica,
como no gráfico abaixo.
A tabela seguinte traz exemplos
com crimes brasileiros, agregados em nível estadual[1].
Vamos explorá-la um pouco. Nas duas últimas colunas vemos a distribuição
teórica dos dígitos segundo a distribuição esperada de Benford e na última
coluna a distribuição real encontrada pelo autor nas taxas de mortalidade que
estudou em 1938. Nas demais colunas encontramos a distribuição dos primeiros
dígitos nas estatísticas criminais reportadas pelos Estados brasileiros entre
2001 e 2019, formando uma coleção de números com 32 mil linhas. Os crimes
analisados são Estupro, furto, furto de veículo (FV), homicídio doloso (HD),
lesão corporal dolosa (LCD), lesão corporal seguida de morte, roubo (RB), roubo
de veículo (RV) e tráfico de drogas.
Como pode ser notado pela tabela,
com exceção da lesão corporal dolosa, a maioria dos crimes parece realmente seguir
uma distribuição de Newcomb-Benford, quando analisamos a frequência dos
primeiros dígitos em cada coleção de crimes. Quando combinamos todos os crimes
na coluna Total Geral, observe-se a notável semelhança com a distribuição
esperada.
Na parte de baixo da tabela
anotamos as diferenças, em cada célula, entre a distribuição esperada e a
distribuição encontrada nas estatísticas criminais nacionais. Quando somamos os
números absolutos em cada coluna (desconsiderando o sinal), temos uma medida
rústica do quanto cada indicador criminal se desvia ou não da distribuição
teórica esperada. Note-se que é raro encontrarmos um desvio maior do que + ou –
5%, com exceção da mencionada coluna lesão corporal dolosa.
Não é o caso de discutir no
escopo deste artigo por que a maioria dos crimes segue a distribuição de
Benford ou por que as estatísticas nacionais de lesão corporal dolosa se
afastam aparentemente deste padrão. Mais importante aqui é perceber como esta
característica desta coleção de números pode ser utilizada como uma ferramenta
para detectar tentativas de fraude. De fato, desde os anos 70, contadores e
outros profissionais de auditorias procuram utilizá-las desta manceira.
No setor de estatística criminal
que coordenei em São Paulo, adotávamos diversos mecanismos de controle de
qualidade: leitura diária de uma amostra aleatória de boletins em busca de
inconsistências, comparações entre as séries históricas de homicídios com as
mortes por agressão compiladas pelo ministério da saúde, controle estatístico
de qualidade “3 sigmas”, e, esporadicamente, também a técnica ilustrada acima,
de distribuição de frequência do primeiro dígito. Com exceção de um ou outro episódio
excepcional – greve na polícia, ataques de maio de 2006, mudança no código
penal, criação da denúncia on-line, etc. – assinale-se que jamais identificamos
em oito anos de SSP, tentativas “dolosas” de fraude nas estatísticas criminais,
embora certamente tenham ocorrido erros de digitação e outras inconsistências.
Para o bem ou para o mal, o fato
é que crimes são fenômenos sociais extremamente regulares e previsíveis: existem
padrões sazonais, cíclicos, perfis conhecidos de horários, dias da semana, vítimas,
autores, etc. Eles seguem também as leis de concentração espacial. Em resumo, para
falsificar uma ocorrência ou um grupo de ocorrências que seja coerente, é
preciso conhecer muito bem este perfil, para que os dados não fujam muito dos
padrões.
Nestes tempos de políticas “compliance”
adotados por empresas e governos, é sempre bom lembrar que as estatísticas são
ferramentas importantes para a detecção de fraudes e erros. Lembrando sempre
que estatísticas são de natureza probabilística.
Recentemente, um jornal de grande
circulação nacional calculou a razão entre gastos eleitorais e votos e
identificou indícios de candidaturas “laranjas”, pois diversos candidatos(as)
tinham obtido poucos votos, mesmo gastando milhares de reais (este mesmo jornal
esqueceu de averiguar o desvio inverso, muitos votos com poucos recursos). Como
sempre, as estatísticas fornecem indícios probabilísticos das fraudes, jamais
certezas e é sempre complicado expor publicamente pessoas com base em
probabilidades estatísticas. Como diz o ditado, a estatística deve ser
utilizada como um bêbado usa um poste: mais como ponto de apoio do que como
fonte de luz! De todo modo, pode ser um passo inicial importante para o
aprofundamento das investigações. As estatísticas criminais nacionais, em sua
maioria, parecem passar neste teste de integridade.
Fontes adicionais
[1] Observe-se
que a distribuição de Newcomb-Benford, depende em parte da unidade de análise
utilizada. Estatísticas agregadas por municípios ou por Distritos policiais não
seguem necessariamente esta distribuição, uma vez que a quantidade absoluta de
crimes cai. No caso de crimes raros, teríamos uma grande porcentagem de
primeiros dígitos concentrados entre os dígitos 1 e 2. Quando usamos taxas ao
invés de números absolutos, a distribuição também se afasta da esperada, uma
vez que alteramos a escala dos dados.