quarta-feira, 8 de maio de 2019

Retórica da violência e aumento da letalidade policial



Acompanho desde os anos 90 a questão da letalidade e da violência policial e contra policiais no Brasil. Um dos desafios no monitoramento da questão é como encontrar indicadores minimamente objetivos que possam apontar quando os padrões de letalidade estão dentro da “normalidade” esperada e quando estamos diante de padrões “excessivos”.

Só a análise de cada caso e situação individual, feita na investigação, pode definir quando a atuação policial no confronto foi legal e legítima e quando foi ilegal e excessiva. Há que se levar em conta as provas testemunhais e as evidências forenses, as circunstancias atenuantes e agravantes e os requisitos legais da necessidade e proporcionalidade. Mesmo com todas as informações disponíveis é muito difícil se colocar na posição do policial naquele momento e afirmar que se tratou de uso ilegítimo ou abusivo da força. Isso faz com que seja baixo o percentual de casos de mortes em confronto considerados como excessivos pela justiça e julgados como homicídios. Na maioria dos casos, a justiça conclui que o uso da força foi legítimo.

Se é temerário julgar casos específicos sem o levantamento da situação, mais temerário ainda é fazer este tipo de julgamento “coletivamente”, lançando mão de estatísticas e dados agregados. Não obstante, acredito sempre que as estatísticas podem apontar algumas tendências e padrões gerais sobre a questão. Elas jamais poderão ser utilizadas para afirmar categoricamente alguma coisa ao nível individual. Mas podem lançar alguma luz sobre o fenômeno da violência policial em geral.

Dito isso, é possível utilizar alguns indicadores para analisar os padrões atuais de letalidade policial em São Paulo, cujos dados de 2019 acabam de ser publicados. Não obstante a queda generalizada da maioria dos crimes, membros da sociedade civil e dos meios de comunicação apontam um crescimento da letalidade policial no período. Neste artigo procuramos investigar se está ocorrendo um aumento, quando ele começou e algumas possíveis razões para o fenômeno.

O quadro abaixo traz as médias trimestrais de sete indicadores usuais de letalidade policial: 1) pessoas mortas em confronto com a Polícia Civil, em serviço; 2) pessoas mortas em confronto com a Polícia Militar, em serviço; 3) razão entre policiais mortos e suspeitos mortos; 4) razão entre suspeitos feridos e suspeitos mortos; 5) proporção de mortos em confronto dentro do total de homicídios; 6) mortes de suspeitos por 1000 prisões e 7) morte de suspeitos por policiais por 100 mil habitantes. A ideia é apontar para excessos através de indicadores minimamente objetivos, minimizando os julgamentos morais.


Fonte: res 160 SSP/SP

Estamos analisando aqui médias trimestrais, pois os dados são divulgados trimestralmente e temos dados para apenas 2 trimestres para o ano de 1995 e 1 trimestre de 2019. (Assim, é preciso multiplicar por quatro para termos uma ideia dos valores anuais).

A primeira coluna mostra que no final dos anos 90 a Policia Civil se envolvia em mais confrontos letais do que agora. A média é de 8,6 suspeitos mortos por trimestre e no primeiro trimestre de 2019 ela ficou bem abaixo disto, com média de 3 mortos. Note-se a mudança de patamar para baixo a partir de 2003, com exceção dos anos do ataque do PCC em 2006 e de 2017.

Por conta de sua função constitucional e tamanho do efetivo, os confrontos com a Polícia Militar, responsável pelo policiamento ostensivo, são bem mais letais, com média trimestral de 119 suspeitos mortos em confronto. Observe-se que depois do ano de 2013 parece ter ocorrido uma mudança de patamar na letalidade dos confrontos, sendo todos os valores superiores à média histórica, com exceção da observada em 2003, que foi recorde da série. O primeiro trimestre de 2019 elevou um pouco este patamar, mas a tendência altista já está caracterizada desde pelo menos 2014.

O terceiro indicador traz a razão média entre suspeitos e policiais militares mortos em confronto. Em razão do melhor treinamento, apoio e equipamento, é natural que morram mais criminosos do que policiais nos confrontos.  Mas quantas vezes mais? A partir do que patamar temos um padrão “abusivo”? . Historicamente, observamos em SP uma razão de 33:1, ou seja, suspeitos morrem 33 vezes mais do que policiais nos confrontos. (os números não são precisos, pois estamos fazendo uma média de razões quando o ideal seria recalcular as razões tomando os números absolutos originais. Mas a intenção é antes mostrar como o indicador vem evoluindo no tempo). Note-se que no início da série histórica esta razão era bem menor, bem como o impacto da política de mata-mata entre Rota e PCC em 2012. Depois da relativa tranquilidade de 2013, note-se novamente o que parece ser uma mudança de patamar para cima a partir de 2014. E em 2019 um novo aumento, atingindo o pico da série histórica.

O quarto indicador traz a relação entre suspeitos mortos e feridos nos confrontos. Numa situação normal, o esperado é que os confrontos deixem mais feridos do que mortos. Os dados mostram, todavia que, com exceção dos anos de 1995, 1996, 2005 e 2013, o nosso padrão é invertido, ou seja, em média os confrontos produzem 1,3 mais mortos do que feridos. Novamente aqui, vemos uma elevação no primeiro trimestre de 2019, quando a razão chegou a 2,3 mortos por ferido.

O quinto indicador é a proporção de mortos em confronto dentro dos homicídios em geral. O problema deste indicador é que ele deixou de ser informativo, uma vez que presenciamos nas últimas décadas uma redução sem precedentes no número de homicídios no Estado, superior a 70%. De modo que esta proporção aumentaria de todo modo, mesmo que tivéssemos uma diminuição ou estabilidade nos confrontos, por conta da queda no denominador. Em todo caso, é digno de nota que no começo da série histórica as mortes em confronto representassem apenas 3 a 4% das mortes no Estado e que atualmente representem ¼ das mortes. Isto significa que o controle efetivo da letalidade policial é hoje o melhor meio para reduzirmos ainda mais as mortes por agressão externa em São Paulo.

O sexto indicador nos traz a taxa de suspeitos mortos por 1000 prisões. A ideia subjacente é que quando ocorrem mais crimes e mais prisões, temos concomitantemente um aumento no risco de confrontos, uma vez que a maioria dos confrontos ocorre durante crimes em andamento, principalmente roubos. Com efeito, no final dos anos 90 a polícia paulista prendia em média 20 mil suspeitos por trimestre . Atualmente, esta média é de 45 mil suspeitos, mais do que dobrando a quantidade de prisões. Vemos assim que, mesmo tendo dobrado o risco de confrontos, a média de mortos em confronto a cada 1000 prisões continuou ao redor de 4. A média sobe no período de 2002 a 2006, mas depois volta a cair. Por este indicador, a letalidade policial se manteve aproximadamente constante, se aceitamos o pressuposto de que a letalidade é uma função do volume de crimes e de prisões. Mesmo aceitando este pressuposto, um patamar elevado de letalidade não é “destino”, mas antes produto de uma política de segurança. Evidência disso é o ano de 2013, sobre o qual voltaremos a comentar.

O sétimo e último indicador é a taxa de suspeitos mortos por 100 mil habitantes. A lógica subjacente aqui é que, como qualquer crime, a letalidade também aumenta com a população, de modo que é preciso analisar taxas e não números absolutos. São Paulo de 1995 tinha 33 milhões de habitantes e o de 2019 tem 44 milhões. O Estado ganhou o equivalente a uma cidade de São Paulo neste período, aumentando assim a probabilidade de confronto. De fato, também por este indicador a letalidade se manteve relativamente constante, embora esteja acima da média nos anos de 2014 em diante, quando se manteve sistematicamente acima dos .32:100 mil.

A análise sugere que é preciso olhar com cuidado os vários indicadores de letalidade, que revelam diferentes facetas do problema. É verdade que em parte a letalidade cresce em função do crescimento da população e do volume de prisões, que aumentam as chances de confronto. Por outro lado, em outra parte ela é função de uma “política” ou ausência de uma política e varia para cima ou para baixo dependendo do período e indicador que se tome.

Depois de um período de “linha dura” em 2012, a gestão é substituída e vemos uma melhora generalizada dos indicadores de letalidade em 2013. A média trimestral de mortes cai de 136 para 83, a razão mortos suspeitos X mortos policiais cai de 84 para 19, a razão mortos X feridos cai de 1,5 para 0,86, a porcentagem de mortos dentro dos homicídios cai de 12% para cerca de 8%, a taxa de mortes por 1000 prisões cai de 4,2 para 2,2 e a taxa de mortes por 100 mil habitantes cais de .33 para .20. Ou seja, presenciamos uma melhora substancial dos padrões de letalidade, de um ano para outro, fruto de uma política explícita de pacificação, após conflitos de 2012. Quando a polícia e o governo querem, é possível baixar a letalidade para níveis toleráveis, não obstante o aumento da população ou das prisões.

Os dados sugerem também que a elevação da letalidade não é algo que aconteceu subitamente em 2019, mas um processo que se inicia por volta de 2014. O que aconteceu de lá pra cá que pode explicar este fenômeno? Provavelmente, como todo fenômeno complexo, isto se deva a uma série de fatores: mudanças na gestão da SSP e no comando da PM, agravamento da crise econômica e elevação dos crimes patrimoniais, aumento da violência por parte dos criminosos, desmobilização da comissão de letalidade da SSP desde 2011, maior rapidez da polícia no atendimento aos chamados, etc. A polícia tem procurado justificar o aumento da letalidade pelo aumento da agressividade dos criminosos e aumento da celeridade no atendimento às ocorrências, mas até o momento não foram apresentados dados e estudos que corroborem estas justificativas.

Mas o fenômeno talvez seja em parte nacional e ligado a causas mais gerais. Segundo dados do Fórum Brasileiro de Segurança Pública, de 2016 para 2017 houve um aumento de 20% no número de mortos cometidos pelas polícias, que foram responsáveis por 5.144 mortes no país. E novo aumento de 18% foi relatado em 2018, de acordo com o levantamento do projeto Monitor da Violência, capitaneado pelo G1, que computou 6.160 mortes. https://g1.globo.com/monitor-da-violencia/noticia/2019/05/07/com-mortes-pela-policia-queda-de-assassinatos-no-brasil-em-2018-e-menor.ghtml. Em artigo anterior, apresentamos outros indicadores de abuso policial no Brasil, trazendo dados estaduais. https://tuliokahn.blogspot.com/2018/12/trata-aos-outros-como-queres-ser.html

Não temos evidências para corroborar, mas é possível conjecturar que o próprio desgaste moral do PT e das políticas e discursos humanitários “de esquerda” após 2014 tenham contribuído para esta elevação da letalidade policial, em diversos Estados. De alguns anos para cá ficou cada vez mais socialmente tolerável defender a resolução dos conflitos pela força, políticas de segurança “manu dura”, criticar a defesa dos direitos fundamentais, apoiar a liberação das armas de fogo, justificar o excesso policial com base no “escusável medo, surpresa ou violenta emoção”, ou mirar “na cabecinha”, como disse mais explicitamente o atual governador do Rio, onde a letalidade também tem batido recordes. 

Um dos piores efeitos dos descaminhos da esquerda nesta década no governo foi ter contribuído involuntariamente para que este tipo de discurso político se alastrasse pela sociedade, legitimado por lideranças políticas, defendido por parcelas da sociedade, principalmente através das mídias sociais.

Quanto mais aceita esta política e este discurso de “jogar duro com a bandidagem”, menor a capacidade de pressão das instituições da sociedade civil (há um projeto de lei na Assembleia para acabar com a Ouvidoria de polícia de SP...) para pressionarem pela redução da letalidade. Associadas tradicionalmente à esquerda, diversas ONGs perderam legitimidade como interlocutoras neste debate, atingidas de tabela pelo desgaste dos governos e partidos de esquerda. Ninguém quer mais ouvir falar de direitos humanos e há menos espaço nos meios de comunicação para a denúncia de eventuais abusos, inclusive contra policiais.

Assim, com menos pressão por parte da sociedade civil organizada e com maior respaldo por parte de movimentos e lideranças que defendem o endurecimento penal e no trato com os criminosos, as polícias acabam cedendo muitas vezes à tentação do uso abusivo da força.

Como disse, são apenas conjecturas para tentar explicar o aumento da letalidade pós 2014, embora a literatura sobre o tema tenha já evidenciado que mudanças nos discursos com relação à legitimidade dos confrontos tenham impacto significativo sobre os níveis de letalidade (Oliveira Jr, Emanuel Nunes de. Letalidade da Ação Policial e teoria interacional: análise integrada do sistema paulista de segurança pública. FFLCH, 2008)

O bom desempenho da polícia se mede pela taxa elevada de resolução de crimes, pela capacidade de prevenção, pelo respeito demonstrado pela população, pela equidade no trato com o cidadão, pela celeridade na resposta às demandas, pela satisfação de seus quadros.

Elevada taxa de letalidade compromete este bom desempenho e deve ser desestimulada, por exemplo, com redução no prêmio salarial quando aumenta a letalidade (como prevê a lei de metas), com a retomada da Comissão de Letalidade e com a defesa muito incisiva da legalidade pelos gestores da segurança pública. A grande maioria dos policiais de São Paulo, com quem convivi durante muitos anos, é técnica, profissional, legalista e não deseja o confronto. Letalidade alta é coisa de capitão do mato. É evidência de fracasso da ação e risco para o policial. São Paulo é caso de maior sucesso na redução dos homicídios do país. E  pode se tornar também um exemplo no que diz respeito à redução da letalidade policial. Este processo começa com a mudança do discurso sobre o uso da força.

Bibliografia
Ceccato V., Melo S.N., Kahn T. (2018) Trends and Patterns of Police-Related Deaths in Brazil. In: Carrington K., Hogg R., Scott J., Sozzo M. (eds) The Palgrave Handbook of Criminology and the Global South. Palgrave Macmillan, Cham

sexta-feira, 12 de abril de 2019

Mostrando o programa Chatfuel



Mostrando o programa Chatfuel https://youtu.be/R_99Aph0LO0 via @YouTube Video aula no meu canal do youtube, sobre como construir um robô de chat para coletar dados através de uma pesquisa on-line

quinta-feira, 4 de abril de 2019

Polícia não tem medo de bandido. Mas ainda morre de medo de algoritmos




Bancos são organizações que não costumam jogar dinheiro pela janela. Se você que saber se alguma tecnologia ou metodologia funcionam, ver se os bancos as utilizam pode ser um bom critério para a replicação.

Há décadas o setor bancário utiliza algoritmos matemáticos para definir riscos individuais de crédito. Se vou pedir um empréstimo no banco eles verificam se já dei cheques sem fundo, se fui listado no Serasa, se estou empregado, minha renda, meus bens, idade, e dezenas de variáveis que ajudam a prever se vou ou não honrar o empréstimo. Estas variáveis são ponderadas e no final recebo um score e uma classificação como bom ou mau pagador. Não adianta culpar o gerente se o empréstimo não foi concedido...quem define isso é o algoritmo, com base nas estatísticas de milhares de casos passados.
Trata-se de um método probabilístico e falível pois há sempre o risco de recursar crédito a um bom pagador (falso negativo) ou conceder crédito para um caloteiro (falso positivo). Mas de modo geral, o algoritmo acerta ou pelo menos acerta bem mais do que o gerente do banco sozinho, com seus preconceitos e limites de memória e informação.





O setor público, quase sempre, anda a reboque quando se trata de utilizar novas metodologias e tecnologias. O sistema de justiça criminal, não obstante a existência de ricas e gigantescas bases de dados, faz ainda pouco uso dos algoritmos como ferramentas de apoio a decisão. Existem nas polícias crenças equivocadas, tais como “os casos de feminicídio e homicídios domésticos são difíceis de prevenir” pois acontecem dentro de casa, entre pessoas sem histórico criminal, etc. A ênfase na formação jurídica e o desprestígio das demais ciências explicam em parte o pouco uso destas metodologias no Brasil.

Uma exceção é o policiamento baseado em hot spots, adotado usualmente pelo policiamento ostensivo. É comum hoje o uso de um algoritmo que calcule a densidade de ocorrências numa determinada área, dia e hora. Na verdade, o algoritmo está prevendo – como o sistema de crédito bancário – que há grande probabilidade de que novos crimes ocorram naquela local e hora, de modo que o melhor “investimento” é alocar mais recursos policiais para aquele hot spot e hot time. Como os recursos policiais são escassos, ao invés de desperdiçar estes recursos em locais e horas de baixo risco, potencializo meus recursos alocando-o onde o crime é mais provável. Na área investigativa, algoritmos calculam a probabilidade de que um rosto detectado numa câmera seja ou não o de um criminoso procurado pela justiça. 

Esta lógica de alocação de recursos baseada em fatores de risco, algoritmos matemáticos e na epidemiologia poderia ser utilizada para a tomada de diversas outras decisões dentro do sistema de justiça criminal. Há diversos exemplos de utilização pelos países desenvolvidos. Nos EUA, por exemplo, o software COMPASS utiliza 137 variáveis para prever quais criminosos tem maior probabilidade de reincidência. Esta informação pode ser utilizada, por exemplo, para decidir quem deve receber maiores cuidados assistenciais pelos serviços de atendimento aos egressos. Para a Justiça juvenil, existe por exemplo o YLS/CMI (Youth Level of Service/Case Management Inventory), instrumento com 42 itens, cobrindo 8 diferentes domínios, para predizer a probabilidade de reincidência de jovens de 10 a 16 anos. O instrumento é capaz de prever razoavelmente não apenas quem irá reincidir, mas também em quanto tempo. Na Filadélfia, um software desenvolvido pelo departamento de condicional baseado em modelos de “randon forest” e 12 variáveis preditivas, classifica em segundos o grau de risco dos sentenciados a condicional.

Em todos estes casos, parte-se do conhecido fato criminológico de que apenas uma minoria dos ofensores é responsável por um grande número de crimes, de modo que é relevante identificar estes ofensores e oferecer a eles tratamentos mais longos e intensivos ou fiscalizá-los mais de perto. Para os de baixo risco, a proposta é procurar medidas alternativas e menos custosas e menos estigmatizantes do que o encarceramento.

Parte significativa dos assassinatos de mulheres tem precedentes de violência doméstica e registros policiais. A polícia Inglesa utiliza desde 2009 um questionário com cerca de 40 questões (DASH) para estabelecer quais mulheres têm maior risco de sofrer violência doméstica, criando classes de periculosidade. Os próprios policiais preenchem este formulário após cada atendimento de violência doméstica. Esta informação é utilizada pelo comitê multidisciplinar que monitora os casos e pode ser usada para direcionar o programa de patrulhamento preventivo ou decidir quando um agressor deve ser preso ou que vítima deve receber um celular de emergência ou ir para um abrigo governamental. Nos EUA existem vários instrumentos semelhantes para predizer violência doméstica, como o DA, DV-MOSAIC, DVSI ou K-SID, entre outros, enquanto o Canadá desenvolveu os instrumentos SARA e ODARA.

Em todos estes exemplos, existe um acumulado de conhecimento criminológico que norteia quais as variáveis relevantes do ponto de vista teórico e empírico. Sabe-se que envolvimento precoce com o crime, passagens anteriores pela justiça, uso de álcool e drogas, baixa escolaridade e baixa empregabilidade, bairro de moradia, período de tempo desde o último crime, etc. são preditores relevantes para reincidência. Uso de álcool e drogas, separação judicial do casal, histórico de agressões, disponibilidade de armas de fogo, histórico de destruição de propriedade, desemprego, baixo status sócio econômico, pouca idade, etc. são preditores consistentes de violência doméstica. Existem centenas de variáveis na literatura criminológica e psicológica já avaliadas como fatores de risco ou protetivos.

Utilizando julgamentos clínicos ou métodos atuarias, questionários são elaborados para investigar dados demográficos, histórico psiquiátrico, histórico de envolvimento com a justiça, informações sobre a infância do agressor, traumas físicos e dezenas de outras dimensões que impactam a disposição a delinquir e reincidir. Com base nestes questionários, o que os algoritmos fazem é testar quais são os melhores preditores, ponderá-los, computar uma nota de corte, fazer uma classificação que sirva de apoio à decisão. Os métodos estatísticos para fazer os cálculos são variados, como a regressão linear, regressões logísticas ou tree decision forest, entre outros.

É importante notar que enquanto alguns destes preditores são estáticos e não passiveis de modificação (sexo, traumas físicos) outros são dinâmicos e, portanto, potencialmente alteráveis por políticas públicas (tratamento para prevenir o uso drogas, aumentar a escolarização, terapias, etc.)

Existem dezenas de perguntas relevantes para a administração da justiça e gestão da polícia que poderiam ser respondidos da mesma maneira. Quem deve ser preso provisoriamente e quem pode ser liberado? Quem deve se beneficiar da saída temporária? Quem tem maior probabilidade de ser vitimizado ou revitimizado? Que policiais tem maior propensão ao suicídio? Que perfil de policial tem maior predisposição a se envolver com ocorrências de alto risco? Quem são aqueles com risco de se envolver em atividades desonestas caso sejam contratados? Podemos identificar os sinais de risco de feminicídios e intervir antes que ocorram? Na ausência de um critério jurídico, que deve ser classificado como usuário e quem como traficante?

Em todos estes casos, é provável que existam sinais que podem ser captados através de instrumentos adequados. As respostas são probabilísticas e é preciso decidir, para cada tema, quais os riscos dos chamados “falsos negativos” ou “falsos positivos” e estabelecer a priori uma “razão de custo”. (por exemplo, qual o custo de classificar um policial como potencial suicida e fornecer a ele um tratamento psicológico, quando na verdade ele não é. Existem recursos estatísticos, como as curvas ROC que ajudam a estimar este custo “ideal” mas a decisão final é sempre meta-estatística: por princípio, na dúvida, é melhor pecar por excesso e oferecer tratamento ao não suicida, do que pecar por falta).

É preciso cuidar também para que os algoritmos não sejam social ou racialmente enviesados. Regra geral, os algoritmos produzem resultados mais imparciais do que os humanos. Em suma, é preciso tratá-los como ferramentas de apoio à decisão e não como oráculos infalíveis. Por vezes será conveniente combinar os resultados do algoritmo com uma supervisão final “humana”.

Tomados os devidos cuidados, a literatura sugere – ainda mais agora em tempos de “big data” e “machine learnings” – que os algoritmos conseguem detectar correlações as vezes invisíveis a olho nu e tomar decisões mais acertadas e menos sujeitas à preconceitos do que os seres humanos. Este tratamento equânime dado pelo algoritmo a todos os casos é um elemento importante, depois que a economia comportamental descobriu que as sentenças judiciais podem ser afetadas por fatores totalmente espúrios, como a hora do julgamento ou se o juiz almoçou ou não. (Daniel Kahneman, Rápido e Devagar, etc.)

Quando os recursos são escassos e os atendimentos precisam ser priorizados – temos 700 mil presos no país, 40% deles “provisórios), os algoritmos de predição e classificação podem ser grandes aliados. Os bancos já sabem disso quando se trata de emprestar ou não dinheiro. Então pode acreditar que funciona.

Bibliografia

·         Craig Dowden & S. L. Brown (2002) The role of substance abuse factors in predicting recidivism: A Meta-analysis, Psychology, Crime and Law, 8:3, 243-264, DOI: 10.1080/10683160208401818
·         EYITAYO ONIFADE, WILLIAM DAVIDSON, CHRISTINA CAMPBELL, GARRETT TURKE, JILL MALINOWSKI, KIMBERLY TURNER. PREDICTING RECIDIVISM IN PROBATIONERS WITH THE YOUTH LEVEL OF SERVICE CASE MANAGEMENT INVENTORY (YLS/CMI). Article in Criminal Justice and Behavior · April 2008
·         J. Dressel, H. Farid, The accuracy, fairness, and limits of predicting recidivism. Sci. Adv.4, eaao5580 (2018).
·         Marcela Madalena, Lucas de Francisco Carvalho, Denise Falcke .Violência Conjugal: O Poder Preditivo das Experiências na Família de Origem e das Características Patológicas da Personalidade,. Trends in Psychology / Temas em Psicologia – Março 2018, Vol. 26, nº 1, 75-91
·         Ritter, Nancy. Predicting Recidivism Risk: New Tool in Philadelphia Shows Great Promise. NIJ JOURNAL / ISSUE NO. 271 - FEBRUARY 2013
·         Robert Chalkley & Heather Strang .Predicting Domestic Homicides and Serious Violence in Dorset: a Replication of Thornton’s Thames Valley.. Camb J Evid Based Polic (2017) 1:81–92
·         Ronzano, Gemma. FORECASTING DOMESTIC VIOLENCE. Degree: BSc Psychology
·         Author(s): Janice Roehl, Ph.D.; Chris O’Sullivan, Ph.D.; Daniel Webster, ScD; Jacquelyn Campbell, Ph.D. Intimate Partner Violence Risk Assessment Validation Study, Final Report. Document No.: 209731 Date Received: May 2005

segunda-feira, 11 de março de 2019

Estatísticas Criminais e a Lei de Newcomb-Benford



Vamos supor que sou um policial pouco honesto e que o desempenho da minha área – e a minha renumeração - seja medido ou varie em função da quantidade mensal de roubos. Ao invés de registrar a quantidade real de roubos na planilha, digamos, posso ser tentado a inventar os números, tirando-os da minha própria cabeça ou recorrendo a algum sorteio aleatório de números. Não o aconselho a fazer isso, exceto se for um bom conhecedor da lei de Newcomb-Benford. Não adianta consultar o Código Penal. Trata-se de uma “Lei” no sentido matemático do termo.

Na tabela abaixo utilizamos o gerador de números aleatório do Google e ele nos gerou doze quantidades fictícias de “roubos” para minha área, uma para cada mês do ano. Para efeito de demonstração, deixei os números variarem de 100 a 1000 (o que raramente ocorre com crimes, que na verdade são bastante estáveis) e aparentemente, a série gerada pelo computador faz sentido para um observador desatento.

Com um exercício para entender a natureza do problema, separe-se, por exemplo, o primeiro dígito de cada centena gerada: na terceira coluna da tabela vemos estes dígitos em destaque. Note-se que o digito 8 aparece na série três vezes na primeira posição (25%), o número 7 aparece apenas uma vez (8,3%), o número 5 surge duas vezes (16,7%) e assim por diante.

Análise do 1º dígito de números aleatórios
Mês
Roubos
1º digito

Digito
Freq.
%
jan
899
8

1
2 vezes
16,7%
fev
776
7

2
1 vez
8,3%
mar
535
5

3
0 vezes
0,0%
abr
241
2

4
2 vezes
16,7%
mai
149
1

5
2 vezes
16,7%
jun
487
4

6
1 vez
8,3%
jul
547
5

7
1 vez
8,3%
ago
853
8

8
3 vezes
25,0%
set
111
1

9
0 vezes
0,0%
out
420
4


12
100,0%
nov
620
6




dez
890
8




Fonte: gerados de números do Google

Segundo a lei dos grandes números, se a nossa amostra de casos sorteados aleatoriamente aumentasse, a distribuição percentual de cada dígito de 1 a 9 se aproximaria de 11,1%, que é a frequência teórica esperada, supondo que cada dígito tem uma probabilidade equivalente de ocorrência. (se incluíssemos o dígito 0, a porcentagem seria 10%, obviamente)

E é precisamente ai que nosso policial desonesto se estrepa. Ocorre que para diversos tipos de fenômenos, a distribuição do primeiro digito numa coleção de números não é equiprovável. Trata-se de um fenômeno descoberto há cerca de dois séculos e que se aplica à uma série de diferentes listas de números: valor de contas de luz, lista de códigos postais, população municipal, edifícios mais altos do mundo, preços de ações, comprimento de rios,  pesos, moleculares, etc. Infelizmente não há uma regra que diga à priori e quando uma distribuição de frequências segue o formato Newcomb- Benford. É preciso coletar os dados e realizar um teste empírico. 

Para infelicidade do nosso policial pouco versado em estatística, a distribuição da maioria dos crimes também segue uma distribuição de frequência Newcomb-Benford, em homenagem a seus descobridores. 

Benford já notara esta característica nos anos 30 com as taxas de mortalidade e Hikman e Rice observaram o mesmo padrão ao estudarem em 2010 as estatísticas criminais nacional e estaduais norte americanas. (Digital Analysis of Crime Statistics: Does Crime Conform to Benford’s Law? Hickman, M.J. & Rice, S.K. J Quant Criminol (2010) 26: 333. https://doi.org/10.1007/s10940-010-9094-6.)

Numa distribuição deste tipo, quando separamos o primeiro dígito de cada número, o digito 1, por exemplo, aparece 30,1% do tempo e o dígito 9, apenas 4,6% do tempo. A probabilidade de ocorrência de cada dígito não é equiprovável, mas antes decai numa forma que é logarítmica, como no gráfico abaixo.



A tabela seguinte traz exemplos com crimes brasileiros, agregados em nível estadual[1]. Vamos explorá-la um pouco. Nas duas últimas colunas vemos a distribuição teórica dos dígitos segundo a distribuição esperada de Benford e na última coluna a distribuição real encontrada pelo autor nas taxas de mortalidade que estudou em 1938. Nas demais colunas encontramos a distribuição dos primeiros dígitos nas estatísticas criminais reportadas pelos Estados brasileiros entre 2001 e 2019, formando uma coleção de números com 32 mil linhas. Os crimes analisados são Estupro, furto, furto de veículo (FV), homicídio doloso (HD), lesão corporal dolosa (LCD), lesão corporal seguida de morte, roubo (RB), roubo de veículo (RV) e tráfico de drogas.

Como pode ser notado pela tabela, com exceção da lesão corporal dolosa, a maioria dos crimes parece realmente seguir uma distribuição de Newcomb-Benford, quando analisamos a frequência dos primeiros dígitos em cada coleção de crimes. Quando combinamos todos os crimes na coluna Total Geral, observe-se a notável semelhança com a distribuição esperada.




Na parte de baixo da tabela anotamos as diferenças, em cada célula, entre a distribuição esperada e a distribuição encontrada nas estatísticas criminais nacionais. Quando somamos os números absolutos em cada coluna (desconsiderando o sinal), temos uma medida rústica do quanto cada indicador criminal se desvia ou não da distribuição teórica esperada. Note-se que é raro encontrarmos um desvio maior do que + ou – 5%, com exceção da mencionada coluna lesão corporal dolosa.

Não é o caso de discutir no escopo deste artigo por que a maioria dos crimes segue a distribuição de Benford ou por que as estatísticas nacionais de lesão corporal dolosa se afastam aparentemente deste padrão. Mais importante aqui é perceber como esta característica desta coleção de números pode ser utilizada como uma ferramenta para detectar tentativas de fraude. De fato, desde os anos 70, contadores e outros profissionais de auditorias procuram utilizá-las desta manceira.

No setor de estatística criminal que coordenei em São Paulo, adotávamos diversos mecanismos de controle de qualidade: leitura diária de uma amostra aleatória de boletins em busca de inconsistências, comparações entre as séries históricas de homicídios com as mortes por agressão compiladas pelo ministério da saúde, controle estatístico de qualidade “3 sigmas”, e, esporadicamente, também a técnica ilustrada acima, de distribuição de frequência do primeiro dígito. Com exceção de um ou outro episódio excepcional – greve na polícia, ataques de maio de 2006, mudança no código penal, criação da denúncia on-line, etc. – assinale-se que jamais identificamos em oito anos de SSP, tentativas “dolosas” de fraude nas estatísticas criminais, embora certamente tenham ocorrido erros de digitação e outras inconsistências.

Para o bem ou para o mal, o fato é que crimes são fenômenos sociais extremamente regulares e previsíveis: existem padrões sazonais, cíclicos, perfis conhecidos de horários, dias da semana, vítimas, autores, etc. Eles seguem também as leis de concentração espacial. Em resumo, para falsificar uma ocorrência ou um grupo de ocorrências que seja coerente, é preciso conhecer muito bem este perfil, para que os dados não fujam muito dos padrões.

Nestes tempos de políticas “compliance” adotados por empresas e governos, é sempre bom lembrar que as estatísticas são ferramentas importantes para a detecção de fraudes e erros. Lembrando sempre que estatísticas são de natureza probabilística.

Recentemente, um jornal de grande circulação nacional calculou a razão entre gastos eleitorais e votos e identificou indícios de candidaturas “laranjas”, pois diversos candidatos(as) tinham obtido poucos votos, mesmo gastando milhares de reais (este mesmo jornal esqueceu de averiguar o desvio inverso, muitos votos com poucos recursos). Como sempre, as estatísticas fornecem indícios probabilísticos das fraudes, jamais certezas e é sempre complicado expor publicamente pessoas com base em probabilidades estatísticas. Como diz o ditado, a estatística deve ser utilizada como um bêbado usa um poste: mais como ponto de apoio do que como fonte de luz! De todo modo, pode ser um passo inicial importante para o aprofundamento das investigações. As estatísticas criminais nacionais, em sua maioria, parecem passar neste teste de integridade.

Fontes adicionais





[1] Observe-se que a distribuição de Newcomb-Benford, depende em parte da unidade de análise utilizada. Estatísticas agregadas por municípios ou por Distritos policiais não seguem necessariamente esta distribuição, uma vez que a quantidade absoluta de crimes cai. No caso de crimes raros, teríamos uma grande porcentagem de primeiros dígitos concentrados entre os dígitos 1 e 2. Quando usamos taxas ao invés de números absolutos, a distribuição também se afasta da esperada, uma vez que alteramos a escala dos dados.

Arquivo do blog

Follow by Email

Seguidores