quinta-feira, 10 de outubro de 2024

Análise de dados para Segurança Pública

O objetivo deste curso é mostrar algumas ferramentas de análise que tenho utilizado para fazer minhas próprias análises criminais e outras análises quantitativas e qualitativas nos últimos 25 anos.


Não se trata aqui de um curso de análise criminal tradicional mas sim de um curso que apresenta ferramentas úteis para o analista criminal. O foco é nas ferramentas e em como montar uma base e os recursos das ferramentas para a posterior análise criminal.

Estaremos ensinando a coletar dados de páginas web, montar formulários on-line para coleta de dados, construir nuvens de palavras, fazer mapas tipo LISA, coletar dados do facebook, analisar redes sociais através de redes de relacionamento, fazer regressões simples em machine learnings, visualizar dados num B.I e outras técnicas interessantes.

Não é preciso de grandes conhecimentos em estatística ou programação para manusear os programas mostrados, mas é preciso sim conhecimento prévio nestas áreas para saber o que se pode extrair dele

Os módulos do curso de métodos e técnicas de análise de dados com ênfase em análise criminal, conforme a estrutura apresentada, são os seguintes:


O curso de análise de dados com ênfase em criminalidade capacita na coleta, análise e visualização de dados criminais, com módulos essenciais: Coleta de Dados (técnicas como raspagem web, construção de formulários e uso de robôs de chat para automatizar a coleta); Análise Qualitativa (ferramentas para interpretação de discursos, nuvens de palavras, e classificação de sentimentos com QDA Miner); Análise Quantitativa (estatísticas, regressões e análise fatorial); Séries Temporais (previsão com ARIMA e suavização); Análise Espacial (mapeamento e Moran I); Análise de Redes (Gephi e Node Excel) e IA Generativa (uso do ChatGPT para análise).


https://hotmart.com/pt-br/marketplace/produtos/metodos-e-tecnicas-de-analises-de-dados/R40903062C?sck=HOTMART_SITE&search=7847fd49-70ef-4097-ad63-855838538001&hotfeature=33

terça-feira, 24 de setembro de 2024

Criminalidade e ilegalidade na Amazônia


Estudo do sociólogo Tulio Kahn analisa a possível relação entre o crescimento rápido e desordenado da região e o aumento da ação de criminosos


 https://espacodemocratico.org.br/publicacoes/documento-ilegalidade-e-criminalidade-na-amazonia/https://espacodemocratico.org.br/publicacoes/documento-ilegalidade-e-criminalidade-na-amazonia/

terça-feira, 10 de setembro de 2024

Estamos preparados para enfrentar os eventos climáticos extremos?

 

Os eventos climáticos extremos no Brasil estão se agravando, em linha com as tendências globais de mudanças climáticas. Vários fatores contribuem para essa intensificação, incluindo o aumento da temperatura média global, a variabilidade climática e a degradação ambiental, como o desmatamento da Amazônia.

Dados do Instituto Nacional de Meteorologia (INMET) indicam que as temperaturas médias no Brasil têm aumentado gradualmente ao longo das últimas décadas. O aumento da temperatura contribui para a intensificação de fenômenos como ondas de calor e secas severas. Fenômenos cíclicos como El Niño e La Niña têm sido exacerbados pelas mudanças climáticas. O El Niño, por exemplo, tende a agravar as secas no Nordeste e aumentar o risco de incêndios na Amazônia, enquanto o La Niña pode intensificar as chuvas no Sul e Sudeste.

Segundo levantamento do Instituto Nacional de Meteorologia (Inmet), dos 12 meses do ano de 2023, nove tiveram médias mensais de temperatura acima da média histórica (1991/2020), com destaque para setembro, que apresentou maior desvio (diferença entre o valor registrado e a média histórica) desde 1961, com 1,6ºC acima da climatologia de 1991/2020https://portal.inmet.gov.br/noticias/ano-de-2023-%C3%A9-o-mais-quente-da-hist%C3%B3ria-do-brasil#:~:text=Fonte%3A%20Inmet.&text=De%20acordo%20com%20a%20vers%C3%A3o,at%C3%A9%20outubro%20do%20ano%20passado.

É possível conjecturar que o aumento da frequência e intensidade de eventos climáticos extremos explique em parte o aumento dos atendimentos dos bombeiros nos últimos anos, indicador que passou a ser monitorado pelo SINESP /MJ. Nos gráficos abaixo vemos as séries temporais de registros de combate a incêndio e de busca e salvamentos realizados pelos bombeiros entre 2015 e 2024, tomando o período de janeiro a julho de cada ano. A melhora dos registros e da notificação pode afetar estes indicadores e seria preciso detalhar as informações para verificar se de fato estes registros estão ligados aos fenômenos das secas e inundações mais frequentes.

 De toda forma, de acordo com os dados do Sinesp, os registros de incêndio teriam aumentado 157% no período. As maiores concentrações estão nos Estados de São Paulo, Rio de Janeiro e Minas, o que sugere que os dados refletem em parte o nível de organização das corporações estaduais voltadas para o fenômeno.

As buscas e salvamentos, por sua vez, cresceram 68,7% no período, novamente com concentrações no Rio, São Paulo e Minas. Mais uma vez, a incidência sugere que os registros estão antes ligados às atribuições que os bombeiros exercem em cada Estado e sua capacidade de atuação, talvez mais do que à incidência dos fenômenos relacionados às secas e inundações.

Como quer que seja, o crescimento dos registros de incêndios e salvamentos – estando ou não relacionado à intensificação dos eventos climáticos – aponta para a necessidade de repensar a estrutura dos corpos de bombeiros estaduais e dos órgãos de defesa civil, que deverão ser cada vez mais exigidos. Pelo que vimos pela distribuição dos registros do Sinesp, muitos bombeiros enfrentam escassez de recursos humanos, financeiros e tecnológicos, o que limita sua capacidade de atuação, especialmente em estados com menor arrecadação fiscal. Os órgãos de Defesa Civil padecem frequentemente dos mesmos problemas.

As secas prejudicam a produção agrícola e a segurança hídrica, enquanto inundações causam prejuízos a infraestrutura urbana e deslocam milhares de pessoas. Além disso, esses eventos têm custos significativos para a economia, com perdas agrícolas, destruição de infraestrutura e aumento dos gastos públicos para mitigação e recuperação. Os bombeiros e Defesas Civis estaduais estão preparados e dimensionados para enfrentar estes novos desafios?

Estes órgãos estão voltados primordialmente para a pós-crise, a coordenação de ações de respostas, enquanto a sociedade precisará cada vez mais de políticas públicas de mitigação, adaptação e conservação  para enfrentar esses desafios.

As Defesas Civis estaduais no Brasil são responsáveis pela coordenação, planejamento e execução de ações voltadas à proteção da população e à minimização dos danos causados por desastres naturais ou tecnológicos. Elas operam dentro do Sistema Nacional de Proteção e Defesa Civil (SINPDEC), que organiza e articula os órgãos de defesa civil em todos os níveis de governo – municipal, estadual e federal – e também entre a sociedade civil e o setor privado.

O problema que as Defesas Civis estaduais são frequentemente parte das Secretarias de Segurança Pública ou de outras pastas relacionadas à gestão de emergências, variando de estado para estado. Elas estão por vezes, subordinadas ao Gabinete do Governador, a Casa Militar ou a secretarias específicas, mas raramente são secretarias independentes, com recursos e pessoal próprios. Frequentemente são geridas por Policiais Militares ou Bombeiros, especializados, por formação, nas tarefas de resposta aos desastres.

Todavia, uma das funções primordiais das Defesas Civis estaduais é a prevenção de desastres. Isso envolve, entre outras atividades, a criação de mapeamentos de áreas de risco, monitoramento de fenômenos meteorológicos (em parceria com o INMET e outras instituições) e a promoção de políticas públicas voltadas à redução de riscos, como obras de infraestrutura (barragens, diques, drenagem) e o reassentamento de populações em áreas vulneráveis. Elas têm tarefas importantes no âmbito da coordenação dos órgãos municipais e da coleta e análise de dados.

Ao que me parece, frente aos desafios atuais e futuros, tanto bombeiros quanto os órgão de Defesa Civil estão subdimensionados e mal concebidos para lidar com o agravamento da situação climática e dos desastres naturais e humanos. Talvez seja o momento de repensar o SIMPDEC, elevar o status hierárquico das Defesas Civis dentro das estruturas dos governos, providenciar orçamentos próprios e robustos para o desenvolvimento de suas atividades, escolher gestores e equipe voltados não apenas à resposta às crises, mas principalmente à prevenção.

Alguém já observou que a guerra é importante demais para ser deixada apenas nas mãos dos militares. Os eventos climáticos e suas consequências devem afetar a sociedade e a economia, num futuro não tão remoto, em proporções maiores que muitas guerras. Estamos falando num fenômeno muito mais abrangente do que uma crise de segurança pública. Assim, sua atuação deve ser pensada antes da perspectiva estratégica do que operacional. É preciso readequar a estrutura e as políticas para enfrentar a questão, em todos os níveis de governo.

Obs: este artigo foi parcialmente escrito com o auxílio de I.A.

terça-feira, 3 de setembro de 2024

Transparência das informações versus privacidade

 


Nossos dados pessoais são compartilhados em dezenas de bases de dados e muitas destas bases contem informações sensíveis que nem todo mundo gostaria de compartilhar, como sites visualizados ou palavras chaves que buscadas no google... O mesmo se aplica aos dados públicos com informações particulares sobre sua saúde – que podem ser usados para negar empregos, seguros ou empréstimos - ou sobre crimes eventualmente ocorridos na sua residência, ou ainda sobre sua renda, para mencionar alguns tipos de dados sensíveis que os órgãos governamentais detém.

Por outro lado, sabemos que na era da I.A. estas informações são as vezes relevantes para o desenvolvimento de modelos estatísticos, pesquisas e tratamentos médicos, avaliações de impacto de políticas, distribuição de recursos policiais e dezenas de outras atividades acadêmicas e operacionais. A questão é como conciliar o direito individual à privacidade ao mesmo tempo em que se permite o acesso de nossas informações para bases públicas e privadas para fins de pesquisa ou outros usos socialmente relevantes. Interessa à coletividade conhecer as ruas mais perigosas, a melhor rota de trânsito, o desenvolvimento do tratamento de doenças, o impacto dos programas sociais na renda, etc. e isso só é possível com a utilização de bases gigantescas, razoavelmente detalhadas e não enviesadas.

Uma prática comum dos detentores de dados é fornecer bases que sejam anonimizadas, isto é, sem nomes, números de documentos ou outros dados que permitam a individualização das informações. Essa precaução, todavia, não garante que se faça a “reidentificação”, que é a utilização de filtros de pesquisa e cruzamento de informações para que se consiga novamente chegar a indivíduos específicos. A probabilidade de reidentificação pode ser entendida como a inversa do número de indivíduos que compartilham as mesmas características.

Vou dar um exemplo concreto a partir de uma base de dados de 137 mil presos que obtive para pesquisa nos anos 90, que foi anonimizada, mas que contém informações demográficas como data de nascimento, gênero e cor dos indivíduos, entre outras informações. Não seria muito difícil reidentificar indivíduos com o conhecimento de algumas poucas informações demográficas sobre eles.

Se soubermos a data de aniversário, já podemos utilizar um primeiro filtro, que resultaria teoricamente em 375 indivíduos, aproximadamente, uma vez que cada aniversário se repete cerca de 365 vezes. (137000: 365 = 375,3). Sabendo que se trata de uma mulher reduziríamos nossa busca a 187,5 pessoas. Supondo ademais que conhecemos que se trata de uma mulher negra, e que os “pretos”, conforme a classificação do SEADE, representam cerca de 5,5% da população de São Paulo, nossa lista final de candidatas teria menos de 10 pessoas. Assim, quanto mais informações tivermos e mais detalhadas as informações, mais fácil se torna filtrar os dados para chegarmos ao indivíduo de interesse.

 

O procedimento é um pouco mais complicado, se não estivermos falando de uma amostra representativa da população, mas de um subconjunto específico, como a população prisional. A probabilidade de reidentificação também depende da distribuição da população na base de dados. Por exemplo, a data de nascimento nunca é precisamente a mesma para cada dia do ano, uma vez que nascem mais pessoas em alguns dias e meses. Cerca de 95,9% da população prisional é masculina, em contraste com metade da população paulista. Na nossa amostra, descobrimos também que “pretos” representam 12,1% dos presos, em contraste com 5,5% da população paulista. Trata-se, portanto de uma amostra bem distinta da população em geral, mas conhecendo este perfil, é fácil proceder aos cálculos.

Selecionamos um aniversário ao acaso (15 de junho) e encontramos na amostra 466 presos que fazem aniversário nesta data. Quando filtramos as mulheres, encontramos 22 casos e quando adicionamos a informação sobre a cor, chegamos a apenas dois indivíduos. Partimos de uma base anonimizada com 137 mil indivíduos e apenas utilizando três filtros, reduzimos as possibilidades para 2 pessoas!

A data de nascimento é uma variável considerada altamente identificável, especialmente quando combinada com outras variáveis demográficas e é definida como um “quase-identificador”. Mesmo em uma grande base de dados, com milhares de registros, a data de nascimento pode ser única ou quase única, o que aumenta o risco de reidentificação. Estudos indicam que datas de nascimento são um dos principais fatores de risco para reidentificação, especialmente quando combinadas com outras variáveis. Em um estudo clássico conduzido por Latanya Sweeney, ela demonstrou que 87% da população dos Estados Unidos poderia ser identificada unicamente usando apenas três atributos: data de nascimento, gênero e CEP. (Sweeney, L. (1997), Weaving Technology and Policy Together to Maintain Confidentiality. The Journal of Law, Medicine & Ethics, 25: 98-110. https://doi.org/10.1111/j.1748-720X.1997.tb01885.x). De fato, quando o governador do seu Estado resolveu divulgar os dados de saúde anonimizados, não demorou muito para que Sweeney enviasse ao governador pelo correio sua ficha médica anônima...

Uma técnica comum para proteger os dados contra a possibilidade de reidentificação é garantir que cada combinação de quasi-identificadores esteja presente em pelo menos k registros na base de dados. Se uma combinação específica de data de nascimento, gênero e CEP for única ou quase única, a base de dados não satisfaria um nível de k-anonimato adequado, sugerindo um risco elevado de reidentificação. Analistas de dados atualmente fazem testes deste tipo para verificar os riscos de reidentificação das bases e introduzir medidas para mitiga-los.

Algumas estratégias foram pensadas para reduzir esse risco, como generalização ou agregação, que consiste em agrupar datas de nascimento em faixas etárias ou limitar a granularidade do CEP. Supressão, por sua vez, seria remover completamente datas de nascimento ou outros quasi-identificadores quando o risco de reidentificação for alto e a informação muito sensível. Perturbação, finalmente, significa introduzir ruído ou pequenas alterações nos dados para dificultar a reidentificação.

Qualquer que seja a estratégia adotada é importante que a base de dados mantenha as mesmas características da original. Infelizmente, os gestores de bases nem sempre atentam para este ponto e introduzem vieses nos dados. Muitos pesquisadores utilizam como eu as bases criminais georeferenciadas disponibilizadas pela SSP-SP para estudar a criminalidade no Estado. Pensando na privacidade das vítimas, a SSP disponibilizou as bases de dados sem os endereços ou geolocalização, sempre que o tipo de local era classificado como “residência”, “casa”, “apartamento” etc. Esse procedimento foi adotado não apenas em casos de “violência doméstica” ou crime sexuais – dados mais sensíveis – mas até mesmo para casos corriqueiros de furto ou roubo.

O resultado foi o enviesamento da base quando se trata de refinar a análise geograficamente, uma vez que todos os eventos dentro de residências desaparecerão, restando apenas os ocorridos em locais públicos e outros. A análise pode ainda ser feita num nível mais agregado, como bairros ou distritos (generalização), mas é preciso levar em conta esse viés sistemático ao produzir mapas ou modelos estatísticos. Nesse caso específico, uma estratégia possível seria a “perturbação”, introduzindo, por exemplo, um ruido aleatório nas coordenadas geográficas, deslocando o centroide para um raio de N metros ao redor do local real do crime.

Mas é preciso ter em mente que o ruído introduzido pela perturbação proposital pode reduzir a precisão de modelos preditivos baseados em localização, usados hoje em sistemas do tipo “policiamento preditivo”. Modelos que tentam prever a ocorrência de eventos futuros com base em dados históricos podem ser menos eficazes se a localização precisa dos eventos passados estiver comprometida. Esse alerta deveria ser incorporado nos meta dados de qualquer base disponibilizada para o público. O jornal Estado de São Paulo, por exemplo, construiu excelentes ferramentas de visualização de crimes na cidade, o Radar da Criminalidade, mas iniciativas como estas ficam parcialmente comprometidas pela ausência de crimes residenciais, suprimidos em nome da privacidade. https://www.estadao.com.br/sao-paulo/radar-da-criminalidade-sao-paulo-roubos-por-ruas-bairros/

O uso de dados sintéticos é uma abordagem que vem sendo utilizada para lidar com questões de privacidade e segurança em conjuntos de dados que contêm informações sensíveis. Esta técnica permite a criação de dados que mantêm as propriedades estatísticas dos dados reais, sem expor informações identificáveis dos indivíduos. Dados sintéticos são conjuntos de dados gerados artificialmente, que reproduzem as características estatísticas dos dados originais. Eles são criados de maneira que se assemelhem aos dados reais em termos de distribuição, correlações e estrutura, mas não correspondem a registros de indivíduos reais. Dessa forma, permitem análises e treinamentos de modelos sem risco de reidentificação direta.

O problema aqui é que a qualidade dos dados sintéticos depende muito da precisão dos modelos geradores. Se os modelos não capturarem adequadamente a complexidade dos dados reais, os dados sintéticos podem não ser representativos e levar a conclusões incorretas.

Existe um trade-off entre privacidade e a necessidade de gerar informações públicas que sejam úteis e confiáveis. É preciso pensar na sensibilidade de cada tipo de informação para decidir, em cada situação específica, quando é necessário omitir ou camuflar dados e quando é possível ampliar a sua divulgação. A simples anonimização, como vimos, não é garantia de privacidade, quando existirem outras informações que permitam a reidentificação. Excluir dados relevantes da base, por outro lado, pode implicar em sérios vieses na identificação de padrões e modelos.

Somos cada vez mais uma sociedade dependente de algoritmos baseados em dados, o que tem contribuído para o avanço desde atividades do dia a dia – como escolher um filme ou música – até o desenvolvimento de diagnósticos médicos, novas medicações e sistemas de predição de crimes. O princípio básico deve ser o da transparência das informações e quando necessário, o uso de algumas das técnicas sugeridas acima, pode evitar a violação da privacidade de dados sensíveis. O problema, como sempre, é que estamos diante de dois princípios igualmente válidos, o que torna mais relevante a discussão pública sobre regras e critérios sobre o que e como deve ser divulgado.

 

Obs: este texto foi escrito com auxílio parcial de I.A.

 

keepinhouse

Arquivo do blog

Seguidores