segunda-feira, 10 de fevereiro de 2014

Quer saber a tendência de roubo de veículos? Pergunte ao Google !

A análise do chamado “big data” é uma tendência crescente no setor privado. A ideia básica é buscar correlações ocultas entre fenômenos usando bases de dados gigantescas de informações coletadas junto aos consumidores e usuários, complementando-as ou não com informações de outras fontes. O Big Data não pretende fazer ciência ou discutir causalidade (embora os profissionais se denominem data scientists), pois o mercado não tem tempo nem vocação para isso. Correlação, como sempre se diz, não é causação; significa apenas que dois fenômenos variam juntos no tempo (ou no espaço), mesmo que a ligação entre eles seja espúria. Conhecendo a correlação você pode fazer boas previsões e talvez obter algum insight sobre porque algumas variáveis se comportam de maneira parecida. Neste campo ninguém está muito preocupado em saber porque a previsão funciona: basta que funcione, abordagem aliás compartilhada por muitos epidemiologistas, com sucesso na área da saúde. Big Data não serve somente pra aumentar as vendas e pode ser usado para outras finalidades mais nobres: um exemplo interessante e bastante citado é o da previsão de epidemia de gripe feita pela Google, com base nas buscas dos usuários usando palavras chave ligadas a sintomas e tratamento da doença. Evidências comparando as previsões do google flu com os dados epidemiológicos oficiais da saúde mostraram que o sistema produz previsões acuradas, mais rápidas e baratas sobre surtos de gripe nos Estados Unidos. E como anda a discussão sobre big data no campo da segurança pública? Os departamentos de polícia lidam com bases de dados gigantescas com informações sobre eventos criminais, vítimas e suspeitos, veículos e armas, entre outras. Apenas algumas unidades de análise contam com recursos mais sofisticados para ficar buscando correlações estatísticas; na prática, na maioria das unidades o máximo que se faz é usar as informações passadas para mapear hot spots criminais no espaço e no tempo, ou seja, ruas e horários de maior incidência criminal. Fazer perfis de vítimas e autores são outro uso comum mas a cultura do big data é ainda incipiente. Inspirado em Big Data, há um aperfeiçoamento das técnicas para estimar hot spots, que são as análises preditivas, com novos softwares e algoritmos, como o Predpol que, tal como no filme Minority Repport, promete refinar as sugestões de locais e horários para operações policiais. Seu uso vem se disseminando nos departamentos de polícia e é algo para se monitorar de perto. Há pouco tempo, o Google disponibilizou um recurso chamado google correlate, que, como o nome sugere, permite correlacionar dados inseridos pelo usuários com buscas feitas pelos usuários do google na internet, para um dado período e país. A lógica subjacente é a do big data: buscar correlações elevadas, sem preocupações causais, para prever eventos ou obter insights para melhor compreendê-los. Como um experimento, inserimos no google correlate a série histórica de roubo de veículos no Estado de São Paulo entre janeiro de 2004 e junho de 2013. Inserida a série, o sistema busca automaticamente as palavras e expressões dos usuários que mais se “parecem” com ela, usando coeficientes de correlação de Pearson. O analista pode também escolher períodos específicos e defasar ou adiantar a série por quantos períodos desejar, uma vez que nem sempre a correlação temporal entre fenômenos é simultânea. O experimento, apesar das limitações ( por exemplo, temos apenas as buscas para Brasil e não especificamente para São Paulo; o sistema mostra a correlação mas não a quantidade de casos usada para obtê-la, etc) trouxe alguns resultados bastante interessantes: o sistema não tem como saber sobre o que trata a série de dados inserida (no caso, roubo de veículos) mas mesmo assim encontrou correlações com vários fenômenos relacionados a veículos. Além disso, as palavras chave que apareceram estão associadas ao problema do desmanche de veículos, uma das motivações principais para roubo de veículos em São Paulo. Assim, por exemplo, as variações mensais nos roubos de carros entre 2004 e 2013 coincidem com as consultas dos usuários, no mesmo mês, para as expressões “peça” (R=0,79) e “nacional wolksvagen” (r=0.73). A correlação com a busca “nacional wolksvagen” cresce para 0.78, se defasarmos a série em um mês (t-1), ou seja: o volume de roubo de veículos num determinado mês está associado a buscas no google usando esta expressão, no mês anterior. Igualmente interessante é que quando defasamos a série para outros períodos encontramos correlações elevadas em t-2 com a expressão “multa Detran” (r-0.76) e em t-3 com a procura no google por “auto som” (r=0.79). Obviamente que não se pode tirar grandes conclusões desses achados mas não deixa de ser interessante notar que, sem saber do que se tratavam os números, que poderiam ser sobre produção de rosquinhas, o google correlate sugere que a variação mensal do roubo de veículos em São Paulo está altamente correlacionada a buscas de usuários brasileiros usando as palavras chave peças, nacional wolksvagen, multa Detran e auto som no mesmo mês ou nos meses anteriores. Parece sugerir que o roubo de veículo está relacionado a demandas no mercado ilegal de peças e equipamentos automotivos e talvez a fraudes (falsos registros de roubos em veículos com multas elevadas). Conhecer a causa por traz dos fenômenos é sempre importante. Diz se que no período da Peste Negra na Europa acreditava-se que os ratos transmitissem a doença, quando na verdade era a pulga presente nos ratos. Esta correlação espúria peste-ratos provavelmente causou a morte de milhares de pessoas pois ao eliminar os ratos, as pulgas mais facilmente proliferavam entre os seres humanos... Os adeptos do big data não lidam com temas tão cruciais quanto a peste negra e seu maior interesse é aumentar as vendas. Não importa se a correlação é espúria ou não mas que a correlação exista e seja forte. Se o seu interesse não é combater o roubo de veículos mas calcular valor de seguro ou estimar riscos e tendências, não é preciso esperar pelas estatísticas oficiais de criminalidade. Vá ao Google Trends munido de algumas palavras chave que se correlacionam ao fenômeno de interesse e terás uma excelente previsão das tendências associadas a ele. O estudo das causas precisa de técnicas e análises mais sofisticadas e ai não há substituto para o bom e velho método científico mas, como vimos, big data e correlações podem dar boas pistas pra começar!

Nenhum comentário:

Postar um comentário

Arquivo do blog

Follow by Email

Seguidores