Entender como funciona o conceito de Big Data é essencial para o empreendedor moderno
Neste século, não basta que você tenha boas ideias. Nem mesmo boas teorias. Este par só é eficiente se você agregar dados. Enormes quantidades de dados. E para que sejamos eficazes no trabalho e nos estudos, já não nos basta termos um pequeno banco de informações (digamos, sua lista de clientes) e garimpar a partir dele alguma informação.
Entramos em uma era em que a vantagem competitiva para pessoas, empresas e governos consiste em possuir um enorme banco de dados, que possua quase toda a informação disponível a respeito de um assunto, bem como a inteligência (algoritmos) para retirar de tal banco o máximo de correlações, previsões e tendências relevantes.
Este é precisamente o espírito do que se convencionou chamar “Big Data”. Inicialmente enigmático, o termo se usa para nomear conjuntos de dados tão amplos que o número de inputs (ou entradas) tende à totalidade das informações disponíveis a respeito daquele tema.
Por exemplo: o Google não apenas mapeia o conjunto de páginas disponíveis na Internet para retornar resultados de buscas mais relevantes, ele grava todas as buscas realizadas por usuários e links acessados após tais buscas. Com isto, consegue não apenas informação altamente relevante para a venda de anúncios e produtos, mas também para retornar resultados de busca cada vez mais pertinentes a cada usuário.
A partir destes bancos de dados, uma empresa como o Google capitaliza sua inovação em diversas dimensões: 1. Traça um perfil daquele usuário específico (a partir dos gostos, interesses e comportamentos); 2. Torna-se mais preciso ao retornar futuros resultados para outros usuários similares (seja por localização, idioma, faixa etária, grupo de interesses, etc.); 3. Avalia a relevância de diversos links aparentemente equivalentes(isto é, que versam sobre os mesmos assuntos, com as mesmas palavras-chave) quando analisados por máquinas, mas que a partir da interação crescente com os usuários, começam a revelar padrões de interesse e relevância.
No jargão da estatística, pode-se dizer que um banco de dados tem características de Big Data sempre que “N” (i.e., valores/informações dentro daquele universo específico) tende à totalidade (N=all) das ocorrências disponíveis. Até muito recentemente, apesar de teoricamente possível, a existência do Big Data e principalmente o seu potencial de utilização eram altamente limitados. Sem capacidade de armazenamento digital em larguíssima escala e sem processamento rápido e barato de dados, era praticamente impossível a boa utilização do potencial destas databases.
Seria ao mesmo tempo fácil e tentador que, como grandes expoentes e entusiastas do tema (Kenneth é Data Editor da The Economist e Victor, professor de Governança e Regulação na Internet na Universidade de Oxford) que os autores transformassem o livro em uma louvação de 272 páginas dos benefícios dessa nova tecnologia. O olhar crítico e ponderado de ambos, no entanto, afasta este temor desde as primeiras páginas.
Listamos abaixo as 5 reflexões mais pertinentes:
1. Quantidade transborda em qualidade: é sabido que em muitas ciências os incrementos quantitativos podem levar a saltos qualitativos. É o caso de um exemplo trivial como a água fervente: após linearmente subir de temperatura, ao chegar a aproximadamente 100 graus, haverá uma mudança qualitativa. Com a informação, talvez isto seja ainda mais verdadeiro. Ficou famoso o caso dos algoritmos de tradução do Google: mesmo os melhores softwares, utilizando fontes de traduções de alta qualidade (como as notas taquigráficas do Parlamento Canadense, escritas em francês e inglês por profissionais de altíssima competência ao longo de mais de 50 anos) não superavam o desempenho de traduções feitas por algoritmos comparativamente piores que utilizavam Big Data (por exemplo, todas as páginas da internet que aparentassem ter traduções inglês-francês). Corolário: em se tratando de garimpar padrões a partir de informação, (muito) mais é melhor.
2. Dados vão superar a intuição: em um mundo com interações complexas e em grande medida inimagináveis, a figura do guru intuitivo, que baseia seu julgamento em puro “feeling” e poucos dados, tende ao ostracismo. Quem diria, por exemplo, que nas temporadas de furacão americanas, os consumidores do Walmart estariam especialmente propícios a comprar Pop-Tarts (um biscoito de cobertura açucarada recheado com chocolate)? Ninguém, mas as vendas disparavam ainda mais quando os gerentes os colocavam na entrada das lojas. Ou, por outro lado: qual gênio das políticas públicas seria capaz de cruzar informações de fontes tão diversas quanto Disque-Denúncia, alvarás negados de construção e registros de pedidos autorização para obras de reforma, a fim de encontrar os prédios com maior chance de sofrer incêndios fatais em New York? Poucos, talvez nenhum. Pois foi o que aconteceu ao se utilizar de Big Data para guiar a inspeção dos fiscais da prefeitura: passaram de 13% de identificação de casos críticos (risco iminente de fogo a qualquer momento) para 70%. Como a análise feita a partir de Big Data frequentemente identifica relações que não aparentam ter qualquer sentido lógico, elas seriam impossíveis para a mente humana, tão afeita à procura de causalidades.
3. Correlações são boas: é possível que uma das características mais tipicamente humanas seja a capacidade de perguntar-se “por quê?”. Mas por trás deste questionamento intrigante reside também uma das nossas maiores fraquezas: frequentemente procuramos explicações onde existem apenas correlações. Por que os consumidores prestes a enfrentar furacões preferem bolachas Pop-Tarts ao invés de chocolate Snikers? Não sabemos. Ninguém sabe ou saberá. Nem mesmo os próprios consumidores. E a diferença é que os computadores não se importam. Para eles, é suficiente identificar uma correlação forte, enquanto para os humanos, a identificação de uma causa parece essencial. É um erro clássico e conhecido de estatísticos e de epistemólogos a tendência humana de confundir causalidade com correlação. Este insight do Big Data talvez seja apenas mais uma forma de sermos um pouco mais humildes: para nem tudo encontraremos um porquê, e em muitas questões, se encontrarmos apenas boas correlações, já fomos longe o suficiente.
4. Abrace a bagunça: a “mania” de ordem e limpeza é outra grande ambição que o Big Data progressivamente desconstruirá. A Microsoft conseguiu elevar enormemente a precisão do software de correção do Word somente quando aumentou o banco de análise de alguns poucos milhões de palavras para mais de um bilhão entradas. Não conseguiu o mesmo resultado ao melhorar seu algoritmo ou ao incluir inputs de dicionários. E é óbvio imaginar que dentro deste um bilhão de páginas, havia um grande número de entradas desorganizadas, irregulares e até mesmo indignas de constar no banco de dados. Mas a bagunça não importa, pois dos grandes números emergem padrões muito mais fortes do que algumas ocorrências sujas ou incorretas.
5. Perigos: para além da grande capacidade de identificação de tendências e correlações, o Big Data também está se transformando em mecanismo excelente para prever comportamento (e até reforçá-lo, trazendo sempre mais do mesmo – como é o caso do algoritmo usado no Facebook). Em tempos em que ataques sistemáticos à privacidade (como a espionagem e gravação de dados pela National Security Agency, NSA, revelada por Edward Snowden) seguem galopantes e sem limitação para governos e corporações, não é difícil imaginar um retrocesso significativo, na direção de um mundo cada vez mais vigilante sobre esferas antes puramente privadas. A erosão de liberdades fundamentais dos indivíduos já é uma realidade. A mediação digital de nossa vida (via diversos aplicativos como Whatsapp, Facebook, etc) só tende a aumentar este perigo. E tais abusos podem rapidamente ser transpostos inclusive para outros domínios, como o sistema judiciário (com juízes analisando a liberdade condicional de presos a partir de Big Data e não dos casos individuais, como reza a lei) e policial (com patrulhas mais severas contra determinadas populações).