Você acredita no que as pessoas dizem? Acha que pesquisas sobre qualquer assunto refletem a realidade, desde que a sua amostra seja estatisticamente relevante? É melhor rever os seus conceitos.
Com a advento da Internet, do google e da digitalização do mundo, passou a ser possível pesquisar os fatos da vida como eles realmente são, sob o princípio de não acreditar no que as pessoas dizem, mas no que elas fazem.
O economista e cientista de dados americano Seth Stephens-Davidowitz, colunista do New York Times, tem se debruçado em desvendar os rastros que deixamos na web, através de cliques e consultas, e correlacioná-los às situações cotidianas. Em muitos casos, ele confirmou o que intuitivamente já se esperava. Em outros, surprendeu-se. O resultado desse trabalho, através de uma linguagem descontraída e de fácil acesso, é apresentado em seu primeiro livro ‘Todo mundo mente (Everybody lies): o que o ‘big data’ e a internet tem a dizer sobre quem realmente somos’.
Se você leu e gostou de ‘Freakonomics’, esse livro certamente lhe agradará. Mais de uma década depois, a quantidade de informação disponível no mundo é infinitamente maior e as possibilidades de pesquisa são praticamente ilimitadas.
MEDICINA
O livro aborda brevemente como a Big Data pode ajudar a detectar doenças graves, como o câncer no pâncreas, cuja taxa de sobrevivência é de 3% em 5 anos, mas que pode dobrar quando identificado em estágios iniciais. Uma equipe da universidade de Columbia e da Microsoft utilizou milhares de informações de usuários do Bing (o motor de busca da Microsoft) e as correlacionaram com pacientes que foram reportados com a doença e com aqueles que estavam sãos. Quais sintomas previram com a antecipação de semanas ou meses, que os pacientes seriam diagnosticados com a doença? Buscas por dor nas costas e pele amarelada vieram a ser preditivos fortes de câncer no pâncreas, enquanto a primeira isoladamente não é. Da mesma maneira, indigestão com dor abdominal é um indício importante.
Analogamente, faz uma abordagem superficial sobre tratamento de doenças psiquiátricas. Seu objetivo não é discorrer tecnicamente sobre temas médicos, mas sim provocar o leitor a imaginar como são amplas as utilizações do manancial ilimitado de informações disponíveis hoje na medicina.
A inteligência artificial, construída sobre padrões semelhantes de comportamento em universo infinito de informações, tem a capacidade de revolucionar a maneira como se faz prevenção e tratamento a doenças nos estágios iniciais e isso pode reduzir drasticamente o custo com saúde, um dos que mais crescem no planeta.
NBA
O autor move-se rapidamente para estatísticas dos esportes, um dos temas prediletos dos americanos e traz conclusões interessantes sobre as probabilidades de alguém se tornar um astro da NBA: Negros tem 40 vezes mais chances de chegar ao panteão do basquetebol mundial do que brancos. Negros nascidos nos condados mais ricos do país tem duas vezes mais chance do que aqueles nascidos nos mais pobres. Isso sugere, contrariamente à intuição popular, que homens de origem humilde estão sub representados na NBA. Além disso, Seth descobriu que famílias estruturadas tornam-se uma grande vantagem para atingir sucesso na Liga.
CORRIDA DE CAVALOS
Não menos surpreendente é o uso estatístico de dados não estruturados para determinar se um cavalo se tornará um campeão em corridas. O processo de escolha dos animais em leilões especializados sempre careceu de maior profundidade, focado na observação do pedigree e das características físicas externas, e não raramente se convertia em um grande fiasco. Um estudioso no assunto, após anos debruçando-se sobre os mais variados tipos de dados, antes inclusive do surgimento da web, descobriu que o tamanho do ventrículo esquerdo do coração do cavalo era a variável isolada mais importante para determinar seu êxito futuro como corredor. Essa simples informação suportou a descoberta prematura de uma espécie de ‘Michael Jordan’ dos cavalos, além de vários outros ‘hits’.
Apesar de fomentada no período não digital, essa história deixa dois ensinamentos aos cientistas de dados: Se você quiser utilizar a informacão para revolucionar uma indústria, é melhor abordar aquelas onde os processos são ineficientes e há vasto espaço para melhoria. E quando estiver fazendo previsões, você não precisa se preocupar em explicá-las, mas sim com a sua acuracidade, pois está no negócio de previsões, não de explicações. Sobre esse segundo ensinamento, o autor cita um exemplo de uma loja do Walmart no sudoeste americano, que identificou que o consumo de tortas de morango multiplicava por sete às vésperas de grandes tempestades ou tornados. Para o varejista, tem pouca importância saber por que isso ocorria, crucial é reforçar os estoques nessas épocas para maximizar suas vendas.
ANÁLISE DE PALAVRAS
A análise de palavras também tem se tornado um campo fértil para os cientistas de dados, através delas é possível determinar quais possuem conotação positiva ou negativa, avaliar as diferentes tendências de uso do vocabulário para diferentes segmentos da população (mulheres, homens, jovens, adultos, idosos, etc) A dita análise de sentimentos pode ser muito útil para mensurar reações das pessoas a determinadas situações. Através da avaliação das palavras nos textos, é possível ‘graficar’ qual o sentimento que o mesmo gera no publico, à medida que a leitura avança.
Esse tipo de análise pode proporcionar respostas a perguntas do tipo: como as estruturas das estórias se modificaram ao longo do tempo? A cultura de um local influencia na maneira como elas são contadas? Que tipo de estória as pessoas gostam mais? Como elas são assimiladas para públicos diferentes (homens e mulheres, por exemplo)? E em países diferentes?
A análise de palavras pode prover ‘insights’ importantes sobre as preferências da audiência, o que pode ser muito diferente da opinião de autores e editores, e também ser aplicada à política. A avaliação de discursos e textos jornalísticos diz muito a respeito das tendências e posicionamento de seus autores, bem como diferencia as prioridades de um partido. O livro identifica as diferenças de tonalidade entre democratas e republicanos e é capaz de elencar os jornais mais vinculados à agenda de cada um.
Ainda segundo um estudo de dois especialistas no assunto, não é a mídia que influencia as massas, mas o contrário – a midia reflete o que seus leitores querem ler. Então, em uma localidade onde há maior incidência de eleitorado democrata, haverá maior profusão de publicações com esse viés e vice versa. Ressalto que estamos nos referindo a um exemplo de sociedade plenamente democrática, onde não há controle sobre a imprensa.
Imagine o quanto a inteligência artificial pode ajudar na celeridade dos processos na Justiça, cujo conteúdo técnico é constituído por bilhões de palavras agrupadas também de maneira relativamente padronizada, conforme a natureza da causa. Um terreno a ser desbravado.
AS PESSOAS MENTEM….SEMPRE
O autor afirma enfaticamente que as pessoas mentem em todas as situações: sobre a quantidade de álcool que ingerem, a frequência de ginástica, saúde, relações sexuais, etc. Para provar seu ponto, compara o resultado de várias pesquisas sobre determinada pergunta com a fonte oficial. Existe uma diferença estatisticamente relevante. Sua tese sustenta que quanto mais impessoais forem as condições, mais honestas as pessoas serão e que elas certamente admitirão mais sobre seus ‘fatos’ quando estiverem sozinhas.
Nesse trecho, o livro nos brinda com várias situações de pesquisa no Google, ambiente que nos passa a impressão de que estamos sozinhos.
Seth explora o tema das opções sexuais a partir das informações obtidas no Google e Youtube e compara a incidência de homossexuais masculinos nos estados mais e menos tolerantes dos EUA. Chega a conclusão de que representam 5% da população masculina e nos surpreende com a informação de que homens e mulheres são inseguros em relação seus próprios órgãos genitais, mas não se importam muito com com o do sexo oposto (tamanho do pênis e odor da vagina lideram a busca no Google para homens e mulheres, respectivamente).
ÓDIO, PRECONCEITO…ALGUNS INSIGHTS…
Logo após o ataque em Dezembro/2015 em São Bernardino, na Califórnia, que matou 14 pessoas, cometido por um muçulmano, a palavra mais associada ao termo muçulmano no Google foi ‘kill muslims’, ou ‘mate muçulmanos’. Enquanto as buscas com ódio (‘hate searches’) representavam 20% do total associadas à palavra ‘muçulmano’ antes do ataque, superaram os 50% depois dele.
Na ocasião, Obama foi à televisão e fez um discurso defendendo que o estado poderia ser ao mesmo tempo duro no combate ao terror e efetivo na prevenção à ‘islamofobia’. Foi aclamado pela mídia pró-democrata, mas teve efeito reverso ao que se esperava na prática. Buscas de conotação negativa em relação a refugiados sírios nessa mesma época cresceram 60% enquanto aquelas que denotavam alguma empatia caíram 35%. Mais uma vez a prova de que as conclusões midiáticas nem sempre estão alinhadas com o pensamento popular.
Algum tempo depois, a estratégia do democrata mudou e em um discurso subsequente ele utilizou exemplos de muçulmanos conhecidos e integrados em diversas áreas da sociedade americana, destacando o fato de que eles também ajudam a construí-la. Pela primeira vez, as buscas de conotação positiva em relação aos refugiados superou às marcações negativas. Criou-se, enfim, empatia com a causa.
Ao mencionar o preconceito, o ator trata do racismo implícito presente em alguma escala na sociedade americana. Buscas pela palavra ‘nigger’, pejorativa nos EUA, ou por piadas de ‘nigger’, logo após a eleição de Obama, denotam o caráter racista de uma parte dos cidadãos. O autor estima que representem até 4% do eleitorado. Segundo ele, não foi Donald Trump que criou esse segmento, ele apenas surfou essa onda como nenhum outro candidato foi capaz de fazer.
A VERDADE SOBRE O SEGREGACIONISMO DA INTERNET E REDES SOCIAIS
Existe o mito de que o advento das redes sociais exarceba o segregacionismo, estimulando as pessoas a conviver e conversar somente com aqueles cuja visão de mundo esteja alinhada às delas.
Primeiramente, é importante fazer o contraponto: em qualquer relação social, desde que o mundo é mundo, você tende a se reunir com aqueles indivíduos com os quais tem interesses comuns. A internet e as redes sociais permitiram exatamente o oposto, que as pessoas passassem a observar e interagir, mesmo que de maneira superficial, com quem pensa diferente.
O autor faz essa constatação pela quantidade de acesso aos sites de periódicos com clara tendência ideológica: liberais e conservadores frequentam o mesmo espaço, leem as mesmas notícias e chegam a trocar mensagens entre si. Uns por que estão, de fato, alinhados ao conteúdo, outros por que desejam entender o ponto de vista oposto, até para contra argumentá-lo. Nesse aspecto, o efeito das redes sociais na interatividade entre as pessoas é o oposto do que é propagado por aí. A tese é sustentada por números e não está baseada em ‘achismos’.
Por outro lado, quando avalia o Facebook como fonte de pesquisa para suas investigações, o autor se mostra reticente, pelo fato de que na mais famosa das redes sociais, as pessoas não se mostram exatamente como são, pois lá não estão sozinhas, mas expostas.
Um exemplo que não podia ser mais ilustrativo dessa realidade é a comparação entre duas publicações, com circulação física parecida: The Atlantic e o The National Inquirer. Uma respeitável revista de notícias gerais e um tablóide de fofocas, respectivamente. The Inquirer, inclusive, com mais leitores, pelo fato de suas edições serem semanais. Pois bem, a revista mais ‘crível’ tem o dobro de ‘likes’ no Facebook que a de ‘fofocas’. Os leitores dessa última certamente não querem expor o seu gosto ‘supostamente’ duvidosos em público. Por isso, nem todas as estatísticas provenientes das redes sociais, particulamente do Facebook, são utilizáveis para entender as tendências dos usuários.
‘ZOOM-IN’
Imaginem o quanto a segmentação das informações, o olhar com lupa para uma determinada pergunta ou preocupação, podem enriquecer as descobertas sobre problemas que afligem a sociedade ou a gestão pública.
O autor discorre sobre as chances de pobres se tornarem ricos em diferentes condados, estados e países, a influência da religiosidade, níveis de poluição, cobertura da seguridade na longevidade da população, enfim – uma série de assuntos para os quais se abre uma infinidade de hipóteses a ações e onde havia não mais do que suposições antes do advento da era da informação.
Algumas descobertas se opõem ao imaginário popular, como por exemplo o fato de que nos finais de semana em que são lançados filmes violentos, o índice de criminalidade cai. A explicação: a afluência de pessoas potencialmente violentas às salas de cinema e sem consumo de álcool. A violência é catalisada em ambientes ‘alcólicos’ com predominância masculina.
Quando submete as situações ao ‘zoom’ dos números, o autor conclui, acertadamente, que o mundo é complicado: “ ações que tomamos hoje podem ter efeitos distantes, não intencionais. Ideias se espalham, às vezes lentamente, outras exponencialmente, como um vírus. As pessoas respondem de maneira imprevisível aos incentivos”.
O autor dedica algumas páginas à exploração mais técnica de assuntos pertinentes ao mundo digital, redundância estatística, teste A/B em uma linguagem simples, mesmo para leigos.
O livro não tem o objetivo de ser um tratado científico sobre a nova era digital, ainda incipiente para a maior parte da população e pouco explorada pelas empresas, diante do potencial que proporciona. Ao contrário, trata-se de uma sucessão de aperitivos de vários sabores, que deixam no leitor a sensação de que realmente estamos em um mundo ainda a ser desbravado, onde verdades estabelecidas há tempos ‘ruirão’ e segredos jamais revelados pelo imaginário popular se tornarão públicos. A maneira com a qual lidamos com esse infinito de informações definirá tendências na gestão pública, empresarial, e até de relacionamentos. Quem não se adaptar a essa nova realidade, enfrentará a obsolecência.
Os americanos já eram naturalmente aficcionados por dados e estatísticas muito antes deles se tornarem massivos como hoje. Certamente largam na frente dos outros, com a profusão de cientistas de dados e especialistas nesses novos temas. Tenho receio de que essa ‘novidade’ demore a se disseminar no Brasil, um lugar onde conteúdos emocionais, menos vinculados à frieza dos números, tem mais apelo. O que aprendemos com esse livro é que mesmo a ‘emoção’ pode ser melhor mensurada e até direcionada com o auxílio das estatísticas da sociedade digital.
Aos que estão selecionando a leitura de férias, eis aqui uma ótima dica. Não estou certo se a versão traduzida para o português já está disponível, vale a pena conferir.
Relacionado
Victor Loyola
Os textos refletem minha opinião pessoal sobre qualquer assunto, não há nenhum tipo de vinculo com corporações, grupos, ou comunidades. Comentários são extremamente bem-vindos. Me esforçarei ao máximo para fazê-lo um hobby permanente. No segundo tempo de minha vida, está definido que continuarei escrevendo. Se eu parar, de repente é por que eu surtei ou houve algum apagão de criatividade. Essa versão do blog está turbinada – é para ser mais agradável e acessível ao leitor. Há até um espaço para enquetes, uma maneira bem-humorada para encarar o mundo. Boa leitura!!!!!