Os dados se tornaram fundamentais para a forma como administramos nossos negócios hoje. Na verdade, a empresa de inteligência de mercado global International Data Corporation (IDC) projeta gastos em dados e análises para chegar a US $ 274,3 bilhões até 2022. No entanto, muito desse dinheiro não está sendo gasto com sabedoria: até 85% dos projetos de big data falham.
Uma grande parte do problema é que os números que aparecem na tela do computador assumem um ar especial de autoridade. Raramente perguntamos de onde vieram os dados, como foram coletados, armazenados, tratados e ainda, se são adequados para o propósito pretendido.
A verdade é que, para obter respostas úteis a partir dos dados, não podemos simplesmente aceitar a primeira análise que recebemos. Precisamos aprender a fazer perguntas ponderadas. Em particular, precisamos saber como foi obtido, quais modelos foram usados para analisá-lo e o que foi deixado de fora. Acima de tudo, precisamos ir além do uso de dados simplesmente para otimizar operações e aproveitá-los para imaginar novas possibilidades.
Podemos começar perguntando:
Como os dados foram obtidos?
Dados, como já foi dito, é o plural de anedotas. Os eventos do mundo real, como transações, diagnósticos e outras informações relevantes, são registrados e armazenados em enormes farms de servidores. No entanto, poucos se preocupam em perguntar de onde vêm os dados e, infelizmente, a qualidade e o cuidado com que os dados são coletados podem variar amplamente. Na verdade, um estudo do Gartner descobriu recentemente que as empresas perdem em média US$ 15 milhões por ano devido à baixa qualidade dos dados.
Frequentemente, os dados estão sujeitos a erro humano, como quando vendedores mal pagos e desmotivados realizam verificações de estoque. Porém, mesmo quando o processo de coleta de dados é automatizado, existem fontes significativas de erros, como interrupções intermitentes de energia em torres de celulares ou erros no processo de compensação de transações financeiras.
Dados de baixa qualidade ou usados no contexto errado podem ser piores do que nenhum dado. Na verdade, um estudo descobriu que 65% dos dados de inventário de um varejista eram imprecisos. Outra preocupação, que se tornou cada vez mais importante desde que a União Europeia aprovou os rígidos padrões de dados do GDPR, é se houve consentimento adequado quando os dados foram coletados.
Portanto, não apenas presuma que os dados que você possui são precisos e de boa qualidade. Você tem que perguntar de onde veio e como foi mantido. Cada vez mais, precisamos auditar nossas transações de dados com tanto cuidado quanto fazemos com nossas transações financeiras.
Como foi analisado?
Mesmo se os dados forem precisos e bem mantidos, a qualidade dos modelos analíticos pode variar amplamente. Frequentemente, os modelos são reunidos a partir de plataformas de código aberto, como o GitHub, e reaproveitados para uma tarefa específica. Em pouco tempo, todos esquecem de onde veio ou como está sendo avaliado um determinado conjunto de dados.
Lapsos como esses são mais comuns do que você imagina e podem causar sérios danos. Considere o caso de dois economistas proeminentes que publicaram um documento de trabalho alertando que a dívida dos EUA estava se aproximando de um nível crítico. Seu trabalho causou uma tempestade política, mas, como se viu, eles cometeram um erro simples no Excel que os levou a superestimar o efeito que a dívida teve sobre o PIB.
À medida que os modelos se tornam mais sofisticados e incorporam mais fontes, também vemos cada vez mais problemas com a forma como os modelos são treinados. Um dos erros mais comuns é o overfitting, o que basicamente significa que quanto mais variáveis você usar para criar um modelo, mais difícil será torná-lo geralmente válido. Em alguns casos, o excesso de dados pode resultar em vazamento de dados, no qual os dados de treinamento são misturados aos dados de teste.
Esses tipos de erros podem afetar até mesmo as empresas mais sofisticadas. Amazon e Google, apenas para citar dois dos casos mais proeminentes, recentemente tiveram escândalos altamente divulgados relacionados ao viés de modelos. Assim como fazemos com os dados, precisamos constantemente fazer perguntas difíceis aos nossos modelos. Eles são adequados para a finalidade para a qual os estamos usando? Eles estão levando os fatores certos em consideração? A saída realmente reflete o que está acontecendo no mundo real?
O que os dados não nos dizem?
Os modelos de dados, assim como os humanos, tendem a basear seus julgamentos nas informações mais disponíveis. Às vezes, os dados que você não possui podem afetar sua tomada de decisão tanto quanto os dados que você possui. Normalmente associamos esse tipo de viés de disponibilidade com decisões humanas, mas muitas vezes os designers humanos o transmitem para sistemas automatizados.
Por exemplo, no setor financeiro, aqueles que têm um extenso histórico de crédito podem acessar o crédito com muito mais facilidade do que aqueles que não têm. Os últimos, geralmente chamados de clientes de “pasta fina”, podem ter dificuldade para comprar um carro, alugar um apartamento ou obter um cartão de crédito.
No entanto, um cliente de pasta fina não indica necessariamente um risco de crédito. As empresas muitas vezes acabam rejeitando clientes potencialmente lucrativos simplesmente porque não possuem dados sobre eles. A Experian recentemente começou a resolver esse problema com seu programa Boost, que permite aos consumidores aumentar sua pontuação dando-lhes crédito para coisas como pagamentos regulares de telecomunicações e serviços públicos. Até o momento, milhões se inscreveram.
Portanto, é importante fazer perguntas difíceis sobre o que pode estar faltando no seu modelo de dados. Se você está gerenciando o que mede, precisa garantir que o que está medindo reflita o mundo real, não apenas os dados que são mais fáceis de coletar.
Como podemos usar os dados para redesenhar produtos e modelos de negócios?
Na última década, aprendemos como os dados podem nos ajudar a administrar nossos negócios com mais eficiência. Usar dados de maneira inteligente nos permite automatizar processos, prever quando nossas máquinas precisam de manutenção e atender melhor nossos clientes. São os dados que permitem que a Amazon ofereça remessa no mesmo dia.
Os dados também podem se tornar uma parte importante do próprio produto. Para dar um exemplo famoso, a Netflix há muito usa a análise de dados inteligentes para criar uma programação melhor com menos dinheiro. Isso deu à empresa uma vantagem importante sobre rivais como Disney e WarnerMedia.
No entanto, as coisas ficam realmente empolgantes quando você pode usar os dados para repensar completamente o seu negócio. Na Desbrava, por exemplo, usamos a nossa própria ferramenta de Social Analytics, que ofertamos no mercado, para analisar dados e construir estratégias de marketing e do nosso próprio produto.
Já foi dito que os dados são o novo petróleo, mas são muito mais valiosos do que isso. Precisamos começar a tratar os dados como mais do que uma classe de ativos passivos. Se usado com sabedoria, pode oferecer uma verdadeira vantagem competitiva e levar o negócio a rumos completamente novos. Para conseguir isso, no entanto, você não pode começar apenas a procurar respostas. Você tem que aprender a fazer novas perguntas.