A Ciência de Dados é um campo que já existe há algum tempo, porém ganhou mais destaque nos últimos anos devido a popularização da Big Data, o amadurecimento de áreas como o Machine Learning (aprendizado de máquina) e a evolução da capacidade de processamento computacional.
A Data Science é capaz de transformar uma quantidade (grande ou pequena) de dados brutos em insights de negócios, sempre com o objetivo de auxiliar as empresas na tomada de decisões estratégicas e alcançar melhores resultados. Ela faz isso por meio de métodos estatísticos e algoritmos que tentam encontrar padrões nos dados para descrevê-los ou fazer predições do que acontecerá no futuro através de modelos preditivos.
O que são modelos preditivos?
A resposta é simples: é uma função matemática que, aplicada a uma massa de dados, consegue identificar regras ocultas e prever o que poderá ocorrer.
Um bom exemplo de problema de negócio que utiliza Ciência de Dados é a análise de crédito utilizada pelos bancos e financeiras ao conceder empréstimos. Eles entendem os dados históricos dos clientes que solicitaram crédito, e através de modelos preditivos, conseguem identificar padrões comportamentais para prever quem serão os bons pagadores ou inadimplentes no futuro.
Existem dois tipos de modelos preditivos, os supervisionados e os não supervisionados. No supervisionado, em que daremos foco neste post, os dados necessários para fazer o modelo aprender e a variável “Alvo” (aquilo que se deseja prever) são estudados em conjunto nos dados.
Ou seja, a base para treinamento é rotulada com o que já aconteceu no passado, informando alguns exemplos de casos daquilo que se deseja prever. Isso serve para que o modelo aprenda e encontre correlações entre as variáveis (atributos de cada cliente) com o “Alvo”. Geralmente em problemas de negócios, utilizamos os modelos preditivos supervisionados e com bases de centenas de milhares ou milhões de registros.
Veja um exemplo hipotético de layout de base utilizada para treinamento de um modelo de concessão de crédito:
Abaixo, é possível visualizar um exemplo de fluxo simplificado de como um modelo preditivo é criado para o problema de inadimplência em bancos e financeiras utilizando esse layout. O objetivo neste exemplo, é fazer o modelo prever se clientes desconhecidos serão bons pagadores ou inadimplentes no futuro.
Observe que, a partir dos dados históricos de cada cliente, aplicamos algoritmos de machine learning para achar correlações entre os seus atributos e a variável “Alvo” e tentar encontrar padrões que fazem um cliente ser um bom ou mau pagador.
O resultado do processo é um modelo treinado capaz de identificar novos clientes que não estavam nos dados iniciais e classificá-los se são bons pagadores ou inadimplentes atráves de um “Score” (pontuação). No exemplo acima, esse Score representa que o novo cliente desconhecido, em uma escala de 0 a 100, alcançou a pontuação 92 de ser um bom pagador. Ou seja, a “chance” de ele pagar o empréstimo é muito grande.
Dessa forma, ao colocar um modelo preditivo em produção, é possível ajudar os bancos e financeiras a decidirem de forma mais precisa se vale a pena conceder empréstimo para um determinado cliente ou se ele representa um grande risco de não pagar a dívida.
Agora que sabemos o que é um modelo preditivo,
qual o processo utilizado para resolver problemas de negócios?
O processo de mineração de dados
Na Neurotech, utilizamos um dos principais frameworks para resolução de problemas de negócios com dados, o CRISP-DM (Cross-industry Process for Data Mining). É uma metodologia amplamente usada em Ciência de Dados para ajudar empresas na tomada de decisões estratégicas pela sua facilidade e aplicabilidade.
Ele é dividido em 6 etapas. Observe que criar um modelo é apenas uma das fases desse processo:
- Entendimento do problema de negócio: esta fase inicial concentra-se na compreensão dos objetivos e requisitos do projeto a partir de uma perspectiva empresarial. Que decisões precisam ser tomadas? Qual o problema que deve ser resolvido? Que informações necessito para embasar minhas decisões?
- Entendimento dos Dados: é a fase de compreensão dos dados necessários e identificação do problema relacionados as bases de dados. Quais dados estão disponíveis? Os dados que possuo explicam o problema em questão? Como esses dados se comportam?
- Preparação dos dados: a fase de preparação de dados refere-se a todas as atividades para construção do conjunto de dados final. Eles serão utilizados na(s) ferramenta(s) de modelagem para treinar o modelo. Geralmente, a preparação dos dados seguem alguns desses passos: Coleta, limpeza, formatação, mistura e amostragem.
- Modelagem: várias técnicas de modelagem são selecionadas e aplicadas de forma que os parâmetros sejam calibrados e o modelo seja criado. É comum retornar a fase de preparação dos dados caso alguma mudança na base seja necessária. Qual algoritmo será utilizado para resolver o problema? Quais variáveis podem ser mais relevantes?
- Validação: aqui você já construiu um modelo que parece ter alta qualidade, a partir dos dados históricos coletados. Antes de prosseguir para a implantação final do modelo, é importante avaliar se ele se adequa aos objetivos do negócio. O resultado do modelo foi satisfatório? Ele consegue discriminar bem o que você está tentando prever? Ele responde as perguntas de negócio? Caso não, repita os passos anteriores quantas vezes forem necessárias.
- Implantação: o modelo já está treinado e agora deve ser posto a prova no dia a dia da empresa com o dados reais e desconhecidos. Ou seja, agora é que saberemos se o modelo foi bem treinado e consegue distinguir uma população na prática. O modelo ajuda o time de negócios a tomar as melhores decisões? Ele está acertando conforme esperado?
O melhor modelo que existe é aquele que está em produção. Não existe um modelo que acerte 100% dos casos, se isto estiver acontecendo, algum erro pode estar pertubando os seus dados e causando overfitting (sobreajuste). Por outro lado, um modelo que acerta bem mas não é colocado em produção com clientes reais, não possui valor de negócio.
Ou seja, para que um modelo preditivo realmente ajude na tomada de decisões nas empresas, é preciso colocá-lo à prova e geralmente fazemos isso através de uma Análise de Impacto Financeiro, mas isso é tema para um outro post.
E você, como utiliza a Data Science nos seus negócios?