Como se entrega resultados com Ciência de Dados?
Entenda o passo-a-passo para entregar resultados com projetos de Ciência de Dados.
O principal resultado de qualquer projeto de Ciência de Dados é gerar insights acionáveis, ou seja, prescrever o que deve ser feito baseado no conhecimento adquirido com os dados. Mas para isso ser possível temos três níveis:
1. Informação: transformar os dados em informação significa basicamente entender o que aconteceu no passado.
2. Conhecimento: entender o que está acontecendo agora e o mais importante: porquê está acontecendo.
3. Inteligência: antecipar o que vai acontecer no futuro. Neste ponto é que os dados encontram os modelos estatísticos.
Existem diversas metodologias para assistir o Cientista de Dados nestas diferentes etapas. A metodologia IMPACT é uma delas, e consiste em:
- Identificar as questões de negócio: o primeiro passo é ajudar a equipe de negócios a identificar questões que precisam ser respondidas. A partir delas fixar as expectativas do tempo e trabalho envolvidos para respondê-las.
- Dominar os dados: este é o momento onde a equipe de Analytics atua para analisar e resumir toda a informação que vai ajudar a responder as perguntas de negócio. Nesta etapa é comum criar apresentações com gráficos, tabelas e medidas que sejam fáceis de compreender.
- Criar significado/valor: preparar interpretações concisas e pertinentes ao contexto das questões de negócio.
- Gerar recomendações: baseado na interpretação dos resultados da análise dos dados, gerar recomendações para o negócio. Mesmo que as recomendações iniciais não sejam adequadas, é sempre mais fácil reagir e melhorar uma sugestão do que gerar uma nova.
- Comunicar os insights: comunicar os principais resultados e os insights de negócio que eles geraram para toda organização. Tentar olhar os resultados por múltiplos ângulos compartilhando com todas as áreas é muito importante para colher diferentes visões e aumentar o impacto das ações.
- Rastrear os resultados: Mesmo antes de colocar em prática as ações é importante planejar como os resultados das ações serão monitorados e avaliados. É importante estar pronto para responder perguntas como: O que foi feito? Qual foi o impacto e quais foram as novas questões que surgiram?
Estas etapas são ilustradas na Figura abaixo.
A metodologia IMPACT está intimamente relacionada com estratégias de projetos de dados como a CRISP-DM (*Cross-industry standard process for data mining*) popular na literatura de data mining. Essa é uma metodologia mais voltada para o desenvolvimento de produtos baseados em dados. Porém, pode ser útil também para problemas mais genéricos de tomada de decisão estratégica. Neste material vamos focar no seu uso para criação de produtos baseados em dados:
- Entendimento do negócio: esta é a etapa onde o cenário de negócios, bem como seus desafios devem ser colocados em avaliação. A equipe de projeto deve conceber um rascunho do que consiste do projeto/produto e como ele será usado. Quais são os potenciais usos do produto, se ele será parte de algum outro produto ou aplicativo, etc.
- Entendimento dos dados: quais são as bases de dados disponíveis? Qual a sua disponibilidade? Quais são os dados que cada uma delas contém? É possível ligá-las? Precisamos coletar novos dados? Se sim, terá custos? Quais dados e por quanto tempo? São perguntas usuais desta etapa. Raramente terá uma correspondência exata entre os dados disponíveis e os necessários para o produto a ser desenvolvido. Assim, entender as limitações das bases de dados e os potenciais problemas que podem causar é importante. Além de todos esses desafios, conforme a obtenção e entendimento dos dados avança pode ser que os caminhos previamente definidos para o produto precisem ser alterados e o ciclo recomeça.
- Preparação dos dados: de acordo com o tipo de aplicação os dados devem estar em formas específicas. Normalmente este formato necessário é diferente do formato que os dados são fornecidos. Assim, é necessário que os dados sejam trabalhados para que técnicas analíticas possam ser utilizadas. A forma mais comum é transformar os dados para o formato tabular. Esta em geral é uma tarefa que ocupa uma grande parte do tempo da equipe de Analytics.
- Modelagem: o resultado desta etapa é um modelo que nada mais é do que uma forma de representar a realidade de forma simplificada.
- Validação: nesta etapa o modelo construído na etapa anterior é posto a prova para verificar como se comporta além dos dados com os quais ele foi criado. Precisamos ter evidências de que os padrões encontrados nos dados são regularidades verdadeiras e não apenas padrões da amostra em mãos. A ideia é testar o modelo em um ambiente controlado que é mais barato, rápido e seguro.
- Implantação: a última fase de um projeto de dados é colocar a solução em uso. Esta etapa pode ser desde criar um software, website ou dashboard ou simplesmente gerar insights para ações de negócios. É importante que as ações sejam monitoradas a fim de avaliar sua efetividade e benefícios trazidos a empresa.