Tempo de leitura: 9 minutos
Estudo de caso

Qual a importância de um pipeline em um projeto de dados?

Escrito por: William Wayn, cientista de dados da SciCrop
Qual a importância de um pipeline em um projeto de dados

A SciCrop, startup que participou, em 2016, da primeira turma de residência do Google for Startups, tem como objetivo promover a transformação digital no agronegócio. A empresa se utiliza de big data e algoritmos para buscar soluções customizadas e tornar o setor mais eficiente.

Com um grande volume de coleta e processamento de dados em tempo real, a startup precisa de um time de cientistas de dados com as melhores habilidades. William Wayn é um desses profissionais e, neste artigo, conta sobre o chamado pipeline, um processo que aprendeu durante o curso de Data Science e Machine Learning da Tera – startup da terceira turma do Programa de Residência.

O conhecimento adquirido no curso o ajudou a tornar suas análises mais práticas e confiáveis, e ele compartilha alguns insights sobre o tema abaixo.

********

Apesar de trabalhar como cientista de dados, tenho pouco tempo de experiência profissional na área. A SciCrop possui produtos que envolvem distintas áreas, que vão desde segmentação de imagens de satélite até a manutenção preventiva de máquinas industriais. Um dos grandes problemas que eu enfrentava era entender todo o processo que envolve um projeto. Por isso, entrei no curso da Tera para sanar algumas dúvidas.

O cientista de dados nasceu para solucionar problemas e trazer insights, ou seja, temos uma grande quantidade de dados e precisamos responder alguma pergunta por meio deles. Para isso, precisamos investigar e entender suas distribuições, fazer as devidas modelagens do problema, indicar soluções e, por fim, implementar o sistema criado. Como esse assunto é bem vasto, decidi focar em um tópico que realmente me instigou durante o curso e mudou minha forma de ver projetos: o chamado pipeline.

*Pipeline*, do inglês, significa

Começar a pensar nesse novo modelo de organização e manipulação de informações facilitou muito o meu trabalho no dia a dia. Para ajudar a visualizar como o pipeline funciona, vou trazer um conjunto de dados fictício. A tabela abaixo apresenta um esquema que tem como objetivo prever o preço de uma casa.

Tabela - Conjunto original

Com esses dados, podemos criar um sistema no qual um usuário coloca as informações de sua própria casa para que o modelo avalie o preço dela. Mas para isso, precisamos primeiro fazer uma série de pequenos ajustes. O mais básico seria transformar os dados categóricos em dummies, ou seja, variáveis binárias, para termos alguma coisa mais parecida com essa segunda tabela:

Tabela - Dados categóricos transformados em dummies

Com as variáveis binárias, podemos começar a brincar de fazer modelos, mas elas são apenas uma das diversas transformações que podemos fazer nesses dados. É aqui que começamos a entender a vantagem de se usar o pipeline.

Para criar o modelo em que o usuário insere as informações da própria casa, teríamos que ter guardado cada passo que fizemos nos dados do conjunto original para que os novos dados de entrada informados pelo usuário sofressem as mesmas transformações. Isso pode ocasionar uma bagunça com muitas linhas de código, o que se torna um verdadeiro pesadelo no momento em que vamos fazer a implantação do modelo, ou seja, colocá-lo no ar.

Mas quando usamos o pipeline, ele consegue guardar todo esse processo de transformação dos dados, assim como o modelo de avaliação em um único lugar, com apenas uma linha de código. Parece mágico.

Apesar da curva de aprendizagem para realizar trabalhos por meio de pipeline não ser fácil (não vou mentir, sofri muito para aprender), ter participado do curso da Tera foi muito agregador. Em uma opinião sincera, eu vi o curso como um local capaz de capacitar um cientista de dados de maneira relativamente rápida.


Agora que tenho domínio de como esse processo funciona, vejo que o pipeline facilitou muito o meu trabalho do dia-a-dia, por proporcionar maior controle, agilidade nos testes, robustez e confiança nas aplicações

Saiba mais sobre a Tera.

Saiba mais sobre a SciCrop.