Ciência de dados: como formar squads de alta performance

Squad é um termo em inglês que ficou conhecido por causa do Spotify. Hoje, basicamente, um squad é um time enxuto, com geralmente 4 a 8 pessoas que têm autonomia e velocidade para entregar valor. Perceberam que não é qualquer equipe, né? Pois bem, imagine o que é formar um squad de Ciência de Dados há 16 anos... Independente de termos, na Neurotech, já formamos centenas de squads na área. A ideia deste artigo é compartilhar um pouco do que aprendemos para responder à pergunta: quais são os perfis necessários em um squad de ciência de dados de sucesso?

Nossa experiência com squads começou em 2002, quando Ciência de Dados nem era chamada assim: era “mineração de dados” ou KDD (Knowledge Discovery Database). Durante esse período, foi possível, testar, errar (muito), acertar e se transformar. Um dos aprendizados foi não focar em muitos cientistas da academia — muita gente pensa logo em fazer exatamente isso quando quer formar o time de Ciência de Dados ideal. Será que um squad de 6 Geoff Hinton (grande pesquisador do Google e grande responsável pelo desenvolvimento de Deep Learning) seria o ideal? A resposta é não.

Ciência de Dados é uma área multidisciplinar
e demanda uma série de perfis diferentes
e complementares para um squad de alto desempenho.

Para Bruno Henriques, VP de Inteligência Artificial da Movile, uma das mais bem-sucedidas startups brasileiras, a IA parece distante, mas não é. “Já utilizamos a tecnologia em nosso dia a dia e nem nos damos conta. Ela está presente no uso de aplicativos, reconhecimento de imagens, carros autônomos, assistentes virtuais, entre muitos outros exemplos. É uma nova e poderosa forma de processar dados e devemos aprender a usá-la cada vez mais, pois isso nos ajudará a tomar decisões mais ágeis, precisas e inteligentes”, explica Henriques. O grande desafio da Movile é montar um time com mais de 100 especialistas em aprendizagem automática, para trabalhar nos principais desafios que as organizações enfrentam hoje.

Mas, antes de falar sobre quais segmentos aumentam o valor um squad, vamos fazer alguns alinhamentos. Eu gosto primeiro de dar a visão geral. Qualquer projeto de ciência de dados precisa desses três pilares:

* Pilar de Ciência de Dados: é o time técnico composto normalmente por engenheiros de software, engenheiros de dados, analista de Machine Learning e estatísticos. Além, é claro, analista de segurança da informação. Esse time irá conduzir o delivery (entrega) do produto/solução.

* Pilar de UX (experiência do usuário): é um time com o objetivo de entender e descobrir as necessidades do usuário, entender como ele se comporta e qual a relação das pessoas com os dados. Durante muitos anos, deixamos essa função de lado nos projetos da Neurotech, o que foi um grande erro. A diversidade de perfis dentro do squad faz com que a entrega de valor seja ainda maior. Esse time se envolve ao longo do projeto, mas atua principalmente na fase de discovery (descoberta) e no “empacotamento” final da entrega.

* Pilar de Produto (visão do negócio): são pessoas com a visão do todo, seja do produto ou do serviço a ser entregue. Esse time, de preferência, entende bastante da área em que estamos aplicando o projeto de dados, ou seja, visão de negócio. Por exemplo, se estivermos um projeto na área de seguro saúde, é importante ter alguém da área de saúde (médico, por exemplo) que tenha o skill analítico. Não é fácil, mas eles existem kkkkkk. Esse time tem atuação ao longo de todo o projeto, mas com muita intensidade na fase de discovery.

Agora vamos fazer um detalhamento do time técnico de Ciência de Dados. Já falamos um pouco sobre as necessidades técnicas no artigo: O que é realmente preciso para ser um cientista de dados? Abaixo, uma lista com os principais perfis do time técnico que compõem o squad.

* Engenheiro de dados: esse é o perfil mais básico. Se você irá lidar com um grande volume de dados, é necessário ter alguém no squad com a habilidade de coletar, organizar e transformar os dados. Cada vez mais esse profissional precisa conhecer as ferramentas, principalmente computação em nuvem, processamento distribuído e computação de alta performance.

* Analista de dados: normalmente, é um perfil que tem a habilidade para trabalhar com os dados, fazendo a análise exploratória. A função dessa pessoa é dar velocidade à descoberta, ou seja, encontrar insights o mais rápido possível. Ela gera conhecimento a partir dos dados na fase de discovery e ajuda em como usar a solução de dados. É muito usado na fase de homologação dos dados. Normalmente, o pessoal de estatística e de Business Intelligence tem esse skill.

* Estatístico ou Analista de Machine Learning: é o perfil que precisa saber configurar os parâmetros do algoritmo, tarefa bem complexa hoje em dia pela variedade dos algoritmos disponíveis. Esse profissional deve estar preparado para falhar, porque ele precisará testar muitos parâmetros até ter um bom modelo. Ter respeito pelo rigor estatístico e experimental é fundamental para não se construir um modelo que não irá funcionar na prática.

* Cientista de dados: nele não somente sabe usar, mas entende o algoritmo e tem a capacidade de modificá-lo, se necessário. Tem a capacidade de programar, otimizar os algoritmos e, ao mesmo tempo, sabe analisar dados e tem conhecimentos estatísticos. Normalmente, não há cientista de dados júnior, é um analista de Machine Learning ou estatístico que cresceu em termos de conhecimento e experiência. Muitas pessoas falam que são cientistas de dados, mas, na verdade, são analistas de Machine Learning.

* Gerente de Ciência de Dados ou Líder de Ciência de Dados: é uma posição mais experiente de alguém que já foi técnico e hoje consegue liderar os times. Normalmente, é um cientista de dados, analista de Machine Learning ou estatístico com habilidade de liderança.

* Engenheiro de software: alguém que constrói os softwares necessários para entregar valor, seja em backend ou frontend. Normalmente, o trabalho desse profissional está na disponibilização dos modelos via API ou na construção de uma interface intuitivo para o cliente utilizar o modelo construído.Como estruturamos os Squads aqui na Neurotech baseado no problema de negócio que tentamos resolver. Por exemplo, em crédito temos um squad de concessão de crédito, que tem como propósito auxiliar os nossos clientes no processo de decisão de crédito e atribuição de limite.

Já o squad de manutenção de crédito tem como propósito auxiliar os clientes na rentabilização da carteira. Esses times estão dentro de uma mesma tribo, chamada Tribo de Crédito. O bacana é que times diferentes, com autonomia para resolver problemas de negócio, terminam adquirindo conhecimento para compartilhar uns com os outros. A figura abaixo mostra bem como isso funciona.

O chapter é um grupo horizontal (portanto orientado por função/afinidade) que congrega profissionais com responsabilidades e skills parecidos como, por exemplo, o chapter de engenheiros de dados que temos na Neurotech para compartilhar conhecimento na automatização do processo de dados para ganhar velocidade, qualidade e segurança.

Já as Guilds, ou guildas, são perfis diferentes de squads e tribos, e que se unem para trocar experiências, aprendizados, e melhores práticas sobre temas de interesse comum. Na Neurotech temos uma Guilda de Cadastro Positivo para os entendermos mais como podemos potencializar nossos produtos com a nova lei.

Após ler tudo isso, você deve estar achando que é complexo e difícil formar um squad em Ciência de Dados. Primeiro, respire fundo, porque tudo depende da complexidade e das suas necessidades. Posso dizer que já tivemos projetos de sucesso com apenas 3 pessoas e projetos que falharam com 9 pessoas, mesmo tendo cada um dos perfis. O importante é ter em mente que os perfis ideais listados aqui são os ideais, são os “ingredientes”; o “modo de preparo” também é fundamental para essa receita ser um sucesso. E pra isso, assim como para qualquer outra coisa, só testando, aprendendo e melhorando.

Você usa squads? Como usa? Conte sua experiência também!

RODRIGO CUNHA - Sócio da Neurotech, empresa pioneira na aplicação prática de inteligência artificial no mercado varejista brasileiro.

Fonte: Ciência de Dados