Por que as equipes de ciência de dados precisam de generalistas

Dia desses, li um artigo bem legal da Harvard Business School que começa citando o livro The Wealth of Nations, deAdam Smith. Para ele, a especialização orientada para a função, em que cada trabalhador se torna altamente qualificado em uma tarefa limitada, leva à maior eficiência dos processos. Muitas indústrias chegaram ao sucesso assim ― e talvez até hoje ainda cheguem.

Foi justamente aí que o artigo despertou em mim a seguinte pergunta: como isso pode ser exemplo para nossa realidade em inteligência artificial? Gostei tanto que, neste texto, faço um resumo do artigo a partir de um paralelo com a nossa realidade na Neurotech.

Essa divisão de trabalho por função especializada é tão antiga e tão comum entre nós que até hoje organizamos as equipes desta forma. Em Ciência de Dados, isso não é uma exceção (escrevi um pouco sobre isso aqui). Um projeto ou produto de Machine Learning de ponta a ponta requer muitas funções e, por isso, as empresas geralmente criam equipes de especialistas: cientistas de dados, engenheiros de dados, engenheiros de Machine Learning e assim por diante. O trabalho dos especialistas é coordenado por um gerente de produto, semelhante a uma linha de produção.

Na minha opinião, apesar dessa semelhança, não devemos orientar as nossas equipes de Ciência de Dados somente para ganhos de produtividade. Muitos projetos de Machine Learning não têm a definição exata do que teremos ao final. Muitas vezes não sabemos qual será o resultado no fim do processo, afinal de contas, estamos minerando os dados para extrair informações e decisões relevantes, o que pode revelar coisas que mudarão o rumo do trabalho.

Uma dinâmica totalmente diferente do que acontece em fábricas de carro, por exemplo, onde você sabe exatamente o que está produzindo. Neste caso, sim, o objetivo é a execução com máxima eficiência. Sabemos exatamente o que queremos.

A pergunta que fica é: você sabe identificar
seus times estão virando uma linha
de produção industrial?

Os sintomas começam a aparecer quando as equipes de Ciência de Dados começam a ter atualizações de status como "aguardando alterações no pipeline de dados" e "aguardando recursos de Machine Learning" e esse “aguardando...” demora um bom tempo.

Como sair do modo “apertador de parafusos”

A solução para minimizar este problema é, claro, mudar o mindset do time de eficiência operacional para aprendizado contínuo. Para incentivar o aprendizado e a iteração, os papéis da Ciência de Dados precisam se tornar mais gerais, com responsabilidades amplas e agnósticas (grosso modo, que aceitam a impossibilidade de se saber de tudo) para a função técnica. Na Neurotech, isso é aplicado quando buscamos organizar os cientistas de dados de modo que eles sejam “otimizados para aprender”. Isso significa formar “cientistas de dados completos” — generalistas — que podem executar diversas funções: da concepção à modelagem, à implementação e à medição.

Por exemplo, há um lema nos squads de dados da Neurotech que é “Peça desculpas por ter feito algo a mais do que deveria ser feito em vez de pedir permissão para fazer determinada tarefa”. Ou seja, autonomia total, voz (sempre devemos estar abertos a escutar) e foco no propósito específico do squad para não se perder no meio do caminho. Incentivamos as multifunções dentro do squad. É claro que, quanto mais júnior for o profissional, mais difícil será desempenhar mais de um papel, mas a expectativa é que os mais experientes tenham esse skill multifunção.

Com menos gente nos squads e times mais
completos, o overhead de gerenciamento cai
drasticamente e amadurece as pessoas que
estão no squad de uma forma extraordinária.

Por isso, sempre colocamos cientistas de dados e engenheiros de dados para falarem com os nossos clientes. Quanto mais envolvidos com o todo, mais “completos” eles serão.

Essa autonomia e diversidade de habilidades concedidas aos cientistas de dados depende muito do suporte de uma plataforma de dados sólida para se trabalhar. No nosso caso, temos o NeuroLake, uma plataforma de dados com Machine Learning como serviço com todas as tecnologias de última geração. O resultado é que temos atraído muitos cientistas de dados com vontade de aprender Python, Spark, AWS, Hive, Presto e Scala. Uma plataforma de dados bem construída e com potencial de escalar e potencial de experimentação contínua, que atrai cientistas de dados ávidos por aprendizagem e crescimento.

Além da abstração, uma plataforma de dados pode fornecer ganhos contínuos em uma infraestrutura de experimentação, automatizar o monitoramento e o alerta, fornecer escalonamento automático e permitir a visualização da saída de depuração e dos resultados dos algoritmos.

Ou seja, não basta querer cientistas de dados generalistas, é necessário criar um ambiente para isso com propósito, pessoas, ferramentas e processos.

Fonte: Rodrigo Cunha | Head of NeuroLake at Neurotech