Destaques do kdd 2019 para cientistas e engenheiros de dados

Como é bom sair do dia a dia e poder interagir com mentes brilhantes de todo mundo e que pensam tão diferente. Passei uma semana de muito aprendizado no Alaska, no Knowledge Discovery and Data Mining - KDD 2019, uma ótima forma de ver o que está acontecendo em ciências de dados porque o evento mistura academia e mercado em uma dose ideal e não superficial. Mesmo as seções aplicadas sempre traziam um “β” “∑”, “α”. É ótimo voltar às origens, ver cientistas ávidos por transformar a sociedade através do conhecimento aprofundado. Voltei cheios de takeaways!

Por isso começo hoje uma série de quatro artigos sobre coisas que aprendi lá, insights e reflexões: primeiro, vou dar um overview no evento e, durante a semana, vou falar do crescimento exponencial de aplicações com Deep Learning; aplicações na área de saúde; e de preocupações e reflexões sobre o futuro.

Para falar do porte do evento, podemos começar pelos principais patrocinadores:

Isso já diz um pouco o que foi o KDD 2019. Uma tradição de sólido conhecimento acadêmico com as gigantes de tech investindo muito! Foram quase 3.200 participantes (dos quais apenas 832 mulheres), de 51 países e mais de 1 milhão de dólares arrecadados somente em patrocínio (fora as inscrições, que não foram baratas).

Na minha contagem superficial, as empresas mais presentes foram por ordem: LinkedIn, Microsoft, Google, Apple e Didi. Só para falar das mais famosas. Além disso, muitos pesquisadores de universidades de vários países.

Tive a oportunidade de conversar com gente do mundo todo: Israel, Estados Unidos, Canadá, Alemanha, China, Noruega… Dá uma sensação muito legal de que o mundo é logo ali, mas quando vemos somente Neurotech, Itaú e a CGU (Controladoria-Geral da União) no Alaska bate aquela sensação que ainda não acordamos! Precisamos ter mais brasileiros no evento (vou falar mais sobre isso depois).

Por outro lado, chamou a atenção a quantidade de asiáticos. Pelas minhas contas, eram mais da metade da conferência. Aí você pode achar que isso deve-se ao fato do evento ter sido no Alaska, mas não. No ano passado, em Londres, foi a mesma coisa. Saber que a China vai dominar o mundo em IA é uma coisa, ver na prática que isso já é realidade é outra. Mais uma evidência: todos os ganhadores do KDD Cup foram chineses, usando normalmente combinação de modelos com Deep Learning e XGBoost como os grandes destaques.

Principais destaques do KDD 2019

Claro que, em um evento desse tamanho, você não consegue participar de tudo. Tentei fazer uma trilha mais aplicada alinhada com o que estamos fazendo no Neurolake. Ou seja, participei bastante das trilhas aplicadas em que as empresas são convidadas para falar o que estão fazendo. O que achei interessante é que os convidados pelas empresas têm sempre um vínculo de professor com a universidade e histórico de grandes publicações em evento nível “A”, dentre eles, o próprio KDD. Muito bom ver um “∑”, “β”, “α” mesmo nas palestras aplicadas kkkkkkk Como é bom ver a aplicação da teoria matemática!

Abaixo, os temas que mais chamaram atenção na trilha da indústria — vou falar mais de cada um deles ao longo da semana:

1 - O crescimento exponencial de aplicações com Deep Learning.

Deep Learning tem dominado cada vez mais as aplicações práticas. Quando se fala de vídeo, imagem, texto, nenhuma novidade. Mas vi muita coisa de grafos e classificação com Deep Learning. Em especial, apareceram muitas aplicações de Transfer Learning e a tentativa de expandir o uso de Deep Learning com outras representações de entradas.

2 - AutoML

Destaque também para AutoML (treinamento automático de Machine Learning). Só para vocês terem uma ideia, foi uma sala com worshop só falando sobre o tema. O que chamou a atenção é que foi a sala mais cheia por dois dias, com várias empresas, como Baidu, liderando o conteúdo.

3 - Health

Em termos de vertical de aplicação, Health foi campeã! Mereceu trilhas específicas. A crença de que há uma oportunidade muito grande de ajudar a saúde da humanidade através da análise de dados. Não poderia deixar de destacar as aplicações de redes sociais já que estiveram presentes e já têm atuação na área: LinkedIn, Facebook e Pinterest. Em especial, houve um keynote do vice-presidente da Microsoft Healthcare, Peter Lee, falando somente sobre Health.

4 - Preocupações

Por outro lado, ao mesmo em que cresce o número de aplicações de Deep Learning e a automatização de Machine Learning, apareceram as preocupações com segurança e interpretabilidade dos modelos.

Ferramentas de código aberto

Uma tendência que pude confirmar no evento foi o destaque que todas as grandes empresas estão desenvolvendo ferramentas para ciência de dados e as deixando disponível: Google, Facebook, Microsoft, Alibaba, Apple, AWS etc. E na sua grande maioria deixando as ferramentas em código aberto. A conclusão simples é que o grande diferencial dessas grandes empresas são os seus dados proprietários e não a tecnologia em si. Quanto mais difundida estiver a tecnologia, mais a comunidade irá crescer e as empresas e usuários se beneficiarão. Abaixo, mais algumas novidades:

Baidu anunciou no evento que irá lançar até um final do ano uma ferramenta de AutoML de código aberto.
Databricks mostrou sua nova versão da plataforma gratuita MLFlow.
Apple apresentou suas duas plataformas para usar Machine Learning na criação dos APPs.
TensorFlow se posicionando com um grande agregador de modelos.
SageMaker virou marketplace de modelos em que modelos de terceiros podem concorrer com os próprios modelos da AWS. Ou seja, os desenvolvedores do algoritmo ganham dinheiro em parceria com a AWS.

Podemos chegar à conclusão que tecnologia
temos de sobra. O que precisamos é de
conhecimento disseminado e dados para fazer
acontecer. Por isso, estamos aqui a todo o valor
com o Neurolake.

Uma coisa que achei bem legal foi que o Facebook apresentou uma funcionalidade de ciência de dados para agregar insights, em tempo real, em momentos de crise e desastres como furações e tornados. O objetivo é ajudar pessoas em zonas de risco e momentos críticos. Bem interessante como a solução entende o comportamento das pessoas nesses momentos e termina fazer uma previsão das melhores áreas para evolução, primeiros socorros, etc. Para maiores detalhes o paper está disponível aqui.

Bônus: tutorial para mapeamento de comportamento do usuário em redes sociais

Teve um tutorial bem interessante sobre mapeamento do comportamento do usuário em redes sociais, principalmente quando se fala de rede social aberta como o Twitter. Um dado que me chamou atenção é que 4 em 10 pessoas no Facebook não interagem, apenas consomem conteúdo e, no Twitter, essa estatística é de 44%. Isso traz um desafio ainda maior para as marcas ofertarem produtos assertivos para os usuários.

O tutorial utilizou Deep Learning para mapeamento dos perfis. O material completo você pode conferir aqui.

Claro que, junto com esses trabalhos vêm as preocupações sobre privacidade, o que também foi muito discutido no evento com painéis e mesas redondas. O caminho sempre vai ser empoderar as pessoas para que elas tenham ciência dos seus dados, saibam o que está armazenado e para que as empresas estão usando as informações. E, claro, também tem que haver o poder de decidir ser esquecida e optar por não autorizar esses dados.

A conclusão do painel é que tem muita tecnologia disponível para ajudar usuários a receberem melhores ofertas. As grandes empresas agora precisam combinar esse processo com as pessoas 🙂

Por ora é só, pessoal! Quem tiver interesse em saber mais sobre os destaques do KDD 2019 pode continuar acompanhando que tem muito mais! E, claro, deixem seus comentários para que a gente possa conversar por aqui.