INTELIGÊNCIA ARTIFICIAL

Inteligência Artificial melhora ou piora pesquisas científicas

Será que a inteligência artificial está piorando a qualidade das pesquisas científicas? A pergunta é provocadora, não é? Ela me veio à cabeça quando li uma matéria na BBC News intitulada “AAAS: Machine learning ‘causing science crisis” ou “Machine Learning causando crise na ciência”, em tradução livre.

O artigo começa dizendo que as técnicas de aprendizado de máquina usadas por milhares de cientistas de dados estão produzindo resultados enganosos e, muitas vezes, completamente errados. A Dra. Genevera Allen, da Rice University, em Houston (EUA), disse que o aumento do uso de Machine Learning está contribuindo para uma “crise na ciência”.

Dra. Allen alerta que, se os cientistas não aprimorarem suas técnicas e metodologias, vão perder tempo e dinheiro. A pesquisa dela foi apresentada na Associação Americana para o Avanço da Ciência, em Washington (EUA). Como vocês podem ver, o texto realmente é muito chamativo e fui me aprofundar nos motivos pelos quais a Dra. Allen tem essa conclusão.

A crise de “reprodutividade”

Allen afirmou que há uma crise de “reprodutividade”. Segunda ela, as respostas de pesquisas que usam IA como ferramenta provavelmente são imprecisas ou erradas porque o software está identificando padrões que existem apenas nesse conjunto de dados; e não no mundo real.

Ela continuou afirmando que “geralmente, esses estudos não são considerados imprecisos até que exista outro grande conjunto de dados em que alguém aplique essas técnicas e diga: ‘Oh, meu Deus, os resultados desses dois estudos são diferentes’”.

A pesquisadora complementa com dados alarmantes: “‘A crise da reprodutibilidade’ na ciência refere-se ao alarmante número de resultados de pesquisa que não se repetem quando outro grupo de cientistas tenta o mesmo experimento. Isso significa que os resultados iniciais estavam errados”. E continua:

“Uma análise sugeriu que até 85% de toda
a pesquisa biomédica realizada no
mundo é um esforço desperdiçado”.

A real fonte dos erros

Realmente, apesar de não ser da área médica, tenho convicção que o mesmo ocorre em vários mercados. Há muitos artigos confiáveis e com credibilidade em relação aos seus dados, porém não é incomum que artigos sejam publicados com conclusões equivocadas porque os dados estão errados ou incompletos.

Na minha visão, historicamente, a comunidade científica já comete equívocos nos artigos com estatística tradicional mesmo. Tenho certeza que vão continuar fazendo com Machine Learning. À medida que a tecnologia vai ficando mais popular, ainda mais trabalhos passam a ser questionados.

Por isso, aqui na Neurotech, a gente acompanha de perto as competições de Machine Learning: é sempre a mesma base de dados (auditada) com uma série de pessoas tentando fazer o melhor algoritmo na mesma base.

Claro que isso não evita os erros, mas minimiza,
sim, a reprodutividade. Isso acontece porque as bases
de dados são independentes e controladas.

Cientistas, topam um desafio?

Diante de todo esse debate, tenho uma proposta produtiva para todos os envolvidos: pesquisadores de qualquer área e cientistas de dados. Proponho que artigos científicos passem a utilizar bases de dados auditadas que haja a necessidade da reprodução do experimento para publicação.

E aí? O que acham? Dra. Allen expôs uma verdade incômoda ou foi alarmista? A matéria foi equilibrada ou sensacionalista? E vocês, pesquisadores, o que pensam sobre isso? Vamos conversar!

Rodrigo Cunha – Sócio da Neurotech, empresa pioneira na aplicação prática de inteligência artificial no mercado varejista brasileiro.