Modelo Preditivo Aumenta a Eficiência na Gestão da Saúde com Base em Dados Públicos

Por Cláudio Alves Monteiro *

Uma pergunta simples como “para onde devo expandir minha rede de atuação?” pode levar em conta diversos indicadores como os sinistros (gastos) com saúde dos moradores de uma região, a distribuição de faixa etária, infraestrutura local, dentre outros.

Com a crescente massa de dados que é produzida e armazenada diariamente a partir de exames clínicos, atendimentos hospitalares e ambulatoriais, registros de óbito e de sinistro, podemos criar variáveis agregadas que possam enriquecer o processo de tomada de decisão em empresas da área de saúde.

Essas informações podem apontar qual a melhor opção e com isso aumentar a eficiência da empresa, reduzindo custos ou direcionando para uma escolha que dará maior retorno sobre o investimento.

Na Neurotech, utilizamos mais de 800 fontes autorizadas de dados públicos e privados, tais como IBGE, Agência Nacional de Saúde, DATASUS e muito mais. Nessas bases podemos encontrar dados como a mortalidade dos brasileiros tipificada por causa, uso ambulatorial da rede e a infraestrutura hospitalar da rede pública. Entretanto, essas informações em sua maioria são armazenadas de forma “bruta”, de modo que simplesmente olhar o dado como ele se encontra não revela informações úteis.

É necessária uma engenharia robusta para processar esse grande volume de dados de modo que sejam criadas variáveis e indicadores que forneçam mais insights para o tomador de decisão. Como exemplo de criação de variáveis, podemos mensurar a qualidade de uma rede de hospitais identificando a taxa de reincidência à internação ou a disponibilidade de materiais e equipamentos de acordo com o volume de atendimentos realizados. Hoje, temos mais de 4500 informações criadas e validadas para tomada de decisão em saúde e criamos mais a cada semana.

Tais informações possuem um grande potencial analítico, podendo impulsionar a obtenção de insights sobre o comportamento da população na rede pública de saúde, que podem ser utilizados para o direcionamento de políticas públicas de saúde ou para a identificação de oportunidades por parte de empresas privadas. Um exemplo disso é o fato da distribuição das idades entre as pessoas internadas mudar bastante quando comparamos pacientes de sexos diferentes.

Ao fazer uma análise mais detalhada dos dados que coletamos, podemos observar que um dos fatores responsável por esse comportamento mais acentuado na faixa etária dos 18 aos 40 anos para as mulheres são as internações relativas ao capítulo 15 do CID-10¹, caracterizado por internações relativas a gravidez e parto.

Um passo além da criação de variáveis é o desenvolvimento de modelos preditivos que podem resumir essa massa de dados e retornar um escore de propensão ou risco de ocorrência de um determinado evento, como por exemplo identificar o risco de desenvolver uma infecção pulmonar.

O modelo pode ser treinado a partir de dados agregados, de modo que não há necessidade de armazenar informações pessoais.

Analisando os resultados dos modelos, também é possível identificar quais são os fatores que exercem maior influência sobre a classe alvo, explorando a explicabilidade do modelo. Um exemplo de aplicação de dados para dar suporte às decisões na saúde está relacionado à pergunta feita inicialmente, em que utilizamos a Neurolake (plataforma de IA e Big Data da Neurotech), para criar e processar 3.400 variáveis a partir de informações do DATASUS e desenvolver um modelo capaz de mensurar a propensão dos moradores de uma região desenvolverem um sinistro elevado em saúde nos próximos 3 meses (maior que 1200 reais). Com isso é possível uma empresa de saúde identificar uma região que possui potenciais beneficiários, mas que não tenham um alta propensão de sinistro, ou ainda precificar alguns tipos de serviço a partir do escore. Como exemplo, conseguimos identificar os moradores das capitais Curitiba, Belo Horizonte, Porto Alegre, Goiânia e São Paulo como aqueles com maior propensão de desenvolver um alto custo de sinistro em saúde. Já os moradores das cidades Macapá, Boa Vista, Rio Branco, Aracaju e Palmas possuem menor propensão de sinistro. Esses insights também podem ser utilizados pelo Governo para traçar políticas públicas mais assertivas para a população.

Com esse modelo, podemos ajudar empresas do ramo de saúde a segmentar seus beneficiários por estrato de custo previsto, de modo que combinando com modelos preditivos de condição de saúde (ou patologia) seria possível traçar um plano de ações ou intervenções para atuar junto ao paciente de maneira preventiva.

É possível estratificar possíveis novos clientes e realizar ajustes na precificação de planos coletivos, oferecendo preços mais baratos para clientes com menor propensão.

Abaixo é possível observar os resultados do modelo, que classifica as pessoas por estrato de custo previsto nos próximos 3 meses, com suas respectivas porcentagens de frequência na população (barra em roxo) e porcentagens de casos identificados com alta propensão de sinistro naquele estrato (linha em azul).

Destaca-se ainda que o estrato previsto como altíssimo custo tem mais de 3 vezes o valor médio de alta propensão de sinistro na base (21,2%). Ou seja, o modelo conseguiu identificar 4,9% da população que possui 66,0% de casos com alta propensão de sinistro, enquanto o estrato previsto como baixíssimo custo possui apenas 3,2% de casos com alta propensão de sinistro.

No gráfico abaixo, podemos visualizar a distribuição de frequência e alta propensão de sinistro por faixa etária na população total, de modo que identificamos uma maior chance de desenvolver uma condição de saúde com alto custo nas pessoas com idade mais avançada, o que é de se esperar de acordo com a literatura médica.

Contudo, essa estratificação pode ser refinada com o uso do nosso modelo, uma vez que ele é capaz de segmentar pessoas com altíssimo custo e por exemplo, identificar idosos com o dobro de propensão, ou pessoas na faixa de 19 a 28 anos com até 8 vezes a propensão dessa faixa na base geral.

Considerando que no mês de referência da análise temos cerca de 5000 casos classificados com Altíssimo Custo e que possuem uma média de gasto de 4000 reais, poderíamos tentar evitar que esses casos atingissem uma condição de alto custo de sinistro em saúde nos próximos meses, com uma precisão de 66,0%, o que poderia gerar uma economia de aproximadamente 13 milhões de reais aos cofres públicos.

A eficiência de uma aplicação dessas depende também do modo que a operação será conduzida, se é possível entrar em contato com os indivíduos com altíssimo custo e o quanto que a intervenção prévia consegue evitar a condição de alto custo no futuro.

Ainda assim é possível enxergar o potencial que esse projeto pode ter, aplicando ele a contextos públicos e privados.

*Cláudio Alves Monteiro é Cientista de Dados da Neurotech

Buscando algo?

Conheça as categorias

Cases de sucesso Cobrança Crédito Financiamento INDC Indicador de Saúde INDS Inovação Neurocast Neurotech Saúde Seguros Tecnologia

Assine nossa Newsletter

Inscreva-se para receber conteúdos sobre inteligência artificial, tecnologia e negócios:

Veja outros posts relacionados