IA para Pesquisa Retrospectiva: Extração de Coortes e NLP em Notas Clínicas
Como a inteligência artificial auxilia pesquisa clínica retrospectiva com extração automatizada de coortes, NLP em texto clínico e controle de viés.
# IA para Pesquisa Retrospectiva: Extração de Coortes e NLP em Notas Clínicas
A pesquisa clínica retrospectiva — aquela que analisa dados já existentes em prontuários — sempre esbarrou em um gargalo: a extração manual de dados. Revisores humanos leem prontuário por prontuário, preenchem planilhas, interpretam notas escritas às pressas. É lento, caro e sujeito a erros. A inteligência artificial, particularmente o processamento de linguagem natural (NLP), está transformando esse cenário.
O desafio dos dados clínicos para pesquisa
Dados estruturados versus não estruturados
Em um prontuário eletrônico típico, apenas uma fração dos dados está estruturada:
Na prática: O processamento de linguagem natural (NLP) extrai informação estruturada de narrativas clínicas em texto livre, mas resultados devem ser validados pelo profissional antes de alimentar sistemas de decisão.
Estruturado (facilmente extraível):
- Diagnósticos codificados (CID)
- Resultados laboratoriais numéricos
- Medicamentos prescritos
- Procedimentos realizados (TUSS)
- Dados demográficos
Não estruturado (requer interpretação):
- Evolução médica narrativa
- Anamnese e história pregressa
- Descrição cirúrgica em texto livre
- Notas de enfermagem
- Laudos radiológicos descritivos
- Anotações de interconsulta
A riqueza clínica real — o raciocínio diagnóstico, os sintomas sutis, as nuances do exame físico — está majoritariamente no texto livre.
Por que isso importa para pesquisa
Se um pesquisador quer identificar todos os pacientes com "dor torácica atípica com irradiação para mandíbula" para um estudo de apresentações atípicas de síndrome coronariana, o CID "dor torácica não especificada" é insuficiente. A informação relevante está na evolução narrativa.
NLP aplicado a notas clínicas
O que o NLP pode fazer
Extração de entidades nomeadas (NER):
Identificar automaticamente no texto: medicamentos, dosagens, diagnósticos, procedimentos, anatomia, sintomas.
Exemplo: "Paciente em uso de metformina 850mg 2x/dia, com HbA1c de 8.2%, queixa de parestesia em MMII"
→ Medicamento: metformina, Dose: 850mg, Frequência: 2x/dia, Exame: HbA1c, Valor: 8.2%, Sintoma: parestesia, Localização: MMII
Detecção de negação:
Diferenciar "paciente apresenta febre" de "paciente nega febre". Modelos de NLP precisam entender contexto de negação, que em português é particularmente variável.
Temporalidade:
Quando o evento ocorreu? "Há 3 dias iniciou com dispneia" versus "nega dispneia prévia" versus "dispneia desde a infância".
Relações entre entidades:
Qual medicamento trata qual condição? Qual sintoma é atribuído a qual diagnóstico?
Classificação de documentos:
Categorizar evoluções por tipo (admissão, interconsulta, alta, intercorrência) ou por conteúdo clínico relevante.
Modelos e abordagens
Modelos baseados em regras:
Dicionários de termos médicos combinados com padrões gramaticais. Funcionam bem para extração simples mas são frágeis com variações de linguagem.
Machine learning tradicional:
CRF (Conditional Random Fields), SVM para classificação. Requerem features engenheiradas manualmente.
Deep learning / Transformers:
BERT e variantes adaptados para texto clínico (BioBERT, ClinicalBERT). Capturam contexto de forma superior, mas exigem mais dados de treinamento.
Large Language Models (LLMs):
Modelos como GPT e Claude podem realizar extração zero-shot ou few-shot, sem treinamento específico. Promissores para tarefas diversas, mas com questões de custo, privacidade e alucinação.
Desafios do NLP em português clínico
- Abreviações — "pcte" (paciente), "HAS" (hipertensão), "DM" (diabetes mellitus), "MMII" (membros inferiores). Cada instituição tem suas variantes.
- Erros de digitação — notas escritas sob pressão têm frequência alta de erros
- Corpus limitado — modelos treinados em inglês clínico são muito mais maduros
- Jargão local — expressões que variam entre regiões e instituições
- Estrutura irregular — notas sem pontuação, frases incompletas, listas sem formatação
Extração automatizada de coortes
Definição de critérios
O pesquisador define critérios de inclusão e exclusão em linguagem formal:
- Inclusão: adultos com diagnóstico de insuficiência cardíaca (CID I50.x) no período 2020-2024
- Exclusão: menores de 18 anos, diagnóstico prévio de cardiomiopatia hipertrófica, dados incompletos
Pipeline de extração
- Filtro inicial — critérios estruturados (CID, idade, período) reduzem o universo
- Enriquecimento por NLP — texto livre é processado para identificar critérios não codificados
- Validação humana — amostra aleatória é revisada manualmente para calcular precisão
- Iteração — regras são ajustadas conforme resultados da validação
- Extração final — coorte definida com grau de confiança documentado
Fenotyping computacional
A definição algorítmica de fenótipos (phenotyping) combina múltiplas fontes:
- Diagnósticos codificados
- Medicamentos compatíveis
- Resultados laboratoriais
- Procedimentos realizados
- Menções em texto livre
Um paciente com CID de diabetes + prescrição de metformina + HbA1c > 6.5% + menção de "DM2" em nota tem alta probabilidade de realmente ter diabetes tipo 2. Cada evidência adicional aumenta a confiança.
Controle de viés
Viés de seleção
Pacientes no prontuário não representam a população geral — representam quem buscou atendimento naquela instituição. Fatores socioeconômicos, geográficos e de acesso determinam quem está nos dados.
Viés de informação
- Dados mais detalhados para pacientes mais graves (recebem mais atenção)
- Especialistas documentam mais sobre sua área de expertise
- Notas de emergência são mais sucintas que de ambulatório
- Pacientes com plano de saúde podem ter mais exames documentados
Viés temporal
- Práticas clínicas mudam ao longo do tempo
- Mudanças de sistema (migração de prontuário) podem alterar qualidade de dados
- CID-10 substituindo CID-9 cria descontinuidades
Mitigação
- Documentar limitações conhecidas em cada estudo
- Validar achados em múltiplas instituições quando possível
- Usar análises de sensibilidade
- Comparar resultados de NLP com revisão manual em amostra
Governança e ética
Privacidade
- Dados devem ser anonimizados antes do processamento por NLP
- Cuidado com reidentificação por combinação de variáveis raras
- Processamento local versus cloud (dados sensíveis não devem sair da instituição sem justificativa)
- Aprovação do CEP antes de qualquer processamento
Reprodutibilidade
- Algoritmos de NLP devem ser documentados com precisão
- Versão do modelo, parâmetros e dados de treinamento devem ser registrados
- Idealmente, código deve ser disponibilizado para replicação
Transparência sobre limitações
Publicações baseadas em NLP devem reportar:
- Taxa de erro do modelo (precision, recall, F1)
- Como erros foram tratados
- Quais dados estavam indisponíveis ou de qualidade insuficiente
- Implicações das limitações para as conclusões
Ferramentas disponíveis
Open source
- spaCy com modelos para português — NER básico
- MedSpacy — pipeline NLP para texto clínico (adaptável)
- Hugging Face — modelos pré-treinados (BERTimbau para português)
- Apache cTAKES — extração de informação clínica (foco em inglês)
Comerciais
- Plataformas de IA em saúde com módulos de NLP específicos para português
- Serviços cloud de NLP (requerem avaliação de privacidade)
Perguntas Frequentes
O que é NLP aplicado ao prontuário eletrônico?
NLP (Natural Language Processing) é a tecnologia que permite ao computador interpretar e processar texto em linguagem humana. No prontuário, extrai informações estruturadas de narrativas clínicas em texto livre: identificar medicamentos mencionados, codificar problemas e reconhecer relações temporais entre eventos.
NLP pode extrair dados de prontuários antigos em texto livre?
Sim. NLP pode processar registros históricos em texto livre para extrair informações estruturadas (diagnósticos, medicamentos, procedimentos). A acurácia depende da qualidade do texto original, abreviações e contexto. Resultados devem ser validados por amostragem antes de uso em decisão clínica ou pesquisa.
O NLP em português médico é tão preciso quanto em inglês?
O NLP em português médico tem avançado, mas ainda está atrás do inglês em disponibilidade de modelos treinados e anotações clínicas de referência. Desafios específicos incluem abreviações regionais, terminologia mista (português/latim) e menor volume de dados de treinamento disponíveis.
Conclusão
A inteligência artificial para pesquisa retrospectiva não substitui o pesquisador — ela amplia sua capacidade. O NLP transforma texto livre em dados pesquisáveis, a extração automatizada reduz meses de trabalho manual para dias, e a validação estatística garante confiabilidade. Mas a supervisão humana permanece essencial: definir perguntas de pesquisa relevantes, interpretar resultados com contexto clínico e reconhecer honestamente as limitações dos métodos. A IA é uma ferramenta poderosa quando usada com rigor metodológico.