O anexo 22 sobre inteligência artificial que está em consulta pública desde 2025 e que faz parte do EudraLex Volume 4 – Diretrizes de Boas Práticas de Fabricação (BPF), traz uma perspectiva interessante sobre como o uso de IA dever ser feitos em processos que envolvam BPF’s.
Quais tipos de IA o anexo 22 se refere?
Durante os primeiros parágrafos já conseguimos entender que há muitas restrições sendo consideradas neste primeiro rascunho do anexo 22, e que talvez ao ser oficializado possa ter grandes alterações. As IA’s generativas ou de LLM (Large language models) não estão incluídas e foram desaconselhadas a serem utilizadas em processos críticos, assim como as IA’s com modelos dinâmicos.
Estão de fato incluídas Inteligência artificiais Estática, onde o modelo não aprende durante seu uso e determinísticas, onde ao inserir uma informação o retorno disso, é exatamente o que foi colocado sem alteração.
Critérios de Aceitação e Testes de Modelos em Ambientes GMP
O uso de modelos computacionais e inteligência artificial em ambientes regulados exige mais do que tecnologia avançada. É fundamental garantir que o modelo seja confiável, rastreável e adequado ao uso pretendido, conforme os princípios de Boas Práticas de Fabricação (GMP).
- Definição de Métricas e Critérios de Aceitação
Antes do início dos testes, é obrigatório definir como o desempenho do modelo será medido.
- Essas métricas devem ser:
- Adequadas ao uso pretendido;
- Claras e objetivas;
- Capazes de demonstrar a confiabilidade do modelo.
Para modelos de classificação (ex.: aceitar ou rejeitar produtos), podem ser utilizadas:
- Matriz de confusão;
- Sensibilidade;
- Especificidade;
- Acurácia;
- Precisão;
- F1 Score.
Os critérios de aceitação devem:
- Ser definidos por um especialista no processo (SME);
- Estar documentados e aprovados previamente;
- Considerar possíveis subgrupos do processo, quando aplicável.
Um ponto crítico:
O desempenho do modelo nunca pode ser inferior ao processo que ele substitui ou auxilia.
- Qualidade e Representatividade dos Dados de Teste
Os dados de teste precisam refletir a realidade do processo.
- Isso significa que devem:
- Representar todo o escopo do uso pretendido;
- Incluir variações comuns e raras
- Considerar limitações e complexidades do processo.
Além disso:
- O volume de dados deve ser suficiente para garantir confiança estatística;
- A rotulagem dos dados deve ser altamente confiável, preferencialmente validada por especialistas independentes;
- Qualquer pré-processamento (normalização, transformação, padronização) deve ser previamente definido e justificado.
A geração artificial de dados ou rótulos por IA não é recomendada, salvo justificativa técnica robusta.
- Independência dos Dados e da Equipe
A independência dos dados de teste é um requisito essencial.
Para isso, deve ser garantido que:
- Dados de teste não sejam usados no treinamento ou validação;
- O acesso aos dados seja controlado;
- Exista trilha de auditoria para acessos e alterações;
- Não existam cópias fora do repositório oficial.
Quanto à equipe:
- Pessoas que tiveram acesso aos dados de teste não devem participar do treinamento do modelo;
- Quando isso não for possível, deve ser aplicado o princípio dos quatro olhos, com revisão por profissional independente.
- Execução dos Testes e Controle de Desvios
Os testes devem comprovar que o modelo:
- É adequado ao uso pretendido;
- Generaliza bem para novos dados;
- Não apresenta overfitting ou underfitting.
Para isso, é obrigatório um plano de testes, contendo:
- Descrição do uso pretendido;
- Métricas e critérios de aceitação;
- Identificação dos dados de teste;
- Roteiro de execução;
- Método de cálculo das métricas.
Qualquer desvio, falha ou omissão deve ser documentado, Investigado e Justificado.
- Explicabilidade e Nível de Confiança
Em aplicações críticas GMP, o modelo deve ser explicável. Boas práticas incluem:
- Registro das variáveis que influenciaram cada decisão;
- Uso de técnicas como SHAP, LIME ou mapas de calor;
- Revisão dessas informações como parte da aprovação dos testes.
Além disso:
- O sistema deve registrar o nível de confiança de cada predição;
- Devem existir limiares mínimos de aceitação;
- Resultados com baixa confiança deve ser tratados como “indeterminados”.
- Operação, Monitoramento e Revisão Humana
Após a implementação, o modelo deve estar sob:
- Controle de mudanças;
- Controle de configuração;
- Monitoramento contínuo de desempenho.
É essencial acompanhar:
- Deterioração do desempenho;
- Alterações no ambiente (ex.: iluminação, equipamentos);
- Desvios nos dados de entrada (data drift).
Quando o modelo atua como apoio à decisão humana (human-in-the-loop), especialmente com esforço reduzido de testes:
- As decisões devem ser registradas;
- Pode ser necessária a revisão sistemática de todas as saídas;
- O operador deve ser treinado e monitorado como qualquer processo manual crítico.
A validação de modelos em ambientes GMP vai muito além da tecnologia, ela envolve governança, dados confiáveis, controle humano, explicabilidade e monitoramento contínuo, garantindo conformidade regulatória, segurança do paciente e integridade dos processos.
Para apoiar empresas na implementação segura e conforme de modelos, sistemas computadorizados e soluções com IA em ambientes GMP, a Kivalita Consulting oferece consultoria especializada em validação, gestão de riscos e conformidade regulatória.
Para profissionais que desejam aprofundar esse conhecimento na prática, o Treinamento VSC 5.0 oferece uma abordagem atualizada e aplicada à validação de sistemas e softwares, alinhada à RDC 658/22, IN 134/22, IN 138/22, Guia 33 da ANVISA, além de contemplar novas publicações, o Anexo 22 e os desafios da validação de softwares com IA preparando equipes para auditorias e operações reguladas com segurança.
Saiba mais em: https://conteudo.kivalita.com.br/treinamento-vsc-5-0-46