Ideias

2026-04 · 7 min

Onde agentes de IA falham em contextos regulados

Cartórios e clínicas médicas têm uma coisa em comum: o custo de errar é catastrófico. O que isso muda no design de um agente.

Quase todo discurso sobre agentes de IA hoje gira em torno de autonomia. Quanto mais o agente decide sozinho, melhor. Quanto menos humano no loop, mais escalável. Quanto menos perguntas, mais fluido. Isso vende bem em demo, mas cai no chão de fábrica em qualquer setor onde errar custa mais que pedir desculpas.

Construí dois produtos de IA seguidos pra contextos regulados: cartório e clínica médica. As duas coisas mais diferentes do mundo, com a mesma característica fundamental. Errar tem consequência real. E os dois me ensinaram a mesma coisa sobre design de agente.

O agente bom em domínio regulado não é o mais autônomo. É o que sabe quando parar.

A diferença entre erro barato e erro caro

Em produto de consumo, errar é quase gratuito. ChatGPT alucina, você ri, recarrega, segue a vida. O custo do erro é zero, então você pode otimizar pra autonomia, pra fluidez, pra "magia". Quanto mais o agente faz sozinho, melhor a experiência.

Em domínio regulado, errar custa dinheiro real, processo real, reputação real. Um número errado num documento de cartório pode invalidar uma escritura. Um diagnóstico errado de uma agente que atende paciente de clínica é responsabilidade civil e criminal. Uma resposta errada sobre convênio pode fazer paciente perder consulta agendada há meses.

Quando o custo do erro sobe, o cálculo muda. Autonomia para de ser feature e vira risco. E o trabalho de design vira o oposto do que vende em conferência: você não está tentando fazer o agente fazer mais, está tentando garantir que ele faça só o que tem certeza, e pare em todo o resto.

Três princípios que apliquei nos dois produtos

Depois de dois anos construindo agentes em legal-tech e healthcare, são três princípios que apareceram nos dois produtos sem eu planejar.

1. Toda saída tem que ser revisável humanamente

Não importa quão alta seja a confiança do modelo. Não importa quantos teste de regressão passou. Toda saída do agente tem que poder ser revisada por uma pessoa antes de virar ato. Em cartório isso é exigência da LGPD. Em clínica médica é proteção pra todo mundo, paciente e médico. Mas mesmo onde a lei não obriga, é boa engenharia. Um agente que assume autonomia total em domínio regulado é um agente que vai falhar e não vai ter ninguém entre o erro e a consequência.

Na prática, isso significa interface com revisão lado a lado. Documento original visível ao lado do que a IA extraiu. Conversa visível ao lado da ação que o agente vai tomar. Nada acontece sem um humano poder dizer "não, espera".

2. Escalonamento humano não é fraqueza, é feature central

No primeiro draft de qualquer agente, a tentação é fazer ele responder tudo. Qualquer pergunta, qualquer cenário, qualquer paciente, qualquer documento. Isso é errado em contexto regulado.

A agente médica que construí pra Estro tem regra rígida: zero diagnóstico, zero conselho clínico, zero opinião sobre tratamento. Qualquer mensagem que sinaliza emergência médica é escalonada imediatamente pra equipe humana. Qualquer pergunta fora do escopo dela (agendamento, confirmação, qualificação básica) é passada adiante. Isso não diminui o agente. É justamente o que faz dela utilizável num ambiente onde errar tem consequência real.

A pergunta certa não é "o que o agente sabe responder?". É "o que o agente sabe que não deve responder?".

3. O usuário precisa ver a confiança do modelo

Em produto de consumo, mostrar incerteza assusta. Em domínio regulado, esconder incerteza é negligência. Toda extração ou classificação que nossa plataforma de cartório faz vem com confidence score visível. Se um campo extraído tem 60% de confiança, isso aparece destacado na tela, e o usuário sabe que precisa olhar com mais atenção.

Em clínica, o equivalente é o agente passar o bastão pra equipe humana com um resumo do que ela conversou com o paciente, em vez de pretender ter resolvido sozinha. Transparência sobre o que o agente sabe e não sabe é o que faz o usuário confiar nele com o resto.

O paradoxo do agente "limitado"

Tem um paradoxo aqui que demora pra cair a ficha.

Um agente que sabe parar parece, à primeira vista, menos impressionante. Em demo ele faz menos coisa. Em pitch ele soa menos disruptivo. Comparado lado a lado com um ChatGPT genérico, ele responde menos perguntas.

Mas é exatamente esse agente que é deployado em setor regulado. É exatamente esse em que cliente confia. É exatamente esse que sobrevive ao primeiro mês de uso real, em vez de virar mais uma demo de Twitter que ninguém usa de verdade.

A magia de um agente bom em domínio regulado é escolher precisão em vez de autonomia. Ele acerta o que se compromete a fazer, e sabe redirecionar todo o resto. Isso é mais difícil de construir do que "agente que faz tudo". E é o que faz um produto chegar em produção.

O que isso significa pra quem está construindo agora

Se você está construindo agente de IA pra setor regulado, três perguntas pra fazer no design:

  1. Qual é a ação reversível mais arriscada que o agente pode tomar sozinho? Tudo acima desse ponto precisa de aprovação humana.
  2. Em que cenários o agente deveria silenciar e passar o bastão? Mapeie isso explicitamente. Não confie que o modelo vai descobrir sozinho.
  3. Como o usuário vê a confiança da saída? Se a resposta for "não vê", você está colocando o usuário no escuro num lugar onde ele paga pelo escuro.

Nada disso é sobre limitar IA. É sobre construir agente que serve gente em situação onde gente não pode errar.


A próxima onda de produtos de IA não vai ser sobre fazer agente mais autônomo. Vai ser sobre fazer agente mais útil em setores onde "fazer mais" é justamente o que mata o produto. Quem entender isso primeiro vai construir as coisas que importam.

Sou Sabrina Lima Bettanin. Cofundo duas empresas de IA, uma em legal-tech e uma em healthcare. Se você quer conversar sobre construir agente pra setor onde errar custa caro, me chama.