Radar FSTech #15, agente bom tem revisor

O avanço mais importante do dia não veio de uma demo bonita.

Veio de um padrão que está se repetindo: quando IA sai do chat e entra em trabalho real, ela vira sistema. Coordenador, subtarefas, ferramentas, revisão, rastro e humano no loop certo.

Autonomia sem revisão escala confiança falsa. Autonomia com revisão vira capacidade operacional.

SINAIS DE HOJE

1. DeepMind levou o padrão do coding agent para matemática.
O AI co-mathematician usa coordenador, agentes paralelos, busca de literatura, código e ciclos de revisão. No FrontierMath Tier 4, chegou a 48%, contra 19% do Gemini 3.1 Pro puro. O detalhe mais importante: um matemático de Oxford resolveu um problema aberto ao enxergar uma estratégia útil em uma saída rejeitada.

2. RAVEN achou mais de 100 exoplanetas em dados antigos da NASA.
O sistema da Universidade de Warwick analisou 4 anos de TESS, 2,2 milhões de estrelas, e encontrou 31 planetas nunca vistos. O ganho não veio de telescópio novo. Veio de pipeline melhor para detectar, vetar e confirmar.

3. Codex com Computer Use empurra o agente para a máquina real.
Automatizar tarefas locais parece pequeno, mas muda o risco. Quando o agente clica, renomeia, exporta ou altera arquivo, prompt deixa de ser conversa. Vira permissão, escopo e auditoria.

O padrão é o mesmo nos três casos: decompor, executar, revisar, confirmar.

A pergunta operacional não é se o modelo consegue tentar. É se o sistema sabe rejeitar, reaproveitar, validar e registrar a tentativa.

O futuro não é agente solto. É agente dentro de uma arquitetura que sabe dizer não.

FONTES

Paper do AI co-mathematician
RAVEN, University of Warwick
Guia Codex Computer Use

O QUE FAZEMOS

A FSTech constrói ontologias operacionais para empresas que querem usar IA em processos reais, com rastreabilidade e controle.

O trabalho é transformar conhecimento tribal em objetos, regras, ações e verificadores. A IA entra depois, com contrato.

Ler a definição canônica · Conversar com a FSTech

Felipe Silva

Fundador, FSTech

fstech.digital

𝕏 @fs_tech_ · LinkedIn · GitHub

Agente bom tem revisor.