Newsletter #5, O agente não precisa ser mais inteligente. Precisa ser mais governado.

Três notícias da semana mostram a mesma coisa por ângulos diferentes. A Anthropic separou planejamento de execução. O Karpathy mostrou que regras claras valem mais que prompt longo. E a Andon Labs colocou uma IA pra gerir uma loja em SF, sem governança, e ela contratou pintor em Cabul.

Não é sobre modelo. É sobre estrutura.

Anthropic lança Ultraplan, planeje no browser, execute onde quiser

Você escreve a tarefa no terminal. O Claude monta o plano em uma sessão cloud que você revisa no navegador, com comentários inline. Depois decide se executa lá mesmo ou volta pro local. Resolve o problema de planos longos que ficam impraticáveis de revisar no terminal.

→ Ângulo OO: Separar planejamento de execução é o coração do Pin/Spec Protocol que a FSTech usa há meses. Pin = regras imutáveis (o que você não muda no meio do trabalho). Spec = plano vivo (o que você revisa, comenta, ajusta). A Anthropic acabou de transformar isso em produto. Confirmação de que governança documental não é over-engineering, é pré-requisito de escala.

Karpathy mostra que CLAUDE.md com regras reduz erros de IA mais que prompt grande

Repo passou de 20 mil estrelas em uma semana. A ideia é simples: 4 regras que forçam o modelo a declarar suposições, manter código mínimo, não editar fora do escopo e validar com critério de sucesso explícito. Sem essas regras, o LLM inventa, sobre-engenheira e quebra coisas que não foram pedidas.

→ Ângulo OO: A FSTech publicou a mesma tese semana passada, com mais profundidade. CLAUDE.md é uma versão mínima do Pin. Quando o agente carrega regras documentais, não precisa adivinhar. O erro do LLM raramente é do modelo. É falta de constrangimento explícito. Anti-hype em formato de arquivo.

Andon Labs solta IA com USD 100 mil em loja real de SF. Luna abre boutique, contrata e erra

Luna roda em Claude Sonnet 4.6 e Gemini 3.1, com lease de 3 anos e cartão de crédito. Criou o conceito da loja, postou vagas, entrevistou pelo Zoom. Também selecionou Afeganistão como local do pintor no TaskRabbit por engano e quebrou a escala da equipe na semana de inauguração.

→ Ângulo OO: Os erros da Luna não são limitação de modelo. São ausência de envelope operacional. Sem Pin que defina escopo de ação ("valide país antes de contratar"), sem Spec que registre decisões revisáveis, sem write-back que aprenda do erro. Andon Labs deu autonomia. Não deu governança. Por isso a Luna fecha a manchete contratando da Califórnia um pintor de Cabul.

Do nosso blog

Rodamos o Framework num modelo de 2B →

Prova empírica de que a estrutura importa mais que o tamanho do modelo. Publicado ontem.

Curadoria diária, o filtro da FSTech sobre o que importa em IA.

Felipe Silva

Fundador, FSTech

fstech.digital