Opus 4.7 vs GLM 5.1: misturar modelos vale a pena?

Rodei o experimento Claude Opus 4.7 vs GLM 5.1 (e GLM seguindo plano do Opus) duas vezes. Na primeira, com tarefa simples, o split ‘Opus planeja, GLM executa’ tinha dado match: ~37% do custo do Opus sozinho com escopo praticamente igual. Repeti em cima de uma tarefa mais complexa no mesmo plugin (chunked translation + barra de progresso ao vivo) e a resposta mudou. As três branches entregaram código que funciona – mesmo baseline. O que difere é tudo o redor: o run com plano foi o mais lento dos três, exigiu mais que o dobro de supervisão do GLM free-form, e a DX de validar foi de assistida pra completamente manual. O split funciona em problema bem-comportado; em problema mais complexo, o plano não fecha a lacuna.