Harness: o que é, como funciona e por que virou a palavra de 2026

Fabrício Carraro
Fabrício Carraro

Compartilhe

Avalie este artigo

11 minutos de leitura

Se você já usou o ChatGPT para programar e depois testou o Codex, Cursor, Claude Code, GitHub Copilot ou Gemini CLI, provavelmente notou uma diferença estranha.

O ChatGPT te entrega o código em formato de texto. O Codex abre o arquivo, edita, salva, roda o teste, vê que falhou e edita de novo, sozinho. O modelo em uso no Chat e no Codex pode ser exatamente o mesmo (GPT-5.5, por exemplo). Mas por que a diferença?

A resposta tem nome: harness. É o que está em volta do modelo de inteligência artificial e faz tudo o que o modelo sozinho não consegue. Essa virou a palavra de 2026 no mundo dev, assim como "agentes" foi a palavra de 2025. 

Qual é a diferença entre um modelo e um agente?

Antes de falar de harness, vale separar duas coisas que costumam ficar misturadas. Um modelo de linguagem (LLM), como o GPT-5.5 ou o Claude Opus 4.7, é basicamente uma função. 

Você manda texto, ele faz cálculos e devolve texto. Ponto. Não roda comando, não abre arquivo, não tem memória do que conversou ontem, não acessa a internet sozinho. 

Se você pedir algo como "liste os arquivos da minha pasta Documentos", o modelo te dá uma resposta plausível baseada no treinamento, mas não lista a sua pasta de verdade.

Um agente é diferente. Costumamos dizer que ele é composto por pelo menos três coisas: o cérebro (o LLM que pensa e planeja), as mãos (ferramentas que dão acesso à internet, ao computador, a APIs) e a memória (de curto prazo na sessão atual ou longo prazo entre sessões).

Quando você pede para o Codex "arruma esse bug aí", por exemplo, ele abre a pasta, lê seu código, identifica o erro, edita o arquivo, salva, roda o teste, refaz se precisar. Várias ações encadeadas, sem você clicar em nada. Isso acontece por causa do harness em volta.

A palavra "harness" em inglês significa arreios ou rédeas. É ela que controla o cérebro (o LLM) como se fosse um cavalo poderoso mas indisciplinado e faz com que ele resolva o problema que você quer.

Em outras palavras: o harness é a mistura entre mãos e memória do agente. E o conjunto cérebro + harness é o que chamamos de agente de IA.

Visão em ângulo superior por cima do ombro de uma pessoa com cabelos escuros, focando em suas mãos digitando no teclado de um notebook preto sobre uma mesa com estampa geométrica cinza e branca. A tela do notebook está ligada e exibe a interface escura do ChatGPT, mostrando as três colunas padrão de informações organizadas.

Enquanto modelos puros apenas geram texto, agentes integrados a um harness abrem arquivos, rodam comandos e validam códigos de ponta a ponta.

Banner promocional da Alura destacando até 35% de desconto em cursos de tecnologia. A mensagem reforça que a diferença entre potencial e resultado está no preparo, incentivando profissionais a se anteciparem às mudanças do mercado e investirem no desenvolvimento de novas habilidades. A imagem mostra uma pessoa usando fones de ouvido e há um botão com a chamada "Aproveitar agora" para começar a evoluir na carreira tech.

O que um harness precisa fazer (e por que isso importa)

Cada vez que você pede algo ao Codex ou ao Claude Code, o harness executa, mais ou menos, sete etapas:

  1. Montar o contexto: juntar sua mensagem com instruções de sistema, histórico relevante e empacotar para a API entender. Aqui já mora muita decisão (quanto do histórico mandar, em que ordem, o que cortar quando o contexto fica grande).
  2. Receber a resposta em streaming: o modelo não solta tudo de uma vez, vai mandando palavra por palavra. O harness, então, identifica se é texto para o usuário ou pedido para executar a ferramenta.
  3. Identificar pedidos de ação: frequentemente a resposta do modelo é um pedido do tipo "rode esse comando" ou "leia esse arquivo". O harness reconhece e parseia os argumentos.
  4. Executar a ação com segurança: rodar comandos arbitrários é perigoso, então passa por sandbox e, quando necessário, por aprovação do usuário.
  5. Devolver o resultado ao modelo: a saída do comando ou o conteúdo do arquivo vira input para o próximo round de raciocínio.
  6. Repetir o ciclo: cada ação pode disparar novas rodadas. O harness mantém o loop rodando sem entrar em loop infinito.
  7. Persistir tudo: a sessão fica salva para você fechar o terminal hoje e continuar amanhã.

Cada passo parece simples, mas não é. E o pulo do gato é justamente o fato de o que faz um agente ser bom não é só o modelo, é o harness em volta.

Um modelo excelente com harness ruim entrega menos do que um modelo médio com harness excelente. É por isso que Anthropic e OpenAI estão investindo pesado nessa camada.

Como o agente pensa e age alternadamente?

Uma sessão típica do Codex funciona assim:

  • Você digita "adiciona no arquivo X uma função que retorna a lista dos últimos 10 pedidos". 
  • O Codex junta isso com instruções de sistema e contexto do projeto e manda para o modelo.
  • O modelo não responde com código pronto. Responde algo como "primeiro preciso ler o arquivo routes.ts para entender a estrutura". Essa resposta é o que se chama tool call: o modelo está pedindo para o harness executar uma ferramenta. 
  • O harness lê o arquivo, devolve o conteúdo, e o modelo continua: "agora preciso ver o schema dos pedidos". 
  • Outra tool call, outra execução. Eventualmente, o modelo aplica um diff, salva o arquivo, roda os testes. Se falham, o resultado volta para o modelo, que ajusta. Se passam, ele diz "pronto" e o loop termina.

Cada ida e volta dessas é uma chamada à API do modelo, com tudo que aconteceu até ali no contexto. E cada chamada custa dinheiro: numa tarefa simples são dezenas de chamadas, numa sessão complexa, centenas. Por isso, harness travado é o pesadelo do dev de 2026.

Sandbox: como o agente não destrói seu computador

Pensa comigo: um harness pode rodar comandos no seu terminal. Isso é poder absoluto. Nada impede que ele dê um "rm -rf /" e apague seu sistema. Se o modelo, por alucinação ou prompt injection, decidir rodar um comando catastrófico, queremos que o harness não deixe.

A solução do Codex é o sandbox: um container pequenininho, descartável, onde os comandos rodam isolados. Dentro do sandbox, o comando pensa que está rodando no seu computador, mas só consegue mexer no que você autorizou. 

O Codex tem três níveis configuráveis: 

  • somente leitura (sem escrita em nada, útil para análise), 
  • pode escrever só na pasta do projeto (modo padrão, sem mexer em /etc ou ~/.ssh) 
  • e sem restrição (YOLO mode, use com cuidado).

Vale pontuar um detalhe legal aqui: o Codex tem três implementações de sandbox completamente diferentes, uma para cada SO principal (macOS, Linux, Windows), todas escondidas atrás de uma interface única. 

O agente em si não sabe em qual sistema está rodando. Ele só pede para executar um comando, e o harness se vira.

Close-up focado com fundo preto exibindo múltiplas linhas de código de programação JavaScript na tela de um computador. O texto do código está altamente colorido com sintaxe destacada em tons brilhantes de azul, verde, amarelo, roxo e laranja, exibindo termos técnicos legíveis.

Chamadas de ferramentas (tool calls) coordenadas pelo harness permitem que o cérebro da IA aplique alterações e correções diretamente em arquivos de programação.

MCP: a tomada universal para ferramentas de agentes

Outra peça importante do harness moderno é como ele se conecta a serviços externos. Você quer que o agente leia uma issue no Linear, abra um PR no GitHub, consulte um doc no Notion. Como ele faz?

Em 2023 (que na velocidade da IA já é "antigamente"), cada agente implementava integração caso a caso. Em 2024, a Anthropic lançou o protocolo MCP (Model Context Protocol), um padrão aberto que permite que qualquer serviço exponha funcionalidades de forma padronizada e qualquer agente compatível consegue usar. 

A analogia é a de uma tomada universal: antes cada eletrodoméstico tinha um plugue diferente, agora todos encaixam na mesma. Hoje você instala um servidor MCP do GitHub e qualquer agente que fale MCP (Claude Code, Codex, Cursor) consegue ler issues e criar PRs.

O Codex faz algo interessante: é tanto cliente quanto servidor MCP. Como cliente, consome MCP servers configurados. Como servidor, expõe o próprio Codex como ferramenta para outros agentes. 

Em tese, dá para rodar o Claude Code e configurar o Codex como uma das ferramentas dele. Agente chamando agente. Muita gente fala que essa multiplicidade agêntica é o futuro do desenvolvimento.

Skills: ensinando truques específicos ao agente

Existe um segundo jeito de estender o que o agente sabe fazer, diferente do MCP: as skills. 

Uma skill, no Codex ou no Claude Code, é basicamente uma pasta com um arquivo SKILL.md em Markdown que descreve para o agente como fazer uma tarefa específica do jeito que você quer ("revisar PR seguindo o checklist da empresa", "rodar o lint customizado"), junto com scripts auxiliares. 

O agente carrega essas skills automaticamente e, quando o pedido bate com o que a skill cobre, invoca a skill como ferramenta. 

É basicamente um guia passo a passo de engenharia de prompt para aquele caso específico. A combinação MCP + skills é o que faz um agente praticamente virar um membro do time, e não um assistente genérico.

Memória: o agente que lembra (e o que esquece)

Cada conversa fica salva num arquivo no seu disco. Você pode mandar "codex resume" e ele retoma de onde parou ontem. Dá também para forkar uma sessão ("queria ter tomado outra decisão lá no meio"), parecido com criar um branch no GitHub, só que para conversas com o agente. 

Existe também a memória de longo prazo: coisas que aconteceram numa sessão (preferências, decisões, lições aprendidas) são destiladas e ficam disponíveis nas próximas sessões. 

O Codex implementa isso em dois estágios: extrai candidatos a cada sessão e, periodicamente, um sub-agente dedicado consolida tudo em um documento persistente. Essa parte é o calcanhar de Aquiles de qualquer agente hoje, e é onde veremos muitas novidades nos próximos meses.

O que isso muda para quem programa em 2026

Da próxima vez que alguém te disser "essa nova ferramenta de IA usa o modelo X, então é boa", você vai saber que isso é metade da história. A outra metade está no harness. E agora você sabe onde olhar.

Para profissionais que querem se aprofundar nesse novo paradigma, as Carreiras da Alura cobrem desde engenharia de prompt e Python até trilhas em inteligência artificial generativa, engenharia de IA e desenvolvimento com modelos como ChatGPT 5 e a família Claude. 

Para quem quer construir carreira em tecnologia hoje, dominar o uso de agentes e entender o que acontece debaixo do capô é diferencial competitivo. O movimento de citizen developer também se conecta: muitos profissionais não-devs estão aprendendo a usar harnesses para automatizar fluxos.

E claro, para uma formação acadêmica para as lideranças do futuro da tecnologia, a FIAP oferece pós-graduações em IA e transformação digital.

FAQ | Perguntas frequentes sobre harness

Ficou com dúvidas? Confira as perguntas mais frequentes:

1. O que é harness?

Harness é a camada de software que envolve um modelo de linguagem (LLM) e transforma esse modelo em um agente capaz de executar ações no mundo: ler arquivos, rodar comandos, editar código, chamar APIs. Sem harness, um modelo só responde em texto. Com harness, ele opera ferramentas, mantém contexto, executa loops de raciocínio e ação e entrega tarefas completas.

2. Qual a diferença entre modelo e agente?

Modelo (LLM) é uma função que recebe texto e devolve texto. Não roda comandos, não tem memória entre sessões, não acessa internet sozinho. Agente é a combinação de um modelo (cérebro) com ferramentas (mãos) e memória, orquestrados por um harness. É essa combinação que executa ações reais como abrir arquivos, rodar testes e aplicar correções.

3. Por que harness virou a palavra de 2026?

Porque ficou claro que o desempenho de ferramentas como Codex, Claude Code e Cursor não depende só do modelo subjacente, mas principalmente da qualidade do harness em volta. Um modelo médio com excelente harness entrega mais do que um modelo excepcional com harness ruim. Anthropic e OpenAI estão investindo pesado nessa camada.

4. O que é um tool call?

Tool call é quando o modelo, em vez de responder com texto, pede para o harness executar uma ferramenta específica: "leia o arquivo X", "rode esse comando", "aplique esse diff". O harness executa a ação no mundo real e devolve o resultado para o modelo continuar o raciocínio. Esse vai-e-volta é o coração de como agentes modernos funcionam.

5. O que é o protocolo MCP?

MCP (Model Context Protocol) é um padrão aberto criado pela Anthropic em 2024 que permite que qualquer serviço externo (GitHub, Notion, APIs internas) exponha suas funcionalidades de forma padronizada que qualquer agente compatível consegue usar. Funciona como uma tomada universal: antes cada agente precisava integração específica com cada serviço; com MCP, basta instalar um servidor.

5. Como o Codex evita destruir meu computador?

Por meio de um sandbox: um container pequeno e descartável onde os comandos rodam isolados do sistema. O Codex tem três níveis de restrição: somente leitura, escrita restrita à pasta do projeto (modo padrão) e sem restrição (YOLO mode). Mesmo um "rm -rf /" rodado em modo restrito não vai apagar seu sistema.

Avalie este artigo

Fabrício Carraro
Fabrício Carraro

Fabrício Carraro é formado em Engenharia da Computação pela UNICAMP e pós-graduado em Data Analytics & Machine Learning pela FIAP. Atualmente, mora na Espanha.

Veja outros artigos sobre Inteligência Artificial