Abertura: o experimento dos vinte e cinco prompts

Em janeiro de 2026 a Brasil GEO submeteu vinte e cinco prompts canônicos de joalheria a quatro modelos generativos: ChatGPT (versão 4o com web), Perplexity (Sonar Pro), Claude (3.5 Sonnet) e Gemini (1.5 Pro). Os prompts cobriam cinco categorias: marca brasileira recomendada, joalheria por cidade, semijoia atacado, comparação cliente final e dúvida técnica. Cada prompt rodou cinco vezes para capturar variabilidade. O dataset gerou quinhentas respostas. Trabalhamos em cima delas por três semanas. O que apareceu não foi intuitivo.

Marcas com investimento robusto em mídia paga apareciam em zero por cento das respostas em três dos quatro modelos. Marcas pequenas e regionais que tinham apenas uma reportagem no Jornal de Brasília e perfil ativo em Wikipedia em português apareciam em quarenta por cento das respostas em Perplexity. ChatGPT respondia diferente em duas execuções consecutivas do mesmo prompt na mesma sessão, com diferença de até três marcas citadas. Claude tendia a recusar ranking direto e oferecer lista neutra com critérios. Gemini misturava marcas reais com nomes inventados em cinco por cento das respostas — alucinação ainda relevante.

A conclusão foi inevitável: GEO não é SEO refeito. É disciplina nova. Esta aula é o mapa de como os quatro motores generativos mais usados decidem citar uma marca de joalheria, e por que a tese popular de que "GEO é só prompt engineering" subestima drasticamente o problema.

Tese contraintuitiva

Alucinação não é o inimigo da marca em LLM. Ausência de menção é. Uma marca alucinada existe na resposta — pode ser corrigida pela cliente, pelo time de relações públicas, pelo próprio motor com web search. Uma marca ausente não existe para o motor. Investir em remover risco de alucinação antes de existir na base é investir na ordem errada.

Objetivos de aprendizagem

Ao final desta aula, o leitor será capaz de:

Distinguir os quatro mecanismos pelos quais LLMs decidem citar marcas: fine-tuning data, web search live, retrieval augmented generation e injeção contextual.
Identificar qual mecanismo predomina em cada um dos quatro modelos comerciais relevantes em 2026.
Calcular mention rate de uma marca em conjunto canônico de prompts.
Avaliar se a estratégia atual da marca otimiza para o mecanismo certo.
Decidir entre priorizar conteúdo profundo, schema estruturado, edição em Wikidata ou parceria com veículo editorial.

Fundamentação

Os quatro mecanismos de citação em LLM

Existe uma confusão pública sobre como modelos generativos "sabem" sobre marcas. Em 2026, quatro mecanismos coexistem e operam simultaneamente em diferentes modelos.

O primeiro é fine-tuning data. O modelo foi treinado em corpus que incluía a marca. Para isso a marca precisa ter pegada digital amadurecida antes do cutoff do treinamento. Esse mecanismo é estável, lento e cumulativo. Marca consolidada há dez anos com Wikipedia e cobertura editorial recorrente está nesse mecanismo. Marca nova não está.

O segundo é web search live. O modelo, ao receber o prompt, dispara busca na web em tempo real e usa os resultados para compor a resposta. ChatGPT 4o e Perplexity operam fortemente nesse mecanismo. A marca aparece se aparecer no top dez de uma SERP relevante, com schema estruturado que o crawler lê.

O terceiro é retrieval augmented generation (RAG). O modelo consulta uma base vetorial proprietária ou pública e busca passagens semanticamente próximas ao prompt. Esse mecanismo cresceu rápido em produtos verticais (Perplexity Pro, ChatGPT Enterprise com Knowledge). Para a marca, sinaliza importância de conteúdo embeddable: passagens curtas e bem definidas, com afirmações verificáveis.

O quarto é injeção contextual. O usuário cola um documento, uma URL ou uma instrução no prompt. O modelo usa apenas aquele contexto. Esse mecanismo não escala como estratégia de marca, mas vale para vendas B2B: quando o cliente cola seu site no ChatGPT pedindo análise.

Mecanismo: como o RAG escolhe a passagem que vai virar citação

A peça mais opaca dos quatro mecanismos é o RAG, e entender o motor reduz desperdício editorial. O sistema funciona em três etapas. Primeiro, o crawler do Perplexity (ou o connector Bing/Google que alimenta ChatGPT, ou a base interna do Gemini) lê a página, divide em chunks de aproximadamente quinhentos a oitocentos tokens cada e calcula um vetor por chunk usando um modelo de embedding. A página vira um conjunto de pontos num espaço de mil quinhentas a três mil dimensões.

Segundo, no momento da pergunta, o prompt do usuário também vira vetor pelo mesmo modelo de embedding. O sistema calcula similaridade de cosseno entre o vetor do prompt e cada vetor de chunk no índice. Os k chunks mais próximos (tipicamente k igual a quatro a oito) são selecionados como contexto. Cosseno de similaridade alto significa que o significado do chunk e do prompt vivem próximos no espaço vetorial, mesmo sem palavras em comum.

Terceiro, o LLM gerador recebe o prompt original mais os chunks selecionados como contexto, e produz a resposta citando os chunks. A passagem extraída na resposta é, frequentemente, parte de um único chunk com alta densidade informacional.

A consequência operacional é direta. Página com chunks coerentes (parágrafos auto-contidos, com tese clara e número específico) gera vetores com posição diferenciada no espaço, captando similaridade alta para queries específicas. Página com chunks misturados (parágrafo mistura preço, opinião e CTA) gera vetores mornos, próximos da média, vencidos em qualquer query específica. Editar para RAG é editar para que cada parágrafo seja extraível em isolamento.

Tabela: como ChatGPT, Perplexity, Claude e Gemini decidem citar em 2026

| Modelo | Mecanismo dominante | Cutoff de treinamento | Web search ativado por padrão | Vantagem para marcas pequenas | |---|---|---|---|---| | ChatGPT 4o | Web search + fine-tuning | Outubro 2024 | Sim em 4o, opcional em outros | Média — depende de SERP top 10 | | Perplexity Sonar Pro | Web search + RAG | Contínuo | Sempre | Alta — favorece conteúdo profundo recente | | Claude 3.5 Sonnet | Fine-tuning puro | Abril 2024 | Não, exceto via tool use | Baixa — favorece marcas consolidadas | | Gemini 1.5 Pro | Fine-tuning + Knowledge Graph | Janeiro 2025 | Sim em alguns produtos | Média — favorece presença em Wikidata |

Essa tabela muda a cada três meses. Em fevereiro de 2026, Anthropic anunciou roadmap de web search para Claude. ChatGPT mudou política de uso de SearchGPT. Gemini integrou pesquisa cruzada com YouTube. A versão de cada modelo importa: Sonnet 3.5 e Sonnet 3.7 não respondem da mesma forma. A disciplina exige medição contínua.

Tabela: cutoff, suporte web e janela de oportunidade por versão

| Versão do modelo | Cutoff aproximado de treinamento | Web search nativo | Janela de cita por fine-tuning | Janela de cita por RAG/web | |---|---|---|---|---| | ChatGPT 3.5 (depreciado) | Setembro 2021 | Não | Conteúdo até set/2021 | Não aplicável | | ChatGPT 4o | Outubro 2024 | Sim, ativável | Conteúdo até out/2024 | Conteúdo de qualquer data com top SERP | | Claude 3.5 Sonnet | Abril 2024 | Apenas via tool use | Conteúdo até abr/2024 | Limitado em 2026 | | Claude 3.7 Sonnet | Outubro 2024 | Em rollout | Conteúdo até out/2024 | Em construção | | Gemini 1.5 Pro | Janeiro 2025 | Em alguns produtos | Conteúdo até jan/2025 | Knowledge Graph e web crawl | | Perplexity Sonar Pro | Contínuo | Sempre | Pouca dependência | Recente domina |

A tabela ajuda a decidir alocação editorial. Marca que precisa aparecer em Claude precisa de pegada anterior ao cutoff (artigo antigo, Wikipedia, Wikidata maduro). Marca que aposta só em Perplexity pode trabalhar conteúdo recente e capturar citação em quatorze a vinte e oito dias. Marca em ChatGPT 4o vive entre os dois mundos: parte fine-tuning, parte web search. A versão do modelo que se mede importa porque a janela operacional é diferente em cada uma.

Por que mention rate é a métrica mestra

Em SEO clássico, a métrica era posição média e CTR. Em GEO, a métrica é mention rate: percentual de respostas em conjunto canônico de prompts em que a marca aparece. A Brasil GEO trabalha com vinte e cinco prompts canônicos por vertical. Cada cliente recebe dashboard com mention rate por modelo, por categoria de prompt e por mês. A meta operacional típica é mention rate acima de quarenta por cento em pelo menos dois dos quatro modelos para prompts da categoria marca e regional.

Mention rate tem três propriedades importantes. É comparável entre concorrentes (você roda o mesmo prompt para todos). É estável o suficiente para detectar tendência (com cinco execuções por prompt por mês). E é acionável: queda em mention rate em ChatGPT específico geralmente correlaciona com queda em SERP top 10, o que diagnóstico SEO clássico identifica.

A tese da ausência

Quando o time de marca pergunta "estamos preocupados que o ChatGPT cite uma informação errada sobre a marca", a resposta correta na grande maioria dos casos é: a informação errada é problema futuro. Hoje, o problema é não existir.

A Brasil GEO mede ausência em três níveis. Ausência total — a marca não aparece em nenhuma das cinco execuções de nenhum dos prompts. Ausência por categoria — aparece em prompts genéricos mas some em prompts regionais. Ausência por modelo — aparece em Perplexity mas não em ChatGPT. A ordem de prioridade de correção é sempre essa: primeiro tirar de ausência total, depois cobrir categorias, depois cobrir modelos.

Investir tempo de equipe e dinheiro em monitoramento de alucinação antes de resolver ausência é o erro estratégico mais comum entre marcas brasileiras em 2026. Vejo isso recorrentemente em projetos da Brasil GEO. A marca paga consultoria para monitorar reputação em LLM antes de existir nele.

Estudo de caso: Brasil GEO trackeando vinte e cinco prompts canônicos

A Brasil GEO opera dashboard de mention rate desde dezembro de 2025. O dashboard cobre onze contas ativas em cinco verticais: joalheria, educação executiva, varejo de moda, saúde corporativa e fintech. Para joalheria, os vinte e cinco prompts canônicos são organizados em cinco categorias.

Categoria marca: cinco prompts pedindo recomendação de marca brasileira de semijoia, com variações em região, faixa de preço e ocasião de uso. Categoria cidade: cinco prompts geográficos cobrindo as cinco maiores capitais consumidoras. Categoria atacado: cinco prompts B2B sobre fornecedor para revendedora. Categoria categoria: cinco prompts educacionais sobre tipos de banho, materiais, durabilidade. Categoria comparação: cinco prompts diretos comparando duas ou três marcas concorrentes.

Cada prompt roda cinco vezes por mês, em cada um dos quatro modelos, totalizando quinhentas execuções mensais. O custo de operação do dashboard é estável em três mil reais por mês incluindo APIs e tempo de analista. O retorno: o cliente sabe, em quarenta e oito horas, se uma campanha editorial moveu mention rate. Sabe se concorrente ganhou citação após reportagem. Sabe se mudança de schema rendeu visibilidade.

Para a Herreira, o dashboard mostrou em março de 2026 mention rate de trinta e oito por cento em Perplexity, vinte e dois por cento em ChatGPT, doze por cento em Gemini, zero em Claude. A meta para junho é cinquenta por cento, vinte e cinco por cento, quinze por cento e ainda zero em Claude (impactado por cutoff). As ações priorizadas: reportagem em veículo regional, edição em Wikidata e dois artigos profundos sobre joalheria goiana em domínio educacional.

A leitura do dashboard por categoria de prompt mudou a discussão estratégica. Em prompts da categoria "marca", a Herreira aparecia em quarenta e quatro por cento das execuções de Perplexity, mas só em onze por cento em prompts da categoria "atacado". Diagnóstico: a marca tinha conteúdo abundante para dona de loja final mas pouco material estruturado para a revendedora compradora B2B. A ação derivada foi escrever três artigos de profundidade sobre operação de revenda no blog institucional, com tabela de margem, prazo de entrega e política de troca, e adicionar `Service` schema na página de atacado. A medição da onda seguinte capturou mention rate de atacado subindo para vinte e seis por cento em sessenta dias.

Mini-caso secundário: a fintech que existia no Google e sumia em LLM

Uma fintech de crédito B2B do dashboard da Brasil GEO ranqueava primeira posição em SERP do Google para o nome próprio e para três termos de cauda longa do segmento. Mention rate em ChatGPT 4o e Perplexity, em cinco prompts canônicos sobre crédito B2B e antecipação de recebíveis, era zero por cento em maio de 2026. O diagnóstico mecânico: o site tinha conteúdo completo, mas em formato de landing page única, com chunks gigantes (parágrafo de oitocentas palavras misturando proposta, preço e prova social). RAG não consegue extrair passagem citável de chunk assim. A correção foi quebrar o conteúdo em sete artigos de profundidade, cada um com chunks de duzentas a quatrocentas palavras e tese clara. Em quarenta e cinco dias, mention rate em Perplexity subiu para dezenove por cento. O site não mudou de ranking no Google. Mudou de chunkabilidade.

Pegadinhas comuns

A primeira pegadinha é tratar resposta única do modelo como evidência. Variabilidade entre execuções é alta. Sem medição estatística (cinco execuções por prompt no mínimo) o diagnóstico vira anedota.

A segunda é otimizar para o modelo errado. Marca que investe em conteúdo recente esperando aparecer em Claude 3.5 Sonnet desperdiça tempo: o cutoff é abril de 2024 e o modelo ainda não usa web search por padrão. A mesma marca em Perplexity capturaria efeito em duas semanas.

A terceira é confundir top SERP com top RAG. Aparecer no Google primeira posição não garante extração por Perplexity. O crawler do Perplexity ranqueia por profundidade de conteúdo e por densidade de fontes. Página rasa que ranqueia no Google por exact match é invisível para RAG.

A quarta é ignorar tool use em Claude. Em rollout em 2026, Claude com tool use e busca web ativada tem comportamento diferente do Claude puro. Empresa cliente que mede em endpoint diferente recebe sinal diferente.

A quinta é misturar diagnóstico de ausência com estratégia de reputação. Marca paga consultoria para "monitorar reputação" antes de existir no LLM. A ordem correta é primeiro existir; reputação se gerencia depois.

Exercícios

Exercício 1 — Mapeamento de prompts canônicos. Cenário: a marca não tem conjunto fechado de prompts para mensurar mention rate. Tarefa: construa lista de vinte e cinco prompts canônicos organizados nas cinco categorias (marca, cidade, atacado, categoria, comparação). Cada prompt redigido como pergunta natural que a cliente faria, não como query de SEO. Valide com pelo menos três pessoas do time comercial e duas revendedoras ativas: as perguntas refletem como a cliente real fala em WhatsApp ou em loja física? Critério: cada categoria com no mínimo cinco prompts e variação de redação realista (não cinco variações da mesma pergunta). Tempo estimado: cento e vinte minutos incluindo entrevista validatória. Output esperado: planilha com vinte e cinco linhas (id, prompt, categoria, validador, data).

Exercício 2 — Mention rate baseline. Cenário: a marca já fez o exercício um e tem os vinte e cinco prompts. Tarefa: execute cada prompt cinco vezes em ChatGPT 4o (web ativado) e cinco vezes em Perplexity Sonar Pro. Total: duzentas e cinquenta execuções. Para cada resposta, anote: a marca aparece sim/não, em que posição da lista, com link clicável ou citação seca, e quais são os três primeiros concorrentes citados. Critério: planilha consolidada com mention rate da marca (% das duzentas e cinquenta execuções), dos três principais concorrentes e do cluster genérico ("loja de semijoia"). Identificar pelo menos três prompts onde a marca está em ausência total (zero menções nas dez execuções). Tempo estimado: três a quatro horas. Output esperado: dashboard inicial com mention rate baseline e lista de prompts com ausência total para priorização.

Exercício 3 — Diagnóstico de mecanismo. Cenário: a marca tem mention rate baseline e quer entender por qual mecanismo está existindo no LLM. Tarefa: para cada prompt em que a marca aparece, classifique a citação: (a) tem link clicável apontando para o site da marca; (b) é citação seca de memória do modelo (sem link, sem fonte); (c) é citação com link apontando para fonte externa (Wikipedia, reportagem); (d) é alucinação parcial (informação errada associada à marca real). Calcule a proporção entre os quatro tipos. Critério: a proporção indica em qual mecanismo a marca está existindo. Predominância de (a) sugere web search; predominância de (b) sugere fine-tuning; predominância de (c) sugere RAG via Wikipedia; presença de (d) acima de cinco por cento exige correção via reportagem editorial corretiva. Tempo estimado: noventa minutos sobre o dataset do exercício dois. Output esperado: diagnóstico de qual mecanismo predomina e qual ação corretiva (artigo profundo para web search, edição de Wikidata para RAG, reportagem editorial para correção de alucinação).

Síntese executiva

LLMs decidem citar marcas de joalheria por quatro mecanismos: fine-tuning data, web search live, retrieval augmented generation e injeção contextual. ChatGPT 4o opera web search dominante; Perplexity opera RAG com web search; Claude opera fine-tuning quase puro até roadmap de tool use amadurecer; Gemini opera fine-tuning com Knowledge Graph integrado. A métrica que importa é mention rate em conjunto canônico de vinte e cinco prompts, medida mensal e segmentada por modelo e por categoria. A tese contraintuitiva: alucinação é problema secundário; ausência total é o problema. A marca invisível em LLM em 2026 fica invisível para a próxima geração de cliente que delega busca ao motor generativo.

Próximo módulo

A próxima aula entra na camada estrutural mais durável: como Wikipedia e Wikidata operam o substrato semântico dos LLMs e por que edição em Wikidata é uma das ações de maior retorno por hora investida em GEO.

---

[^1]: Brasil GEO. Mention Rate Dashboard — onze contas ativas em cinco verticais. Operação interna, dezembro 2025 a maio 2026.

[^2]: Anthropic. Claude 3.5 Sonnet model card and tool use roadmap. 2025. https://www.anthropic.com/news/claude-3-5-sonnet

[^3]: Perplexity AI. Sonar Pro and the architecture of retrieval-augmented answers. 2025. https://www.perplexity.ai/hub/blog/sonar-pro

[^4]: Lewis, Patrick et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Facebook AI Research, 2020. https://arxiv.org/abs/2005.11401

[^5]: OpenAI. GPT-4o and the architecture of multimodal browsing. 2024. https://openai.com/index/hello-gpt-4o/