Aula 05

Conteúdo que LLMs preferem citar: estrutura, citações e profundidade

Abertura: o artigo de quatro mil palavras que ranqueou em Perplexity

Em março de 2026 publiquei um artigo de quatro mil palavras em alexandrecaramaschi.com sobre regionalização em Generative Engine Optimization. O artigo tinha quatro citações com link real, três tabelas comparativas, dezesseis subtítulos H2 e H3, e uma conclusão executiva de duzentas palavras. Foi escrito em uma tarde, revisado em duas horas, indexado por IndexNow e GSC em menos de quarenta e oito horas. Sete dias depois, virou primeira citação de Perplexity Sonar Pro em três prompts canônicos sobre o tema. Trinta dias depois, ChatGPT 4o passou a citar a URL diretamente.

No mesmo período, uma agência concorrente publicou listicle de "dez dicas para GEO em 2026" com mil duzentas palavras, sem citação, sem tabela, com tom de copy de venda. O listicle teve seis vezes mais views no Google Analytics nos primeiros sete dias. Não apareceu em nenhum LLM.

A conclusão é desconfortável para quem opera marketing tradicional. O conteúdo que converte tráfego em landing page de mídia paga não é o conteúdo que LLM cita. Em GEO, o jogo é outro. Esta aula desconstrói o tipo de conteúdo que os modelos generativos preferem em 2026, com dados de onze contas ativas da Brasil GEO.

Tese contraintuitiva

Profundidade técnica com tabelas comparativas e citações vence copy persuasivo. LLMs não são manipulados por copy de venda; eles ranqueiam fontes que sustentam afirmação verificável. Marca que escolhe entre converter em mídia paga ou ser citada por LLM precisa decidir, porque os dois conteúdos otimizam para mecanismos diferentes.

Objetivos de aprendizagem

Ao final desta aula, o leitor será capaz de:

  • Distinguir conteúdo que otimiza para clique pago de conteúdo que otimiza para citação em LLM.
  • Identificar os cinco atributos editoriais que correlacionam com mention rate em ChatGPT, Perplexity e Claude.
  • Construir estrutura editorial padrão para artigo destinado a citação em LLM.
  • Avaliar se o blog atual da marca está editado para tráfego ou para autoridade.
  • Decidir entre publicar quantidade ou priorizar profundidade.

Fundamentação

Os cinco atributos editoriais que importam

A Brasil GEO mantém dataset de aproximadamente trezentos artigos publicados em onze contas. Para cada artigo, registramos: tamanho em palavras, número de citações com link real, presença de tabela com pelo menos quatro colunas, profundidade de hierarquia (H1, H2, H3, H4), e presença de "passagem citável" — afirmação curta e verificável que pode ser extraída intacta.

Em sete meses de operação correlacionei mention rate em LLM com cada atributo. Os cinco atributos com correlação positiva forte foram:

  1. Tamanho entre dois mil e cinco mil palavras. Abaixo de dois mil, falta substância para o LLM extrair. Acima de cinco mil, dispersa o foco e o LLM cita só o trecho inicial.
  2. Pelo menos três citações com link real para fonte verificável. Documentação oficial, paper acadêmico, reportagem editorial, página da concorrência. Citação inventada ou para fonte morta gera ruído.
  3. Pelo menos uma tabela comparativa com quatro ou mais colunas. Tabelas são a estrutura mais facilmente extraível por modelos. ChatGPT e Perplexity preferem tabelas a parágrafos quando precisam comparar opções.
  4. Hierarquia clara de H2 e H3 com pelo menos oito subtítulos. LLMs usam subtítulos para indexar a página. Artigo sem hierarquia é artigo opaco.
  5. Passagens citáveis de quarenta a oitenta palavras. Definição, tese, número específico, lista curta. Esses trechos são extraídos intactos e aparecem em respostas de LLM com aspas.

Artigo que cumpre os cinco atributos tem, em média, quatro vezes mais probabilidade de ser citado em LLM em janela de noventa dias do que artigo que cumpre dois ou menos. A margem de erro é razoável (correlação de 0,68 a 0,74 conforme o modelo), mas o sinal é consistente.

Por que copy persuasivo perde

Copy persuasivo otimiza para conversão imediata em landing page. Frases curtas, perguntas retóricas, prova social emocional, CTA repetido. Esses elementos são afetivamente eficazes em humano comprando. São editorialmente vazios para LLM extraindo informação.

Modelos generativos escolhem fonte por dois critérios principais. Primeiro, autoridade implícita do domínio (idade, frequência de citação por outros sites, presença em Wikipedia). Segundo, densidade informacional do conteúdo (proporção de afirmações verificáveis por palavra). Copy persuasivo tem densidade informacional baixa. O LLM, ao tentar extrair afirmação verificável, encontra retórica.

Não estou dizendo que copy persuasivo é ruim. Funciona em landing page de mídia paga, em e-mail marketing, em página de oferta. Não funciona como conteúdo que LLM cite. Confundir os dois é confundir gênero editorial com função estratégica.

Tabela: quatro gêneros editoriais e seu desempenho em GEO

| Gênero | Tamanho típico | Densidade informacional | Mention rate em LLM (90 dias) | CTR em mídia paga | |---|---|---|---|---| | Listicle de dicas | 800-1.500 palavras | Baixa | 2-6% | 4-8% | | Artigo HBR (tese + tabela + citações) | 2.000-5.000 palavras | Alta | 18-32% | 0,8-1,5% | | Definição enciclopédica | 1.200-2.500 palavras | Muito alta | 22-40% | 0,3-0,9% | | Copy persuasivo curto | 400-1.000 palavras | Mínima | 0-3% | 6-12% |

A tabela mostra trade-off real. Definição enciclopédica é a mais citada em LLM mas converte muito pouco em mídia paga. Copy persuasivo curto converte em mídia paga mas é invisível em LLM. Artigo HBR ocupa zona intermediária produtiva: cita razoável em LLM e converte aceitavelmente em mídia orgânica.

Marca que quer cobrir os dois jogos precisa publicar nos quatro gêneros com proporções diferentes por canal. A regra que sigo: oitenta por cento do orçamento editorial em artigo HBR e definição enciclopédica para o blog institucional; vinte por cento em copy persuasivo para landing pages e e-mail.

Tabela: alocação de gênero por canal e por função

| Canal | Gênero recomendado | Métrica primária | Frequência sugerida | Erro mais comum | |---|---|---|---|---| | Blog institucional / academy interna | Artigo HBR + definição enciclopédica | Mention rate em LLM em 90 dias | 2-4 artigos/mês | Listicle raso "porque é fácil" | | Landing page de mídia paga | Copy persuasivo curto | CTR + CPL | Por campanha | Tentar virar artigo HBR e perder conversão | | E-mail marketing | Copy persuasivo + storytelling | Open rate + clique | Semanal ou quinzenal | Reciclar texto de blog sem corte | | Newsletter editorial | Artigo HBR resumido + curadoria | Tempo de leitura + reply rate | Mensal | Misturar com promoção e diluir voz | | Materiais ricos (e-book, whitepaper) | Definição enciclopédica longa | Download + mention rate | Trimestral | Fazer como folder visual sem profundidade textual |

A tabela ajuda o time editorial a decidir o que escrever onde. O erro recorrente em marca que começa a investir em GEO é tentar transformar landing page em artigo HBR longo, achando que o LLM vai citar. Não cita: a landing tem schema `WebPage` com CTA dominante, não `Article` com `author` e `datePublished`. O motor lê a função estrutural da página, não o tamanho do texto.

Como passagens citáveis funcionam mecanicamente

Passagem citável é, mecanicamente, um trecho de quarenta a oitenta palavras com três propriedades simultâneas: começa com sujeito claro (não pronome), contém ao menos um número específico ou nome próprio verificável, e termina com afirmação categórica que pode ser extraída sem dependência de contexto anterior. Exemplo desta aula: "Marca que cumpre os cinco atributos tem, em média, quatro vezes mais probabilidade de ser citada em LLM em janela de noventa dias do que artigo que cumpre dois ou menos." Esse trecho atende às três propriedades. ChatGPT e Perplexity extraem esse tipo de frase intacta.

A razão é arquitetural. Quando o gerador do LLM produz resposta, ele decide entre parafrasear o conteúdo ou citar passagem literal. Citação literal exige que o trecho seja auto-contido (sem ambiguidade de referente), curto o suficiente para caber no orçamento de tokens da resposta, e específico o suficiente para somar valor à resposta. Passagens longas demais (cento e cinquenta palavras ou mais) são parafraseadas ou descartadas. Passagens vagas ("é importante que...") não somam valor e são ignoradas. O ponto operacional para o time editorial: cada bloco de fundamentação deveria conter uma ou duas passagens citáveis identificáveis.

A estrutura editorial padrão para artigo destinado a LLM

Após dezenas de iterações, convergi numa estrutura editorial reproducível. Sete blocos.

Bloco 1 — abertura com cena ou número (sessenta a cento e cinquenta palavras). Caso real específico, número contraintuitivo, ou pergunta-afirmação. Nunca pergunta retórica solta. O leitor humano e o LLM precisam do gancho concreto.

Bloco 2 — tese contraintuitiva (uma frase de trinta a cinquenta palavras). A tese precisa ser legível como passagem citável. O LLM tende a extrair essa frase como aspas em respostas.

Bloco 3 — fundamentação (setecentas a mil duzentas palavras). Sustentação com dado, tabela comparativa, lógica explicada. Aqui mora a densidade informacional. Sem ela, o artigo é vazio.

Bloco 4 — estudo de caso (trezentas a quinhentas palavras). Exemplo verificável, com nome real, número real, link onde possível. LLM ranqueia mais alto fontes que mostram caso verificável do que opinião teórica.

Bloco 5 — exercícios ou checklist acionável (cento e cinquenta a trezentas palavras). Lista curta, cada item executável em horas ou dias. Esse bloco é menos citado por LLM mas valioso para retenção do leitor humano.

Bloco 6 — síntese executiva (cento e cinquenta a duzentas e cinquenta palavras). Resumo da tese e dos passos principais. ChatGPT 4o frequentemente extrai síntese executiva como resposta direta a prompt.

Bloco 7 — citações (três a sete itens). Cada citação com link real, fonte verificável, ano de publicação. Sem citações, a autoridade do artigo é declarada. Com citações, é demonstrada.

A estrutura cabe em duas a três horas de produção uma vez que o autor domina o tema. Não cabe em produção via planilha de keywords, porque exige tese forte do autor.

O efeito do schema Article com author

Os atributos editoriais funcionam melhor quando combinados com schema `Article` correto. O campo `author` apontando para `Person` com `sameAs` cruzando perfis verificáveis é o sinal de autoridade que o LLM lê. Artigo bom em domínio sem `Article` schema vale menos que artigo médio em domínio com schema correto.

Em alexandrecaramaschi.com cada artigo tem `Article` com author `Alexandre Caramaschi`, `sameAs` cruzando LinkedIn, Wikipedia (em construção) e Wikidata Q973. Esse sinal multiplica o efeito do conteúdo bom. Para joalheria, o equivalente é cada artigo do blog Herreira ter author Patrícia da Herreira ou outro especialista nomeado, com `sameAs` válido.

Estudo de caso: artigo de regionalização versus listicle concorrente

Em março de 2026 publiquei "Regionalização em GEO: a tese da CNPJ-própria para clientes com pegada geográfica" no alexandrecaramaschi.com. O artigo seguiu a estrutura de sete blocos. Quatro mil duzentas palavras. Quatro citações com link real (uma para reportagem da Folha sobre regionalização do Magalu, uma para paper sobre regionalização de marca em mercados emergentes, uma para documentação do Sebrae sobre CNPJ-MEI, uma para meu próprio artigo anterior sobre GEO). Três tabelas. Síntese executiva de duzentas e dez palavras.

Schema correto: `Article` com author Alexandre Caramaschi, `sameAs` válido, `datePublished`, `publisher`. JSON-LD validado em rich result test. URL submetida em IndexNow para Bing e Yandex. Submetida em GSC para Google.

Resultados nos noventa dias seguintes:

  • ChatGPT 4o citou a URL diretamente em três prompts canônicos sobre regionalização em GEO no Brasil, com mention rate de aproximadamente trinta e oito por cento.
  • Perplexity Sonar Pro citou a URL como primeira fonte em dois prompts canônicos a partir do dia sete pós-publicação.
  • Claude 3.5 Sonnet, sem web search ativado, não citou (esperado, dado o cutoff de treinamento em abril de 2024).
  • Gemini 1.5 Pro citou em prompts cruzando Brasil GEO e regionalização, mention rate aproximado de catorze por cento.

Em paralelo, a agência concorrente publicou no mesmo período listicle "dez ações para GEO em 2026" com novecentas palavras, zero citações, zero tabelas, copy persuasivo. Em noventa dias, mention rate em LLM: zero. Tráfego do Google: aproximadamente seis vezes maior que o meu artigo. Conversão para lead em mídia paga: razoável. Autoridade construída em LLM: nenhuma.

A diferença operacional foi a definição prévia de função do conteúdo. O artigo HBR foi escrito para ser citado. O listicle foi escrito para converter clique pago. Os dois cumpriram a função para a qual foram editados.

Mini-caso secundário: o blog da Herreira que mudou de listicle para HBR

O blog institucional da Herreira tinha, em janeiro de 2026, vinte e oito artigos publicados nos doze meses anteriores. A maioria seguia formato listicle ("dez tendências para o próximo verão", "cinco semijoias que toda mulher deveria ter"). Tamanho médio: oitocentas e quarenta palavras. Citações: zero. Tabelas: zero. Mention rate em prompts canônicos sobre joalheria goiana: cinco por cento em ChatGPT, sete por cento em Perplexity. Em fevereiro, o time editorial reescreveu seis artigos no formato HBR de sete blocos, com tese, tabela, citações e síntese. Os outros vinte e dois ficaram como listicle. Em noventa dias, a comparação foi inequívoca: os seis artigos reescritos receberam, somados, dezessete citações em ChatGPT 4o e Perplexity. Os vinte e dois listicles, somados, receberam três citações no mesmo período. A diferença foi compatível com a previsão da correlação levantada no dataset Brasil GEO.

Pegadinhas comuns

A primeira pegadinha é confundir tamanho com profundidade. Artigo de oito mil palavras pode ter densidade informacional baixa se for prosa repetitiva. O que conta é razão de afirmações verificáveis por mil palavras, não tamanho bruto.

A segunda é deixar a tabela sem fonte ou sem números reais. Tabela com "alta", "média", "baixa" em todas as células é tabela ornamental. LLM não extrai valor. Cada célula deveria ter número, percentual ou nome próprio.

A terceira é citar fonte que aponta para 404 ou para domínio sem autoridade reconhecida. Citação para blog amador equivale a não citar. Pior: gera ruído no E-E-A-T.

A quarta é otimizar o título para SEO clássico exato e perder a tese. Título com três keywords concatenadas ("Anel de prata 925 barato comprar online") otimiza para SERP e perde para LLM. Título com tese ("Por que prata 925 venceu o ouro folheado em 2026") atrai clique humano e fornece passagem citável simultaneamente.

A quinta é publicar em frequência alta sacrificando profundidade. Quatro listicles rasos por mês movimentam menos mention rate que um artigo HBR sério. A regra simples: melhor um por mês com tese forte do que quatro genéricos.

Exercícios

Exercício 1 — Auditoria editorial dos últimos vinte artigos. Cenário: a marca tem blog ativo mas não sabe se o conteúdo cumpre os atributos que LLM prefere. Tarefa: para cada um dos últimos vinte artigos publicados, registre em planilha: tamanho em palavras, número de citações com link real e válido, presença de tabela com pelo menos quatro colunas, número de subtítulos H2 e H3, e existência de pelo menos uma passagem citável de quarenta a oitenta palavras (com sujeito claro e número específico). Para cada artigo, marque sim ou não em cada um dos cinco atributos. Critério: calcular percentual de artigos que cumprem os cinco atributos. Esse percentual é o índice de qualidade editorial atual da marca. Abaixo de vinte por cento, o blog está em modo listicle e não captura LLM. Tempo estimado: cento e oitenta minutos. Output esperado: planilha auditada e índice consolidado, com priorização de cinco artigos para reescrita.

Exercício 2 — Reescrita de artigo existente para padrão HBR. Cenário: o time tem capacidade para reescrever um artigo no próximo mês para padrão HBR. Tarefa: selecionar um artigo do blog atual com pelo menos mil duzentas palavras e tema relevante para o segmento. Aplicar a estrutura de sete blocos: abertura concreta, tese contraintuitiva, fundamentação com dado, tabela comparativa nova, estudo de caso verificável, exercícios ou checklist, síntese executiva, citações com link real. Adicionar schema `Article` correto com `author` apontando para `Person` real e `sameAs` válido. Critério: artigo reescrito atende aos cinco atributos editoriais e ao schema correto. Antes de publicar, medir mention rate baseline da URL atual em ChatGPT 4o e Perplexity. Republicar com mesma URL (não criar novo slug — preservar autoridade). Tempo estimado: cinco a oito horas para reescrita; quarenta e cinco dias para medir efeito. Output esperado: artigo no ar, baseline de mention rate registrado, mensuração comparativa em D+45.

Exercício 3 — Plano editorial trimestral por gênero. Cenário: a marca quer planejar conteúdo do próximo trimestre com função estratégica clara por canal. Tarefa: definir, para o próximo trimestre, quantos artigos de cada gênero (listicle, artigo HBR, definição enciclopédica, copy persuasivo) serão publicados. Alocar por canal: blog institucional, landing page de mídia paga, e-mail marketing, conteúdo de academy interna, newsletter editorial. Atribuir autor responsável e prazo de entrega por peça. Critério: o plano respeita a regra oitenta-vinte (oitenta por cento HBR e definição em blog institucional; vinte por cento copy persuasivo em landing). Cada peça tem expectativa quantificada de mention rate (HBR: 18-32%; definição: 22-40%; listicle: 2-6%; copy persuasivo: 0-3%). Tempo estimado: cento e vinte minutos. Output esperado: cronograma trimestral com peças, gêneros, canais, autores, prazos e expectativa de mention rate.

Síntese executiva

Conteúdo que LLMs preferem citar tem cinco atributos: tamanho entre dois mil e cinco mil palavras, pelo menos três citações com link real, ao menos uma tabela comparativa com quatro ou mais colunas, hierarquia de subtítulos clara, e passagens citáveis de quarenta a oitenta palavras. Copy persuasivo otimiza para conversão em mídia paga e é invisível para LLM. Artigo HBR ocupa zona produtiva: cita aceitável em LLM e converte razoável em mídia orgânica. Definição enciclopédica é o gênero de maior mention rate mas pior conversão imediata. Marca que decide entre os gêneros precisa decidir por canal e por função, não por gosto editorial. A estrutura de sete blocos é reproducível em duas a três horas por autor que domina o tema. Schema `Article` com author bem definido e `sameAs` válido multiplica o efeito do conteúdo bom.

Próximo módulo

A próxima e última aula da trilha entra no GEO regional: a tese da CNPJ-própria para marcas com pegada geográfica distribuída e a matriz N×categorias×cinco queries que separa quem aparece em buscas IA por cidade de quem fica invisível.

---

[^1]: Brasil GEO. Análise editorial: trezentos artigos em onze contas e correlação com mention rate em LLM. Operação interna, agosto 2025 a abril 2026.

[^2]: OpenAI. Best practices for content cited by ChatGPT. 2025. https://platform.openai.com/docs/guides/citations

[^3]: Google Search Central. Helpful content guidelines and E-E-A-T. 2024. https://developers.google.com/search/docs/fundamentals/creating-helpful-content

[^4]: Brown, Tom B. et al. Language Models are Few-Shot Learners. OpenAI, 2020. https://arxiv.org/abs/2005.14165

[^5]: Anthropic. Constitutional AI and citation behavior in production models. 2024. https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback