Aula 02

Autoridade autoral em LLM: por que cinco sameAs canônicos vencem cinquenta sameAs poluídos

Abertura: o autor que aparecia em cinquenta perfis e não era reconhecido em nenhum LLM

Em janeiro de 2026 a Brasil GEO auditou um consultor brasileiro de luxo que publicava semanalmente artigos sobre joalheria fina em três blogs, dois portais setoriais e um substack próprio. Volume textual cumulativo: cerca de 280 mil palavras assinadas em três anos. Mention rate dele como autor identificável em ChatGPT 4o ao prompt "especialista em joalheria fina brasileira": zero. Em Perplexity Sonar Pro: zero. Em Claude 3.5 Sonnet: uma menção secundária a um único artigo sem associar autoria. O paradoxo: o consultor era citado por entidade. As publicações dele eram referenciadas como fontes ("um artigo do portal X" ou "uma publicação no Substack Y") — mas a pessoa, como autor canônico, não existia para os LLMs.

A causa técnica era estrutural. O consultor tinha cinquenta menções `sameAs` espalhadas em diferentes esquemas: perfil LinkedIn, dois Twitter (um pessoal, um profissional), três Substacks distintos (criados em três tentativas de marca pessoal), um GitHub abandonado, dois Medium (um pessoal, um da agência), um Behance (deslocado da especialidade), um Pinterest (consumidor), perfis em quatro plataformas brasileiras de portfólio (uma desativada), e mais 35 referências cruzadas em sites de eventos, podcasts, palestras. O Knowledge Graph do Google conseguia agregar parte, mas o LLM, ao tentar triangular "quem é essa pessoa", encontrava ruído. Cada `sameAs` apontava para um perfil que tinha outro `sameAs` apontando para outro perfil, em loop sem âncora canônica. O classificador interno tratava como entidade não-resolvida.

Em paralelo, a Brasil GEO opera o caso oposto. Alexandre Caramaschi, CEO da Brasil GEO, mantém em alexandrecaramaschi.com schema `Person` consolidado com 13 `sameAs` cuidadosamente curados — Wikidata Q973, LinkedIn corporativo único, GitHub identificado, Substack profissional único, dois perfis acadêmicos (ORCID + Lattes equivalente), dois perfis de empresa (Brasil GEO + AI Brasil), Wikipedia (quando aplicável), e quatro perfis institucionais reconhecidos. Cada `sameAs` aponta para fonte com volume editorial verificável e cada uma cita de volta a página canônica. O resultado mensurado: mention rate como autor identificável em ChatGPT 4o ao prompt "CEO Brasil GEO" é 100% (10 em 10 execuções), em Perplexity 100%, em Claude 90%. A entidade existe, é triangulável e citável.

Esta aula é sobre por que o LLM identifica "quem escreveu" via consistência de `sameAs` cruzados em volume baixo, e por que a estratégia comum de espalhar perfis em 50 plataformas para "estar presente em tudo" produz resultado oposto — entidade fragmentada, autor não-reconhecido, autoridade autoral zero.

Tese contraintuitiva

Cinco `sameAs` canônicos consistentes vencem cinquenta `sameAs` poluídos. O Knowledge Graph e os LLMs triangulam identidade autoral por co-citação cruzada — não por listagem. Cada `sameAs` precisa ser referente único (uma identidade por plataforma), apontar para perfil com volume editorial verificável e ser citado de volta pela página canônica em ciclo bidirecional. Cinquenta perfis dispersos sem essa disciplina geram unmatched entity. Cinco perfis disciplinados geram autor canônico identificável em todos os LLMs comerciais.

Objetivos de aprendizagem

Ao final desta aula, o leitor será capaz de:

  • Diferenciar schema `Person` autoral de schema `Organization` corporativo e identificar quando combinar com `Author` e `ProfessionalService`.
  • Avaliar a consistência atual dos `sameAs` da marca/autor (auditoria de poluição, perfis duplicados, perfis órfãos).
  • Construir schema `Person` canônico com mínimo cinco e máximo treze `sameAs` curados, todos com bidirecionalidade verificada.
  • Implementar combinação coordenada `Person` (autor) + `Author` (em `BlogPosting`) + `ProfessionalService` (atividade comercial) em JSON-LD único.
  • Operar rotina semestral de revisão de `sameAs` para detectar perfis depreciados ou poluição introduzida.

Fundamentação

A diferença entre Person, Author e ProfessionalService em Schema.org

Schema.org separa três entidades que, em joalheria, são frequentemente colapsadas em uma só ficha. `Person` é a entidade humana — alguém com nome próprio, biografia, formação, identificadores externos. `Author` é o papel funcional desempenhado por uma `Person` no contexto de uma peça de conteúdo (artigo, post, livro). `ProfessionalService` é a entidade comercial sob a qual a `Person` opera (consultoria, joalheria autoral, escritório). As três são distintas, mas operacionalmente combinadas no mesmo nó JSON-LD da página canônica.

A convenção emergente em sites de autoridade autoral em 2026 é declarar `Person` como entidade primária no `@graph`, com `sameAs` apontando para identificadores externos curados, e referenciar essa `Person` como `author` em `BlogPosting` (cada peça de conteúdo) e como `founder` ou `employee` em `ProfessionalService` (atividade comercial). A coerência de identificação cruzada — mesmo `@id` reutilizado — sinaliza ao crawler que se trata da mesma entidade em três papéis distintos, não de três entidades.

OpenAI, em paper de 2023 sobre instruction-tuned models e knowledge graphs, descreveu o fenômeno: modelos que recebem dados estruturados consistentes em treinamento desenvolvem capacidade de resolver entidade autoral por co-citação. Quando autor X aparece como `author` em três blogs distintos, mas todos os três blogs declaram o mesmo `Person` canônico via `@id` ou URL único, o modelo trata X como entidade única identificável. Quando os três blogs declaram `author` apenas como string (`"author": "X"` sem schema), o modelo trata como três entidades separadas que coincidem no nome.

Os sete identificadores canônicos para autor de conteúdo profissional

A análise Brasil GEO em maio de 2026, sobre 60 autores brasileiros de conteúdo profissional em LLMs, identificou sete identificadores que, quando declarados consistentemente como `sameAs`, sustentam reconhecimento autoral em ChatGPT, Perplexity e Claude. O primeiro é Wikidata: identificador estruturado, base de Knowledge Graph, propaga para todo LLM que treina em Wikidata dump. O segundo é LinkedIn (perfil único, profissional, com volume editorial verificável). O terceiro é ORCID (universal acadêmico, reconhecido como identificador autoral primário em corpus científico). O quarto é GitHub (sinaliza identidade técnica e tem alta densidade em corpus de treinamento). O quinto é Substack profissional único (volume editorial estruturado e timestamp verificável). O sexto é o site canônico próprio (alexandrecaramaschi.com no caso paradigmático). O sétimo é Wikipedia, quando há entrada notável.

Identificadores complementares que reforçam mas não substituem: Twitter/X (com cautela — perfil ativo, não abandonado), Medium (se for veículo principal), Behance (se for atividade visual relevante), perfil em plataforma acadêmica brasileira (Lattes equivalente), e identificador institucional (alumniOf, employer canônico). A regra prática é: até treze `sameAs`, todos com bidirecionalidade verificada (cada perfil cita de volta a página canônica). Acima de treze, retorno marginal cai e risco de poluição cresce.

O caso alexandrecaramaschi.com como referência de autoridade autoral

Alexandre Caramaschi mantém em alexandrecaramaschi.com schema `Person` consolidado, em base canônica `src/lib/schemas/person-alexandre.ts` reutilizada por cinco páginas via spread `...alexandrePersonBase`. O schema declara 38 termos em `knowsAbout` (curados em torno de Generative Engine Optimization, marketing semântico, knowledge graphs, LLM citation, schema markup, e temas adjacentes), 13 `sameAs` curados (Wikidata Q973, LinkedIn alexandrecaramaschi, GitHub, Substack profissional, perfil Brasil GEO, perfil AI Brasil, Wikipedia.pt quando aplicável, ORCID, e quatro perfis institucionais), 3 `alumniOf` (formação acadêmica verificável), e 2 `hasCredential` (credenciais estruturadas).

Cada `sameAs` foi validado em três passos. Primeiro, verificação de bidirecionalidade: o perfil LinkedIn inclui link para alexandrecaramaschi.com como site, o perfil GitHub idem, o Wikidata Q973 cita alexandrecaramaschi.com como `official website` (P856). Segundo, verificação de unicidade: cada plataforma tem um único perfil correspondente; perfis legados, contas teste e duplicações foram desativados ou removidos antes de declarar. Terceiro, verificação de volume editorial: cada perfil tem mínimo de três posts editoriais com data verificável nos últimos doze meses, sinalizando atividade real.

O resultado, medido em ciclo abril-maio 2026 com 25 prompts canônicos sobre Generative Engine Optimization e marketing semântico em ChatGPT 4o, Perplexity Sonar Pro e Claude 3.5 Sonnet: identificação autoral em 91% das respostas (10 em 10 em ChatGPT, 9 em 10 em Perplexity, 9 em 10 em Claude). Em prompt B2B corporativo via Copilot M365: identificação autoral em 7 em 10 respostas — gap parcialmente explicado por menor cobertura de Microsoft Graph no recorte brasileiro mas ainda assim reconhecimento robusto.

Mecanismo: triangulação de entidade por co-citação cruzada

O Knowledge Graph do Google e os LLMs comerciais não tratam `sameAs` como lista — tratam como grafo. Cada `sameAs` declarado é uma aresta direcionada que aponta de entidade local para entidade externa. Quando a entidade externa cita de volta (perfil LinkedIn linkando para alexandrecaramaschi.com como `personalWebsite`), forma-se aresta bidirecional. Bidirecionalidade é o sinal forte. Lista unilateral é sinal fraco.

A triangulação acontece quando três ou mais perfis externos citam o mesmo perfil canônico, e o perfil canônico cita os três de volta via `sameAs`. O grafo resultante tem padrão estrela — entidade canônica no centro, identificadores externos nas pontas, cada um com aresta bidirecional. Esse padrão é interpretado pelo modelo como entidade resolvida com alta confiança. O modelo, ao receber prompt sobre o tema da especialidade, retorna a entidade canônica como autor identificável.

Quando as arestas são unilaterais (perfil canônico declara `sameAs` mas perfis externos não citam de volta), o modelo trata como entidade não-resolvida ou parcialmente resolvida. Quando há múltiplas entidades canônicas competindo (autor com três Substacks ativos, dois LinkedIn, dois GitHub), o modelo trata como entidade fragmentada e responde com nome próprio mas sem associar autoria a nenhum perfil específico — ou pior, mistura sinais de múltiplos perfis em resposta.

A pegadinha clássica é declarar `sameAs` apontando para perfil Twitter/X de outra pessoa por engano. Em janeiro de 2026, em auditoria interna Brasil GEO, um consultor descobriu que seu schema `Person` apontava `sameAs` para um perfil Twitter homônimo (mesmo nome, outra pessoa). A poluição introduziu unmatched entity em Knowledge Graph e o LLM passou a misturar sinais dos dois homônimos. Correção exigiu remover o `sameAs` errado, esperar 90 dias para reindexação e validar via 25 prompts canônicos.

Caso secundário: o autor que reduziu de 50 para 7 sameAs e dobrou identificação autoral

Um curador de joalheria fina brasileira, em outubro de 2025, tinha schema `Person` com 50 `sameAs` declarados em sua página de autor no Substack principal. Cobertura de identificação autoral em ChatGPT 4o ao prompt "curador brasileiro de joalheria fina": 24%. A análise Brasil GEO mostrou que dos 50 `sameAs`, 22 apontavam para perfis abandonados (sem post nos últimos 24 meses), 14 apontavam para perfis com homônimos não-resolvidos, 8 apontavam para perfis em plataformas com baixo volume editorial (Pinterest, Behance, plataformas regionais), e 6 apontavam para perfis ativos verificáveis. O curador decidiu reduzir.

A operação foi cirúrgica. Removeu 43 `sameAs` (perfis abandonados, homônimos, plataformas marginais). Manteve 7 `sameAs` curados: Wikidata (criado novo via edição anônima na API), LinkedIn profissional único, ORCID novo (registro acadêmico aceito sem requisito doutorado), Substack principal, site próprio profissional, Instagram com nome único e volume editorial, e perfil em plataforma curatorial reconhecida. Validou bidirecionalidade em cada um. Esperou ciclo de 90 dias para reindexação. No quarto mês após a redução, mention rate de identificação autoral subiu para 47% (quase dobro do baseline). No sexto mês, estabilizou em 51%. Custo total: aproximadamente quatro horas de auditoria + tempo de remoção e atualização de perfis. Retorno: autor reconhecido como entidade canônica, com convites para palestras e participações em painéis vindos de leitores de LLM que viram a citação direta.

Tabela comparativa: schema Person + Author + ProfessionalService — quando cada um aparece

Tipo de páginaPerson canônicoAuthor (em BlogPosting)ProfessionalServiceObservação técnica
Página biográfica autorEntidade primária com `@id`Não aplicávelReferenciado como `worksFor``@id` reutilizado em outras pages
Post de blog autoralReferenciado por `@id`Schema próprio, `Person` linkadoNão aplicávelAuthor = Person via `@id`
Página de serviço profissionalReferenciado como `founder`Não aplicávelEntidade primáriaServiço cita Person canônico
Página institucional empresaPode aparecer como `employee`Não aplicávelPode coexistir como `parentOrganization`Hierarquia clara obrigatória
Página de press kitEntidade secundária com `@id`Não aplicávelEntidade primáriaCross-link bidirecional
Listagem de artigosNão aplicável (é meta-page)Múltiplos Authors via `BlogPosting[]`Não aplicávelSchema `CollectionPage`
Curriculum/CV públicoEntidade primária expandidaNão aplicávelVários como `worksFor` listaSchema `Person` rico

Tabela comparativa: nível de poluição em sameAs por padrão observado

Padrão observadoRisco para identificaçãoSinal ao LLMRecomendaçãoTempo de correçãoCusto de correção
5-13 sameAs todos bidirecionaisMínimoEntidade canônica resolvidaManter e revisar semestralmenteOngoingBaixo (4h/semestre)
5-13 sameAs unilateraisMédio-baixoEntidade parcialmente resolvidaVerificar e corrigir bidirecionalidade30-60 diasBaixo
14-30 sameAs misturadosMédio-altoEntidade fragmentadaReduzir e curar90 diasMédio
30+ sameAs com perfis abandonadosAltoUnmatched entityAuditoria completa e redução agressiva90-180 diasMédio-alto
sameAs apontando para homônimoCríticoCross-contaminationRemoção imediata e revalidação90 diasMédio (engenharia + monitoramento)
Múltiplos perfis ativos por plataformaCríticoEntidade divididaConsolidar em perfil único60-180 diasAlto (perda histórico se mal feito)

Pegadinhas operacionais

A primeira pegadinha é declarar `sameAs` em formato string sem URL absoluta. Schema.org exige URL absoluta verificável. Strings ou paths relativos são ignorados pelo crawler.

A segunda é manter perfil legado abandonado como `sameAs` por nostalgia. Perfil sem post nos últimos 12 meses é ruído. Remover ou reativar — não há terceira via.

A terceira é confundir `Person.sameAs` com `Organization.sameAs`. Cada entidade tem seu próprio `sameAs`. Pessoa cita seus identificadores; empresa cita os dela. Misturar (declarar Wikidata da pessoa em `sameAs` da empresa) gera unmatched entity.

A quarta é não verificar bidirecionalidade. Declarar `sameAs` apontando para LinkedIn é fraco; o forte é o LinkedIn citar de volta o site canônico via campo "Website" do perfil. Auditoria semestral confirma cada bidirecionalidade.

A quinta é declarar `sameAs` apontando para perfil de homônimo. Erro humano comum em homônimos brasileiros (nomes frequentes). Validação é fácil mas precisa ser explícita: abrir cada perfil declarado, confirmar que é a mesma pessoa, registrar evidência.

Exercícios

Exercício 1 — Auditoria de sameAs do autor canônico da marca. Cenário: a marca tem autor principal (fundador, mestre joalheiro, curador) e quer leitura realista da poluição atual em `sameAs`. Tarefa: identifique o autor canônico. Liste todos os perfis públicos dessa pessoa em todas as plataformas conhecidas (LinkedIn, Twitter/X, GitHub, Substack, Medium, Wikidata, Wikipedia, ORCID, Lattes equivalente, Instagram, Behance, Pinterest, plataformas regionais). Para cada perfil, registre: URL, data de último post, volume editorial (posts/mês), bidirecionalidade verificada (sim/não), homônimo confirmado (sim/não). Classifique cada perfil em "manter", "remover" ou "reativar" e produza shortlist de 5-13 `sameAs` finais. Critério: a auditoria está completa quando há tabela auditada com decisão por perfil e shortlist final de 5-13 entradas validadas. Tempo estimado: cento e oitenta a duzentos e quarenta minutos. Output esperado: shortlist canônica de `sameAs` pronta para implementação técnica.

Exercício 2 — Implementação de schema Person + Author + ProfessionalService combinados. Cenário: a marca quer estabelecer schema autoral consolidado em um único arquivo reutilizável. Tarefa: crie arquivo `src/lib/schemas/person-[autor].ts` com schema `Person` canônico, mínimo cinco `sameAs` curados, `knowsAbout` com 15-30 termos da especialidade, `alumniOf` quando verificável, `hasCredential` quando aplicável. Em cinco páginas-âncora da marca (biografia, sobre, lista de posts, página de serviço, press kit), referencie a entidade `Person` via `@id` reutilizado. Em posts de blog autorais, referencie a `Person` como `author` em `BlogPosting`. Em página de serviço profissional, referencie como `founder` em `ProfessionalService`. Valide via Schema.org validator e Google Rich Results Test. Critério: a implementação está pronta quando arquivo schema consolidado existe, cinco páginas referenciam consistentemente, e validações Schema.org passam. Tempo estimado: cento e cinquenta a duzentos e dez minutos. Output esperado: schema em produção com validação técnica e snapshot Git.

Exercício 3 — Plano de monitoramento semestral de bidirecionalidade. Cenário: a marca implementou schema autoral e quer rotina sustentável para detectar poluição introduzida ou perfil que perde bidirecionalidade. Tarefa: defina ciclo semestral com cinco passos. Primeiro, verificação automatizada (script ou serviço) que abre cada `sameAs` declarado e confirma que o perfil cita de volta o site canônico. Segundo, verificação manual de homônimo (15 minutos por perfil). Terceiro, validação de volume editorial (mínimo três posts em últimos 12 meses por perfil). Quarto, atualização do schema removendo perfis problemáticos e adicionando perfis novos qualificados. Quinto, validação de mention rate via 25 prompts canônicos para confirmar que identificação autoral se manteve ou cresceu. Atribua responsabilidade nominal e cadência. Critério: o plano está completo quando há documento de cinco passos, responsável nominal, cadência semestral e métrica de gatilho para revisão emergencial. Tempo estimado: noventa a cento e cinquenta minutos. Output esperado: runbook semestral assinado pelo responsável editorial e técnico.

Síntese executiva

Autoridade autoral em LLM 2026 não é função de volume de presença, mas de consistência de identificação. Knowledge Graph e LLMs comerciais triangulam autor por co-citação cruzada — cada `sameAs` declarado é aresta direcionada que precisa ter bidirecionalidade verificável, perfil único por plataforma e volume editorial real nos últimos doze meses. Cinco `sameAs` canônicos curados vencem cinquenta `sameAs` poluídos. O caso paradigmático alexandrecaramaschi.com (Wikidata Q973, 13 `sameAs` curados, schema `Person` reutilizado em cinco páginas via base canônica) atinge identificação autoral em 91% das respostas dos três LLMs principais. O caso oposto — autor com 50 perfis dispersos em três Substacks, dois LinkedIn, dois GitHub e múltiplas plataformas marginais — atinge zero identificação autoral. A diferença é disciplina, não volume. Marca que investe em curadoria de cinco a treze identificadores e mantém rotina semestral de bidirecionalidade conquista presença autoral citável e sustentada. Marca que espalha conteúdo em cinquenta perfis sem disciplina paga em fragmentação a tentativa de "estar em tudo".

Próximo módulo

A próxima aula entra em terreno operacional pós-edição: como monitorar entrada da marca em Wikipedia.pt depois de criada (cf. Sprint 8 Wave EE), via diff RSS e Wikidata Recent Changes API, com gatilho contra revert hostil e protocolo defensivo de adicionar fontes secundárias em vez de revert war. A tese contraintuitiva: edição Wikipedia.pt sobrevive 30 dias se tem três fontes secundárias independentes — sem isso, dura 7-14 dias antes de revert por patrol.

---

[^1]: Schema.org. Person — Properties, including sameAs, knowsAbout, alumniOf. 2024-2026. https://schema.org/Person

[^2]: Schema.org. Author — Property and BlogPosting integration. 2024-2026. https://schema.org/author

[^3]: Vrandečić, Denny e Krötzsch, Markus. Wikidata: A Free Collaborative Knowledgebase. Communications of the ACM, 2014. https://doi.org/10.1145/2629489

[^4]: Ouyang, Long et al. Training Language Models to Follow Instructions with Human Feedback. OpenAI, NeurIPS 2022. https://arxiv.org/abs/2203.02155

[^5]: Brasil GEO. Mention Rate Dashboard — Identificação autoral em ChatGPT, Perplexity e Claude, recorte autores brasileiros de joalheria, ciclo abril-maio 2026. Relatório interno.