Lección 1.4 Cómo interpretan los LLMs el contenido estructurado

🤔 ¿Qué ocurre cuando un LLM «lee» tu web?

Los modelos de lenguaje como ChatGPT, Gemini o Claude no utilizan un buscador como Google, pero sí procesan enormes cantidades de contenido web. Y cuando encuentran páginas bien estructuradas, pueden:

Identificar las secciones clave (título, autor, fecha…)
Extraer valores específicos como precios, pasos, fechas o ubicaciones
Relacionar tu contenido con otras fuentes y entidades
Decidir si citarte como fuente confiable en una respuesta

El marcado semántico ayuda a los LLMs a entender qué es qué, sin tener que adivinarlo por el contexto.

🧩 ¿Qué partes del Schema entienden?

Aunque cada modelo tiene sus límites, la mayoría de LLMs puede identificar elementos comunes de un Schema como:

@type → qué tipo de contenido es (Product, Article, Person…)
name, description → título y resumen
offers, price, availability → datos comerciales
review, ratingValue → valoraciones y reseñas
author, publisher → atribuciones
faq, howToStep, recipeIngredient → estructura útil

🧪 Ejemplo
Un Article con este marcado:

jsonCopiarEditar{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Cómo hacer pan sin levadura",
  "author": { "@type": "Person", "name": "Mario Gómez" },
  "datePublished": "2023-04-01"
}

👉 Permite que un LLM entienda que:

Es un artículo
Su tema es “hacer pan sin levadura”
El autor es Mario Gómez
Es contenido reciente y confiable

🔎 Detección de patrones

Los LLMs no solo entienden el Schema si lo encuentran en JSON-LD. También pueden:

Extraer información semántica aunque no esté marcada (pero con más errores)
Reconocer patrones similares entre webs
Favorecer páginas con estructura clara y coherente
Clasificar entidades para preguntas del usuario: ¿Quién lo escribió? ¿Cuánto cuesta? ¿Dónde está?

🧠 ¿Cómo deciden si usar tu contenido?

Los modelos de lenguaje deciden si usar tu contenido basándose en:

Factor	Influencia
Claridad del marcado	✅ Alta
Relevancia semántica	✅ Alta
Actualidad y fechas visibles	✅ Alta
Confiabilidad (estructura, autoría, contacto)	✅ Alta
Presencia en otras fuentes (citado o enlazado)	✅ Media
Lenguaje natural y directo	✅ Alta

💡 Si tu contenido está mal estructurado o desorganizado, el modelo puede ignorarlo o preferir otras fuentes mejor marcadas.

🔐 Bonus: ¿Y si el contenido está bloqueado?

Si tu web usa encabezados como:

txtCopiarEditarUser-agent: GPTBot
Disallow: /

O no permite la recolección por parte de bots de IA, no será visible para los modelos como ChatGPT.
Esto es bueno si no quieres aparecer, pero perjudicial si tu objetivo es posicionarte en respuestas generadas.

✅ Para permitirlo, se recomienda añadir llms.txt y no bloquear a los bots de IA si quieres aprovechar el SEO conversacional. (Lo veremos en detalle más adelante).