🤔 ¿Qué ocurre cuando un LLM «lee» tu web?
Los modelos de lenguaje como ChatGPT, Gemini o Claude no utilizan un buscador como Google, pero sí procesan enormes cantidades de contenido web. Y cuando encuentran páginas bien estructuradas, pueden:
- Identificar las secciones clave (título, autor, fecha…)
- Extraer valores específicos como precios, pasos, fechas o ubicaciones
- Relacionar tu contenido con otras fuentes y entidades
- Decidir si citarte como fuente confiable en una respuesta
El marcado semántico ayuda a los LLMs a entender qué es qué, sin tener que adivinarlo por el contexto.
🧩 ¿Qué partes del Schema entienden?
Aunque cada modelo tiene sus límites, la mayoría de LLMs puede identificar elementos comunes de un Schema como:
@type
→ qué tipo de contenido es (Product, Article, Person…)name
,description
→ título y resumenoffers
,price
,availability
→ datos comercialesreview
,ratingValue
→ valoraciones y reseñasauthor
,publisher
→ atribucionesfaq
,howToStep
,recipeIngredient
→ estructura útil
🧪 Ejemplo
Un Article
con este marcado:
jsonCopiarEditar{
"@context": "https://schema.org",
"@type": "Article",
"headline": "Cómo hacer pan sin levadura",
"author": { "@type": "Person", "name": "Mario Gómez" },
"datePublished": "2023-04-01"
}
👉 Permite que un LLM entienda que:
- Es un artículo
- Su tema es “hacer pan sin levadura”
- El autor es Mario Gómez
- Es contenido reciente y confiable
🔎 Detección de patrones
Los LLMs no solo entienden el Schema si lo encuentran en JSON-LD. También pueden:
- Extraer información semántica aunque no esté marcada (pero con más errores)
- Reconocer patrones similares entre webs
- Favorecer páginas con estructura clara y coherente
- Clasificar entidades para preguntas del usuario: ¿Quién lo escribió? ¿Cuánto cuesta? ¿Dónde está?
🧠 ¿Cómo deciden si usar tu contenido?
Los modelos de lenguaje deciden si usar tu contenido basándose en:
Factor | Influencia |
---|---|
Claridad del marcado | ✅ Alta |
Relevancia semántica | ✅ Alta |
Actualidad y fechas visibles | ✅ Alta |
Confiabilidad (estructura, autoría, contacto) | ✅ Alta |
Presencia en otras fuentes (citado o enlazado) | ✅ Media |
Lenguaje natural y directo | ✅ Alta |
💡 Si tu contenido está mal estructurado o desorganizado, el modelo puede ignorarlo o preferir otras fuentes mejor marcadas.
🔐 Bonus: ¿Y si el contenido está bloqueado?
Si tu web usa encabezados como:
txtCopiarEditarUser-agent: GPTBot
Disallow: /
O no permite la recolección por parte de bots de IA, no será visible para los modelos como ChatGPT.
Esto es bueno si no quieres aparecer, pero perjudicial si tu objetivo es posicionarte en respuestas generadas.
✅ Para permitirlo, se recomienda añadir llms.txt
y no bloquear a los bots de IA si quieres aprovechar el SEO conversacional. (Lo veremos en detalle más adelante).
🛠️ Actividad final del módulo
- Busca en tu web una página relevante (post, servicio, receta, curso…)
- Analiza si tiene ya algún tipo de marcado
- Piensa cómo puedes enriquecerlo con más atributos
- Pruébalo en el test de Rich Results de Google
- Redacta una versión «explicable» del contenido para IA → claro, limpio, directo
🧭 Cierre del Módulo 1
Ya entiendes:
- Qué es el marcado semántico
- Cómo ayuda al SEO clásico y al SEO conversacional
- Por qué es clave para destacar en buscadores y LLMs
- Cómo los modelos de IA procesan tu contenido marcado