Anotación Central: cómo Google contenido principal de la página

TL/TR

Google tiene una anotación central (entre otras) para examinar el contenido semántico y el árbol de diseño utilizando el procesamiento de lenguaje, así Google puede identificar que una página trata sobre el tema A, para luego identificar el contenido complementario frente al contenido principal, texto repetitivo, etc. para ponderarlos de manera diferente.

Martin Splitt de Google explicó el concepto de anotación central, un término utilizado en Google para definir el contenido principal de una página o sitio, y cuyo término original en Inglés es «centerpiece annotation». Splitt afirmó que pueden entender que el tema principal de una página está en A y que el resto del contenido de esa página podría no ser el contenido principal. Entonces, Google sopesará el contenido de manera diferente en función de eso, dijo Splitt.

La detección de esta «centerpiece annotation» y su extracción del resto del contenido, se realiza mediante el procesamiento de lenguaje natural.

Splitt afirmó esto en el minuto 28:50 en este seminario web de Duda, esto es lo que dijo Martin:

No sé qué hemos dicho públicamente sobre esto, pero creo que lo mencioné en uno de los episodios del podcast, por lo que probablemente pueda decir que tenemos una cosa llamada anotación de la pieza central, por ejemplo, y hay algunas otras anotaciones que tenemos. . Donde miramos el contenido semántico, así como potencialmente el árbol de diseño.

Pero, fundamentalmente, podemos leer eso de la estructura de contenido en HTML, y descubrirlo, oh, esto se parece, por todo el procesamiento de lenguaje natural que hicimos en todo este contenido que obtuvimmos aquí, parece que esto es principalmente sobre el tema A, comida para perros. Y luego hay otra cosa aquí que parece ser un enlace a productos relacionados, pero en realidad no es parte de la pieza central, no es realmente el contenido principal, esto parece ser material adicional. Y luego hay un montón de codad extras, así que nos dimos cuenta de que el menú se ve más o menos igual en todas estas páginas y esto se parece mucho al menú que tenemos en todas las otras páginas o de este de este dominio, por ejemplo, o hemos visto esto antes.

Ni siquiera vamos por el dominio o como, oh, esto parece un menú! Descubrimos lo que parece un texto estándar y luego eso también se pondera de manera diferente. Entonces, si tiene contenido en una página que no está relacionado con el tema principal del resto del contenido, es posible que no le demos tanta consideración como se cree. Todavía usamos esa información para descubrir enlaces y averiguar la estructura de un sitio y todo eso. Pero si una página tiene 10,000 palabras sobre comida para perros y luego 3,000, o 2,000 o 1,000 palabras sobre bicicletas, entonces probablemente este no sea un buen contenido para bicicletas.

Aquí está la inserción:

Sí, Splitt mencionó esto brevemente en el el episodio del 27 de mayo, donde dijo: «Una pregunta que a menudo también recibo con JavaScript es si tratamos el contenido de JavaScript de manera diferente. Tenemos anotaciones para el contenido, lo que pensamos que es la pieza central de un artículo o lo que creemos que es el contenido al margen y esas cosas. «

Glenn Gabe resumió esto en Twitter como diciendo «Google tiene una anotación central (y otras). Observa el contenido semántico y el árbol de diseño. Desde NLP, G puede identificar que una página trata sobre el tema X, luego ID contenido complementario frente al contenido principal, texto repetitivo, etc. Google los pondera de forma diferente «.

Discusión completa en Twitter.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Anotación Central: cómo Google contenido principal de la página

Ir arriba