Indexación Basada en Frases: la opción real a las palabras clave LSI

TL/DR

Mucho se ha escrito y aún se escribe acerca de las palabras clave LSI, término calificado de mito, y que no figura como método de indexación en las patentes de Google, y que John Mueller ha negado que existan para Google.

Palabras clave LSI ¿qué utilizar en lugar de ellas?

Uno de los mitos en el Mundo SEO es que existe algo llamado LSI Keywords. Supuestamente, es necesario agregarlas a una página para que tenga un posicionamiento más alto para un término o frase en concreto.

Hay formas de buscar y generar estos términos o frases.

La verdad es que las palabras clave LSI son un mito. Según las patentes de Google, existen formas de encontrar términos y frases que se pueden agregar a una página para ayudarla a obtener una clasificación más alta para las palabras o frases que se está optimizando.

Esas no son y nunca se han llamado palabras clave LSI. La primera que se describe en las numerosas patentes de Google habla sobre indexación basada en frases (hay más de 20 en total). El segundo son los términos de dominio descritos en la patente de vectores de contexto de Google.

Palabras clave LSI en SEO

LSI es el acrónimo de Latent Semantic Indexing. Es un método de indexación ideado por investigadores de Bell Labs a fines de la década de 1980. Indexa pequeñas bases de datos estáticas al comprender las conexiones entre palabras en un corpus de documentos. Esos investigadores patentaron el proceso a fines de la década de 1980 y proporcionaron un ejemplo de indexación de ocho libros como una base de datos de muestra utilizando LSI. Los inventores no mencionaron palabras clave LSI ni sugirieron palabras clave LSI para optimizar un conjunto de datos para un término o frase específico. Ninguno de los inventores sugirió palabras clave LSI, y esas no estaban en la invención de LSI.

Algunos creadores de herramientas SEO y algunos SEOs (muchos para ser correctos y yo mismo en mis inicios) han escrito y todavía escriben sobre palabras clave LSI, que las ofrecen como formas de optimizar el contenido para términos y frases específicos al agregar estas palabras clave LSI al contenido, llegando incluso a afirmar que forman parte del algoritmo de indexación de Google.

No hay pruebas de que las palabras clave LSI puedan ayudar a optimizar cualquier contenido para palabras o frases particulares, y los creadores de herramientas de LSI apuntan a fuentes como las páginas de Wikipedia sobre LSI.

Los SEOs que sugieren la utilización de palabras clave LSI señalan una amplia gama de fuentes que, según ellos, son palabras clave LSI, pero muchas de esas fuentes generadores de esas «palabras clave LSI» no afirman que se deban agregar a los textos para optimizarlo mejor para ese término específico.

A continuación, te comparto algunas formas de encontrar esas supuestas palabras clave LSI, que solo ofrecen variaciones de palabras clave, no te brindan términos o frases que te ayuden a optimizar para esas palabras específicas.

  • Autocompletar de Google: estas son predicciones basadas en el autocompletado y posiblemente en el historial de búsqueda anterior de un buscador, no están destinadas a ayudar a optimizar el texto para términos específicos.
Autocompletar de Google
Autocompletar de Google
  • Términos en negrita en SERPs: cuando Google devuelve resultados de búsqueda para una consulta, mostrará en parte de los resultados de la búsqueda que están relacionados con la consulta que se utilizó, y lo hará resaltando los términos en negrita en los resultados de esas consultas. Eso proporciona al usuario los resultados de una búsqueda que están relacionados, pero no proporcionan nada como «Palabras clave LSI». Los motores de búsqueda se crearon para buscadores (tal que usuarios), no para SEOs, y la negrita ayuda a esos usuarios. Así, por ejemplo, al buscar «comidas españolas», en negrita vemos «comer en España»:
Términos en negrita en las SERPs
Términos en negrita en las SERPs
  • Refinamientos de consultas en la parte inferior de los resultados de búsqueda. Google a veces ofrece un conjunto de refinamientos de consultas al final de los resultados orgánicos que sugieren otras opciones que un usuario puede buscar, además de los términos de consulta originales. Estos refinamientos de consultas no se agregaron a una página sobre la consulta inicial para ayudar a que el contenido obtenga un mejor posicionamiento para esa consulta. Muchas patentes sobre refinamientos de consultas no mencionan la utilización de LSI, y nunca se usarían de esa manera. Nuevamente, no hay pruebas de que estas frases deban utilizarse de esa manera.
Refinamientos de consultas
Refinamientos de consultas

Google confirma que las LSI no existen

Haciendo una búsqueda rápida encontré más de 9.000 resultados en español relacionados con las LSI, algunos de ellos muy recientes, aconsejando cómo hacer una búsqueda, qué herramientas o métodos utilizar, y cómo implementar las LSI. Me llama la atención que esto todavía esté sobre la mesa después de que John Mueller en 2019 negase su existencia:

No existen las palabras clave LSI; cualquiera que le diga lo contrario está equivocado, lo siento.

fuente: @JohnMu 30 de julio de 2019

Dando una vuelta más de rosca, Bill Slawski en 2018 se cuestionó si Google utiliza las LSI. Después de analizar las patentes de Google, algo en lo que Bill se especializa, concluyo que:

Google está utilizando modelos de lenguaje más modernos.

Ha habido mucha investigación y mucho desarrollo de tecnología que puede funcionar con un conjunto de documentos del tamaño de la Web. Aprendimos de Google que están usando un enfoque de Word Vector desarrollado por el equipo de Google Brain, descrito en una patente otorgada en 2017.»

fuente: Bill Slawski en SEO by the Sea, 22 de enero de 2018

Aún así, en una patente de Google se menciona la LSI como un ejemplo de indexación, pero no como uno de sus métodos de indexación:

Las técnicas de clasificación de texto se pueden utilizar para clasificar el texto en una o más categorías de materias. La clasificación / categorización de textos es un área de investigación en las ciencias de la información que se ocupa de asignar texto a una o más categorías según su contenido. Las técnicas típicas de clasificación de texto se basan en clasificadores de Bayes, tf-idf, indexación semántica latente, máquinas de vectores de soporte y redes neuronales artificiales.

fuente: Classifying text into hierarchical categories, United States Patent: 8725732, 13 de mayo de 2014

¿Qué utilizar en lugar de palabras clave LSI

Si deseas optimizar una página para un término específico, existen formas de encontrar palabras que mejoran la forma en que una página se indexa y se clasifica mejor para los términos que desees.

Las Phrase-Based indexing, o indexación basada en frases significa agregar frases completas en las páginas que tienen un alto rango para una palabra o término específico y que con frecuencia coexisten en esas páginas. Un ejemplo es una página que se clasifica para la frase «exploración a Marte», que pueden coexistir en frases completas con «reparto», «Hollywood», «Matt Damon» para predecir de qué se trata esa página.

Como puedes ver en la siguiente imagen, el análisis utilizando la Natural Language AI de Google del párrafo anterior, Google entiende el foco de la frase, y lo enlaza con la fuente que le origen de la entidades representadas en el contenido

Ejemplo del análisis de Natural Language AI de Google
Ejemplo del análisis de Natural Language AI de Google

Las patentes de indexación basadas en frases comenzaron a ser publicadas por Google en 2004, y hay más de 20 patentes relacionadas sobre el tema, lo que significa que Google ha dedicado mucho esfuerzo a la indexación basada en frases. Aquí comparto alguna de ellas:

02/10/2006 – Phrase-based searching in an information retrieval system
05/19/2006 – Multiple index-based information retrieval system
12/29/2006 – Detecting spam documents in a phrase based information retrieval system
09/16/2008 – Automatic taxonomy generation in search results using phrases
03/15/2009 – Integrating External Related Phrase Information into a Phrase-based Indexing Information Retrieval System
04/07/2010 – Index server architecture using tiered and sharded phrase posting lists
08/05/2016 – Integrated external related phrase information into a phrase-based indexing information retrieval system

Otra patente de Google describe términos de dominio (no se refiere a dominio con su TLDs) en páginas que utilizan vectores de contexto para comprender mejor los términos a posicionar y se refiere a que muchos términos tienen más de un significado y utilizan otras fuentes como bases de conocimiento, como Wikipedia, para encontrar términos para comprender mejor qué significado se pretende dar a un término.

Uno de los ejemplos de la patente proporciona es la palabra “caballo. Ya que en inglés el término «horse» tiene múltiples significados y que no son los mismos en Español, utilizaré el término «potro» para seguir en la misma línea y poder ejemplificar el caso. Para un jinete , un «potro» es un animal. Para un gimnasta, un potro es un aparato para hacer un determinado tipo de ejercicio, mientras que en Argentina un «potro» es un hombre atractivo 🇦🇷 . Si se incluyen términos de dominio como «silla de montar», «estribos» y «cabalgar» en esa página, esas palabras ayudan al motor de búsqueda a comprender que la página trata sobre animales o caballos.

Agregar frases completas que coexisten en las páginas, que están indexadas en un índice basado en frases en la web, o agregar términos de dominio que Google también ha indexado para ayudar a definir los significados de los términos que tienen más de un significado, es una forma de agregar frases adicionales que pueden ayudar a que una página tenga una clasificación más alta en los resultados de búsqueda sin utilizar «palabras clave LSI».

NOTA: artículo basado en la publicación de Bill Slawski «What are LSI Keywords and What I Use Instead of Them?«

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Ir arriba