TF-IDF: Qué es y cómo te ayuda a tu SEO

Tabla de contenidos

¿Qué es el TF IDF?

El TF IDF (Term Frequency-Inverse Document Frequency), es un método estadístico utilizado para evaluar la importancia de una palabra (keyword) en un documento, que es parte de una colección o corpus. Es una de las técnicas más utilizadas en la recuperación de información y en el análisis de texto para SEO (Search Engine Optimization).

Si conoces un poco la historia de Google, sabrás que al inicio de su historia, el algoritmo que hoy en día es tan avanzado funcionaba de forma muy similar a cómo la fórmula TF IDF se utiliza para encontrar los documentos más relevantes para una keyword concreta.

Aunque desde hace tiempo, el optimizar textos en base a una única keyword ha perdido sentido, buscamos más entidades, sí es cierto, que hacer este tipo de optimizaciones de contenidos en base a TF IDF (relevancia de una palabra en el texto) nos puede ayudar entre otras cosas a:

  • Hacer nuestro contenido más amplio semánticamente, lo que a su vez ayudará a Google a entender mejor el contenido
  • Aportar más valor a nuestros usuarios, ya que ampliamos las respuestas y conocimiento del tema principal que buscaban

Ojo: optimizar demasiado los textos o incluir de forma abusiva palabras claves puede darle señales a Google de keyword stuffing y tener el efecto contrario al deseado que es captar más tráfico desde Google.

Fórmulas para calcular TF IDF

Vamos a darle un vistazo a las fórmulas utilizadas para conocer las métricas de TF e IDF de un documento en relación a una palabra clave.

TF

Es la frecuencia con la que aparece una palabra en un documento específico. Si un documento tiene 100 palabras y una palabra aparece 5 veces, su TF es 5/100 = 0.05.

IDF

Es el logaritmo de la división entre el número total de documentos en el corpus y el número de documentos en los que aparece el término. La idea es que las palabras que aparecen en muchos documentos no son buenas discriminadoras y deben tener menos peso.

Combinación TF-IDF

Utilizado en el campo de la recuperación de información y el procesamiento de lenguaje natural como una forma de ponderar y evaluar la relevancia de los términos en documentos dentro de un conjunto de documentos, y es una parte fundamental de muchos algoritmos de búsqueda y clasificación de textos.

Cómo optimizar el TF IDF para optimizar los contenidos de mi web

Lo primero que tenemos que hacer es encontrar las keywords más relevantes para optimizar nuestro contenido, una url en concreto, recuerda que sólo puede resolver una determinada intención de búsqueda.

Usar la fórmula de TF IDF para analizar los contenidos de la competencia para una determinada keyword nos da idea de cómo la competencia utiliza esa keyword, sus variantes, keywords o entidades relacionadas o la densidad media de aparición de esa keyword en los contenidos que mejor posicionan.

Herramientas para calcular el TF IDF

Pero para conocer la densidad de la keyword en el contenido de los competidores puedes hacerlo a mano, con las fórmulas que hemos visto antes y tardar 2 semanas analizando contenidos…jajaj O usar alguna de las herramientas que existen, te hablo una gratuita y otra de pago con la que analizar el TF IDF y hacerlo en 5 minutos.

Dinorank


La suite de herramientas de Dean Romero, que cada vez va ampliando sus funcionalidades y mejorando su interfaz, que al principio era más ruda, tiene entre otras muchas opciones la posibilidad de calcular el TF IDF de urls que queramos optimizar.

Una opción que me gusta mucho de la nueva versión de Dinorank es la posibilidad de omitir determinadas palabras en el análisis de TF IDF, de esta forma no ensuciamos el informe final, que a veces puede contener demasiadas kws que no tienen nada que ver con lo que queremos optimizar. Otra de las opciones a destacar de la tool de Dinorank es que podemos descargar el informe en csv y trabajar con él de forma local o integrarlo en otras herramientas, trabajarlo con Google Sheets, etc…

Seobility

Seobility es una suite de herramientas SEO todo en uno, que personalmente no he probado por completo, pero sí su mini herramienta gratuita de análisis de TF IDF que nos permite para una URL y una keyword en concreto, saber el nivel de optimización (en base a esta fórmula de TF IDF) de nuestro contenido con respecto a la competencia.

Esta herramienta gratuita está limitada en el número de usos 3 diarios (aunque imagino que podrías resetearlo cambiando de IP), y es muy sencilla de usar, basta introducir, la URL, el país y la keyword en base a la que queremos optimizar el contenido.



Aunque tienes la opción de configurar más opciones como Logaritmo (para calcular TF IDF y que la kw tenga más o menos peso), Dispositivo, Resultados de búsqueda (con los que comparará el contenido), Ciudad o Región…

Una vez hecha la petición obtendrás una tabla muy similar a esta (con las keywords que hayas pedido, claro), en la que podemos ver:

  • Media de la densidad de esa kw en el contenido de los competidores
  • Máximo número de apariciones de la kw en el contenido de los competidores
  • Y la densidad de la kw en nuestro propio contenido (URL que le hemos pasado) para comparar con la competencia

Retail Media: ¿Qué es y cómo funciona?

El «retail media» se refiere a la práctica en la que los minoristas utilizan sus sitios web, aplicaciones y otras plataformas digitales para vender oportunidades publicitarias a marcas y proveedores. Este modelo permite a las marcas aprovechar los datos de los clientes y el tráfico de los minoristas para dirigir

Screaming Frog

¿Qué es Screaming Frog? Screaming Frog es una herramienta de SEO (Search Engine Optimization) que se utiliza para analizar sitios web y proporcionar información detallada sobre diversos aspectos relacionados con la optimización para los motores de búsqueda. Esta herramienta es particularmente útil para webmasters, especialistas en SEO y profesionales de

TF-IDF: Qué es y cómo te ayuda a tu SEO

¿Qué es el TF IDF? El TF IDF (Term Frequency-Inverse Document Frequency), es un método estadístico utilizado para evaluar la importancia de una palabra (keyword) en un documento, que es parte de una colección o corpus. Es una de las técnicas más utilizadas en la recuperación de información y en