
Este artículo puede ser interesante para comprender cómo Google indexa las páginas web utilizando el texto de anclaje.
En la comunidad SEO se ha hablado mucho sobre la utilización de los textos de anclaje en los links tanto internos como externos, como un valor factor seguro que se puede utilizar para mejorar el ranking orgánico.
Los enlaces tanto internos como externos son utilizados por los motores de búsqueda para descubrir nuevas páginas y encontrar contenido.
El archivo sitemap de una web sirve para ayudar en este proceso a los motores de búsqueda, sin embargo, estos serían capaces de descubrir el contenido de una web a través de los enlaces que se encuentran en otras páginas web.
El peso de un enlace está ligado al PageRank de una página web, sin embargo, cuando Google decidió no mostrar el PR, esta métrica la “heredó” el DA y PA de Moz como mayor fuente confiable.
El puntaje otorgado (PR) a una página en particular puede ayudar a determinar las tasas y las prioridades de rastreo.
La gestión del perfil de enlaces puede traer en muchos casos mejoras del ranking de categorías de una tienda online o blog o mejoras del ranking de productos o artículos individuales.
Dentro de una estrategia de enlaces, siempre se ha tenido muy en cuenta el texto de anclaje de los links, por eso hoy me gustaría profundizar más en este tema aprovechando una nueva patente de google.
A veces se puede llegar a comprobar como se produce una sobre optimización del texto ancla del enlace pudiendo ser peligroso y jugarse una posible penalización del algoritmo.
También he visto que esta sobre optimización del texto de anclaje a veces ocurre sin que el webmaster sea muy consciente, como puede ocurrir con algunos diseñadores web cuando ponen en el footer de una página web creada por ellos, su nombre de marca .
Actualmente podemos encontrar herramientas de SEO que te indican como distribuir los textos de anclaje de los links externos e internos y como no sobre optimizar los textos ancla.
Otro tema que ha hecho que investigue más sobre esta parte del SEO ha sido un comentario que ha realizado esta semana John Muller de Google en twitter sobre las “páginas web de baja calidad” que te puedan enlazar.
Ha sido algo curioso, ya que en la comunidad SEO “siempre” se ha dicho que hay que llevar cuidado con:
- enlazar ( tu) a páginas externas nuevas o de baja autoridad
- que te enlacen ( a ti) páginas web nuevas o de baja autoridad
A la baja autoridad de una web, me refiero al DA que la herramienta de Moz otorga a una página web.
Este es el tweet de John Muller al que me refiero
Una respuesta al menos curiosa y que da pie a investigar sobre el tema.
En este mismo hilo de twitter hay algún comentario del tipo:
Esto es lo que está mal con la industria de SEO. Muchos propietarios de sitios web permiten que las métricas de terceros hagan su pensamiento por ellos. Lo hacen porque la industria de SEO les dijo que hicieran eso, a pesar de que es estúpido e ineficaz, incluso auto-Harming en algunos casos.
Aquí hay otra captura de este hilo de SEO que también ha hecho que profundice en el tema de la confiabilidad de las herramientas de SEO y sus sistemas para determinar la calidad de la información.
¿Tal vez sea un mito de SEO eso de que vincular a sitios de baja autoridad es perjudicial?
Tal vez solo debamos considerar que si el contenido es lo suficientemente bueno como para hacer referencia a él, se puede enlazar, sin pensar en su DA.
Otra respuesta interesante sobre el PageRank que se ha dado aquí es esta:
El PageRank nunca fue pensado para ser usado para decidir a quién vincular o recibir enlaces.
Cómo Google encuentra tu aguja (web) en el gran pajar de Internet
Indización de etiquetas de anclaje en un sistema de rastreador web
Vamos a comprobar lo que dice sobre los textos de anclaje de los links esta patente de google
Ha sido otorgada: 19 de febrero de 2019
Esta patente es de interés ya que uno de sus inventores, Jeffrey Dean es el jefe del Google Brain Team.
- Se proporciona un método y un sistema para indexar documentos en una colección de documentos vinculados.
- Se accede a un registro de enlaces, que incluye una o más combinaciones de documentos de origen y documentos de destino.
- Se genera un mapa de anclaje ordenado, que contiene uno o más documentos de destino para emparejar documentos de origen.
- Los emparejamientos en el mapa de anclaje ordenado se ordenan según los identificadores del documento de destino.
Necesidad de los motores de búsqueda
en una colección de documentos vinculados, como los que residen en Internet, se puede encontrar información valiosa sobre una página web en particular fuera del contenido de la página web en sí.
Por ejemplo, los llamados “hipervínculos” que apuntan a una página web a menudo contienen información valiosa sobre una página web. La información en un enlace o en un enlace que apunta a una página web puede ser especialmente útil cuando la página web contiene poca o ninguna información textual.
Por lo tanto, lo que se necesita en la técnica son métodos y sistemas de indexación de información sobre un documento, la información que reside en otros documentos en una colección de documentos vinculados, a fin de producir un índice que pueda devolver una lista de los documentos más relevantes en respuesta a una consulta enviada por el usuario.
Proceso de rastreo de enlaces por los bots
#Paso 1
El proceso de rastreo se realiza en 3 capas.
La capa base
La capa base de la estructura de datos comprende una secuencia de segmentos . Cada segmento comprende más de doscientos millones de ubicaciones de recursos uniformes (URL).
Dentro de esta base, existe una capa de rastreo diario que comprende más de cincuenta millones de URL. También comprende las URL que se rastrearán con más frecuencia y las URL de mayor prioridad.
Las capas internas de la capa base están rastreadas por el mismos robots, sin embargo, los resultados del rastreo se colocan en índices diferentes según la frecuencia del cambio del contenido y la relevancia de las URL.
Descubrimiento de nuevas URL
Existen varias fuentes diferentes para las URL utilizadas para completar la estructura de datos:
- Una fuente de URL es el envío directo de las URL al sistema del motor de búsqueda (GSC).
- Otra fuente de URL es a través del descubrimiento de enlaces salientes en páginas rastreadas.
- Una tercera fuente de URL es a través de envíos de terceros que han aceptado proporcionar contenido.
- El envío de contenido automatizado a través de sistemas como RDF Site Summary (RSS)
Almacenamiento de los datos rastreados
Antes del almacenamiento en la estructura de datos, una URL (y el contenido de la página correspondiente) se procesa mediante una serie de módulos diseñados para garantizar la uniformidad del contenido y evitar la indexación de páginas duplicadas.
Además de examinar la sintaxis de las URL específicas, hay un módulo de detección de duplicados de host.
El módulo de detección de duplicados del host intenta determinar qué hosts son duplicados completos entre sí mediante el examen de las URL entrantes ( enlaces internos o externos).
# Paso 2
El programador de URL determina qué URL se rastrearán en cada momento, y almacena esa información en la estructura de datos anterior.
Los registros históricos de rastreo indican la frecuencia con la que cambia el contenido asociado con las URL, así como los rangos de páginas individuales que se establecen.
Cuando un robot accede a una URL, la información pasa a través de los filtros de contenido.
Los filtros de contenido, entre otras cosas, determinan si una URL ha cambiado y cuándo un robot accedió a una URL.
Esta información es colocada en los registros de historial, que se devuelven al programador de URL.
Al revisar los registros de un URL en particular, cada uno de estos indica si el contenido de un URL cambió desde la hora inmediatamente anterior al rastreo del URL.
Un programación del URL puede calcular la frecuencia de cambio de una URL
Por ejemplo, un programador de URL puede mantener o acceder a información de sitios web (es decir, URL) cuyo contenido se sabe que cambia rápidamente, como los medios digitales.
Calculo de la puntuación de URL
Se calcula una puntuación independiente de la consulta (también denominada puntuación de documento) para cada URL mediante los rankers de páginas (PR) de las URL.
Los rankers de páginas calculan un rango de página para una URL determinada considerando no solo el número de URL que hacen referencia a una URL determinada, sino también , el rango de página de las URLs de referencia.
Los datos de rango de página ( PR) se pueden obtener de los administradores de URL.
Problemas de rastreo diario por los bots
La patente explica que hay situaciones especiales en las que no es posible rastrear todas las URL de un sitio web en un tiempo determinado. En estos casos el motor de búsqueda lo resuelve de la siguiente manera:
- En el primer enfoque, se calcula una puntuación de rastreo para cada URL del site.
- Solo se pasan las URL que reciben una puntuación de rastreo alta (por ejemplo, por encima de un valor de umbral) a la siguiente etapa.
- Después, el programador de URL refina una frecuencia de rastreo óptima para cada una de dichas URL y pasa la información de frecuencia de rastreo a los administradores de URL.
- La información de frecuencia de rastreo es finalmente utilizada por los administradores de URL para decidir qué URL deben rastrear.
Hay muchos factores diferentes que se pueden usar para calcular una puntuación de rastreo:
- incluida la ubicación actual de la URL
- el rango de página de la URL
- el historial de rastreo de la URL
Por otro lado, la puntuación de rastreo de las URL que no se han rastreado en un período de tiempo relativamente largo puede ser ponderada, de manera tal que el tiempo mínimo de actualización de una URL sea un período de tiempo predeterminado, como puede ser dos meses.
Rastreo de Páginas de Error 404
Si el registrador de estado devuelve un valor “HTTP 404“, le indica que la URL no existe, entonces el administrador de URL sabe que el trabajo con la URL está parcialmente completado, al menos hasta el próximo período de rastreo.
Rastreo de páginas bloqueadas
Si el registrador de estado no incluye un registro de la URL o indica que la URL estaba ocupada cuando el rastreador web (robot) intentó acceder a la URL, entonces el administrador de URL reprograma la URL para el rastreo.
Rastreo de páginas eliminadas
Si un registrador de estado indica que el filtro de contenido ha eliminado la URL, el administrador de URL elimina la URL de la tabla hash respectiva y esa URL ya no se rastrea.
Esto le indica que la URL no existe, entonces el administrador de URL sabe que el trabajo con la URL está completo, al menos hasta el próximo período de rastreo.
# Paso 3
Los filtros de contenidos
Los filtros de contenido escriben cuatro tipos de archivos de registro:
- registros de enlace ( contiene 1 documento por 1 URL)
- registros de RT ( empareja los documentos)
- registros de historial ( almacena 1 registro por 1 URL)
- registros de estado ( registra la URL completa )
Además, el registro de estado comprende los enlaces salientes que se han identificado en la página web asociada con la URL durante el rastreo. Los enlaces salientes comprenden una lista de las huellas digitales de las URL que se encuentran en la página web.
# Paso 4
Los mapas de enlaces
El administrador de estado global lee los registros de enlaces de una página web y usa la información en los archivos de registro para crear los mapas de enlaces y los mapas de anclaje (anchor text).
Los mapas de enlaces están codificados por las huellas digitales de las URL de origen en los registros de enlaces
Las clasificaciones de páginas utilizan los mapas de enlaces para ajustar la clasificación de las URL dentro de la estructura de datos. Estas clasificaciones de páginas persisten entre las épocas.
Además de crear los mapas de enlaces, el administrador de estado global es el encargado de crear los mapas de anclaje (conocidos en el mundo SEO como textos de anclaje).
Diferencia entre mapa de enlace y texto de anclaje
Los registros de un mapa de anclaje están codificados por las huellas dactilares de las URL de salida presentes en el registro de enlaces .
Por lo tanto, cada registro en un mapa de anclaje comprende la huella dactilar de una URL de salida y el texto que corresponde a la URL en el registro de enlace.
El indexador utiliza los mapas de ancla para facilitar la indexación de ” texto de anclaje “, así como para facilitar la indexación de URL que no contienen palabras.
Por ejemplo, cuando el documento de destino en una URL de salida es una imagen y no hay palabras en el documento de destino.
La etiqueta de anclaje
El texto de anclaje proporciona información textual que se puede buscar por palabra clave.
En algunos casos es posible que el enlace receptor pueda ser un archivo de imagen, un archivo de video o un archivo de audio, en cuyo caso no hay información textual disponible en el contenido del documento.
Por lo tanto, el texto de la etiqueta de anclaje se puede utilizar como parte de la indexación del documento, y un usuario que envía una consulta que contenga el término “texto de anclaje”, podrá recibir una lista de documentos que incluyen esa información.
Otra ventaja de indexar el texto de anclaje se produce en los casos en que una página web contiene información más precisa sobre algo.
También se nombra en esta patente mucho “el texto cerca de un enlace”.
una página web con cierta autoridad que contiene texto cerca de una etiqueta de anclaje asociada con el enlace puede ser considerado como de más valor contextual al enlace.
Un texto de anclaje puede tener anotaciones del buscador
La finalidad del proceso es ordenar los mapas de enlaces en capas.
Otro punto interesante es comprobar como el buscador realiza “anotaciones” sobre el texto de anclaje.
Una anotación puede contener texto o una lista de atributos, que incluyen en la etiqueta de anclaje asociada a un enlace, como son:
- Texto enfatizado – <em>
- Citas – <cite>
- Nombres de variables – <var>
- Muy enfatizado – <strong>
- Código fuente – <CODE>
- Posición del texto
- Número de caracteres en el texto
- Número de palabras en el texto
- Otros.
# Paso 5
Clasificación de la página
El cálculo de la clasificación de la página web individual (URL), se inicia comenzando con una clasificación de la página inicial para cada documento, calculando, una contribución parcial de la clasificación de la página del documento de origen.
Luego se va actualizando continuamente las estimaciones de los rangos de páginas de los documentos a medida que haya nueva información disponible desde el conjunto completo.
Por ejemplo, la contribución parcial de PR de la página 1.1 a la página 1 sería de PR parcial pag.1 = d * PR (Pag.1.1) / C (pag.1.1)
La estimación actual del rango de página de la página 1 es simplemente PR (pag.1) = (1-d) +. SIGMA.PR.sub.n (pag.1).
El sistema también almacena un registro de enlaces, el identificador, los documentos de destino y las anotaciones.
Conclusión
El texto de anclaje de un enlace dentro de un documento web aun tiene gran valor para el motor de búsqueda.
En su dia cuando Sergey Brin y Lawrence Page explicaron la anatomía del PageRank, comentaron lo siguiente:
En nuestro actual rastreo de 24 millones de páginas, tuvimos más de 259 millones de textos de anclajes diferentes que indexamos.
Un punto que tal vez sea de añadir, es incluir texto explicativo cerca de este texto de anclaje del enlace.
También se observa como el PageRank se sigue utilizando para obtener una calificación de la página web en función de los enlaces entrantes y salientes ( Cheirank ).
La patente no explica si es mejor un texto de anclaje con keyword exacta o no, pero sí indica que el proceso que lleva a cabo es bastante complejo.
Tal vez los creadores de contenido deban aprender sobre estas metodologías de SEO.
# 8 Expertos de SEO y copywriting dan unos excelentes consejos
# Qué son las entidades y su relación con el SEO
No sé si las herramientas de SEO actuales llegan a cubrir correctamente este proceso sobre el cálculo del valor de un enlace.
Por lo tanto, ¿cuanta confiabilidad merecen los datos que nos arrojan las herramientas de SEO?
Acerca del autor
SEO Mánager en ginesmayol.com . Ayudo a empresas y marcas a posicionarse en Google. Presidente de la Asociación de MKT Digital de la Región de Murcia. Creo estrategias de Adquisición de tráfico para empresas y marcas nuevas. Hago deporte a diario y me gusta todo lo relacionado con el medio ambiente y el estilo de vida sencillo y saludable.
Brutal post Ginés,
Acabo de hacer un curso de SEO y básicamente me han enseñado las bases, algunos plugins de seo, alguna extensión y a utilizar algunas herramientas de seo.
Pero ahora tengo dudas de si realmente he aprendido SEO .
Enhorabuena por el blog.
Hola.
Sobre los cursos de SEO en español, no te puedo ayudar ya que no he realizado ninguno. Imagino que habrá de todo.
Lo que si puedo compartir es una frase que a mi me dijeron en su dia y que tal vez te sirva:
“si vas a vender servicios de SEO no dejes que una herramienta piense por ti”.