El rastreo y la indexación son dos de los pilares del SEO. Hagamos un poco de «memoria»
¿A qué se enfrenta un rastreador?
- WWW tiene mas de 1000M de páginas web
- Mas de un millón de páginas rastreadas diariamente
- Capaces de hacer cientos de rastreos por segundo
- El problema es que el 23% de ellas se van actualizando diariamente, por lo que Google necesita revisitarlas para tener los resultados mas nuevos posibles.
- 14% de los enlaces de la WWW están rotos, los datos quedan obsoletos rápidamente
Google asigna un crawl budget a cada una de las páginas web, en función de la autoridad de su dominio. Si una página no es rastreada con frecuencia, perderá relevancia en los rankings. Para facilitar que una URL sea rastreada con mucha frecuencia, la URL debe estar en una posición cercana a la home, con lo que incrementaremos las probabilidades de rastreo de las páginas con menor autoridad. Con tu web debes comprobar que la estructura de enlaces internos y asegurarse que las landings pages mas importantes encabezan la lista. Pero las landings deben tener un contenido lo suficiente interesante para los rastreadores.
Una vez comprobado todo, tenemos que asegurarnos que GoogleBot puede descargar las páginas rápidamente, así podrá visitar mas páginas antes de agotar el crawlbudget asignado: especificar cachés, eliminar javascripts, css,… optimizar al máximo la velocidad de carga de imágenes, ganarás tiempo a la hora de gestionar tu crawlbudget. Google, obviamente, no tiene porque entrar en toda nuestra web, por lo que deberemos bloquear el acceso a todas esas secciones que no nos interesan (busquedas, paginaciones de catálogo, parámetros de precio, especificaciones dobles, urls a comentarios individuales,… Este bloqueo se hará a nivel .htaccess, meta etiquetas o robots.txt Por ejemplo, podemos evitar la indexación de las URLs que son únicamente para los usuarios.
En este orden de cosas tendremos que indicar las urls originales, para evitar la duplicación de URLs secundarias, paginaciones y similares, por lo que utilizaremos canonicals, para evitar los problemas. Establecer una serie de instrucciones para los robots de los motores de búsqueda a través de los metarobots.
No se trata, pues, de indexar el mayor número de URLs posibles, sino de optimizar aquellas que son relevantes en términos de SEO.
[Tweet «No se trata de indexar el mayor número de URLs, sino de optimizar las relevantes»]
Este post es parte de la cobertura de Señor Muñoz durante el Congreso SEO Profesional del 2014. Todos estos contenidos fueron recogidos durante la ponencia de Manuel Robledano SEO de GoEuro.
Las empresas mencionadas no tienen ningún tipo de relación contractual o similar con Señor Muñoz. Igualmente, no tienen por qué coincidir con las ideas de Señor Muñoz, que tampoco puede hacerse responsable de la veracidad o no de este contenido.
[…] Rastreo e indexación de grandes portales por Manuel Robledano […]