SEO en WordPress: Qué es el robots.txt?

El archivo robots.txt es un método muy usado para controlar el contenido duplicado. Es básicamente un archivo de texto plano que se colocan en el directorio raíz de tu dominio

http://tudominio.com/robots.txt

Los ficheros robots.txt contiene lineas con directivas robots que sirven para controlar la búsqueda e indexación de varios directorios y páginas. Los motores de búsqueda como Google y MSN (Bing) siguen lo que indiquen las directivas robot del robot.txt antes de empezar a investigar tu sitio. Si durante la lectura del archivo del sitio, hay alguna URL prohibida en el robots.txt, esta no será revisada ni indexada.

Gracias a esto, las directivas del robots.txt son una forma estupenda de protección contra contenido duplicado e indexado de páginas no deseadas para los motores de búsqueda.

Supongamos que tenemos nuestro robots.txt en la raíz del dominio. Podríamos poner estas 2 directivas

Estas 2 lineas indican a los motores de búsqueda ignorar cualquier URL que comience por «http://tudominio.com/wp-» o termine con «.php». De esta forma cualquier archivo dentro de WordPress estaría restringido y no sería investigado por los motores de búsqueda.

Para esta ocasión no queremos que algunas URLs generadas por WordPress sean seguidas o indexadas por los motores de búsqueda

  • http://tudominio.com/feed/ – Página principal del feed
  • http://tudominio.com/comments/feed/ – Página de comentarios del feed
  • http://tudominio.com/other/feeds/ – Cualquier tipo de feed
  • http://tudominio.com/post/trackback/ – Cada trackback de tu URL
  • http://tudominio.com/2017/09/02/ – El archivo de los posts de un día
  • http://tudominio.com/2017/09/ -El archivo de los posts de un mes
  • http://tudominio.com/2017/ – El archivo de los posts de un año

Si tienes alguna duda respecto a los feed en WordPress, te recomiendo que eches un vistazo a los artículos sobre RSS.

Podríamos excluir categorías y etiquetas pero, de momento comenzamos con esto para que te hagas una mejor idea.

Para evitar que se indexe y accede a cualquier página de las mencionadas, podemos escribir estas 3 directivas en el robots.txt

La clave está en Disallow que restringe la búsqueda de las URL que coincidan con las expresiones regulares de las directivas. Esto es algo que hay que usar con precaución asique debes estar seguro de lo que haces antes de experimentar por tu cuenta en un caso real.

Permitir el acceso

Con la directiva allow permitimos explicitamente al motor de búsqueda acceder a archivos o directorios específicos. Cuando empleas disallow en un directorio, con la directiva allow puedes sobrescribir esa configuración de directorio o archivo. Por ejemplo, supongamos que en el robots.txt evitamos que se entre en la carpeta llamada «prohibido»

Evitamos que se busque en cualquier URL que contenga prohibido pero queremos darle acceso a un archivo que está dentro llamado «hola_mundo.html».

De esta forma aunque todas las URL con prohibido no sean indexadas por el buscador, sí lo sera hola_mundo.html.

 

Especificar buscadores

Para ir terminando, podemos añadir al robots.txt que motores de búsqueda se le aplicarán las directivas del archivo. Si quisiéramos permitir todos, al principio del documento, antes de disallow, escribir

Con el asterisco estamos indicando que las directivas se aplican a todos los motores de búsqueda. Si quisieramos que las directivas sólo se apliquen a Google:

Agregar un sitemap

Un sitemap es un archivo XML que contiene todas las URLs que componen nuestra página web, como si fuera un esqueleto. Sin embargo, podemos personalizar el sitemap para que no ponga todas las URLs y sólo aquellas que nos interese para no duplicar el contenido. Tienen un impacto importante en el SEO ya que facilitas la búsqueda e indexación de los motores de búsqueda. Hay plugins que facilitan el trabajo para crear un sitemap y no olvidaré de explicarlo en otro post.

Para agregar el sitemap al robots.txt hay que indicar donde está ubicado

Y hasta aquí en cuanto el archivo robots.txt, espero que hayáis aprendido algo nuevo. A seguir picando 🙂