Cómo agregar tu Sitemap a tu archivo Robots.txt
Este artículo fue actualizado el 2 de julio de 2020
Si eres o un desarrollador de sitios web, querrás que tu sitio aparezca en los resultados de búsqueda. Y para que se muestre en los resultados de búsqueda, necesitas que sitio web y sus diversas páginas web sean rastreadas e indexadas por robots de motores de búsqueda.
Hay dos archivos diferentes en el lado técnico de tu sitio web que ayudan a estos bots a encontrar lo que necesitan: Robots.txt y sitemap XML.
Robots.txt
El archivo Robots.txt es un archivo de texto simple que se coloca en el directorio raíz de tu sitio. Este archivo utiliza un conjunto de instrucciones para indicar a los robots de los motores de búsqueda qué páginas de tu sitio web pueden y no pueden rastrear.
El archivo robots.txt también se puede usar para bloquear que los robots de accedan al sitio web. Por ejemplo, si un sitio web está en desarrollo, puede tener sentido bloquear el acceso de los robots hasta que esté listo para ser lanzado.
Aprende todo sobre los robots.txt
Lee nuestra guía al archivo robots.txt y el SEO.
El archivo robots.txt suele ser el primer lugar que visitan los rastreadores cuando acceden a un sitio web. Incluso si deseas que todos los robots tengan acceso a todas las páginas de tu sitio web, es una buena práctica agregar un archivo robots.txt que lo permita.
Los archivos Robots.txt también deben incluir la ubicación de otro archivo muy importante: el sitemap XML. Esto proporciona detalles de cada página en tu sitio web que deseas que los motores de búsqueda descubran.
En esta publicación, te mostraremos cómo y dónde debe hacer referencia al sitemap XML en el archivo robots.txt. Pero antes de eso, veamos qué es un sitemap XML y por qué es importante.
Sitemap XML
Un sitemap es un archivo XML que contiene una lista de todas las páginas de un sitio web que deseas que los robots descubran y accedan.
Por ejemplo, es posible que desees que los motores de búsqueda accedan a todas las publicaciones de tu blog , para que aparezcan en los resultados de búsqueda. Sin embargo, es posible que no desees que tengan acceso a tus páginas de etiquetas, ya que pueden no ser buenas páginas de destino y, por lo tanto, no deben incluirse en los resultados de búsqueda.
Aprende todo sobre los sitemaps XML
Lee nuestra guía de sitemaps.
Los sitemap XML también pueden contener información adicional sobre cada URL, en forma de metadatos. Y al igual que robots.txt, un sitemap XML es imprescindible. No solo es importante asegurarte de que los robots de los motores de búsqueda puedan descubrir todas tus páginas, sino también ayudarlos a comprender la importancia de tus páginas.
Puedes verificar que tu sitemap XML se haya configurado correctamente con un informe gratuito de WooRank.
¿Cómo se relacionan los robots.txt y los sitemaps?
En 2006, Yahoo, Microsoft y Google se unieron para respaldar el protocolo estandarizado de enviar páginas de un sitio web a través de los sitemaps XML. En ese momento, debías enviar tus sitemaps XML a través de Google Search Console, Bing webmaster tools y Yahoo, mientras que otros motores de búsqueda como DuckDuckGoGo utilizan resultados de Bing/Yahoo.
Después de aproximadamente seis meses, en abril de 2007, se unieron en apoyo de un sistema para buscar sitemaps XML a través del archivo robots.txt, conocido como Sitemap Autodiscovery.
Esto significa que incluso si no has enviado el sitemap XML a los motores de búsqueda individuales, no debería haber problema. Primero encontrarían la ubicación del sitemap XML del archivo robots.txt de tu sitio.
(NOTA: el envío del sitemap XML todavía está disponible en la mayoría de los motores de búsqueda, ¡pero no olvides que Google y Bing no son los únicos motores de búsqueda!)
Y, por lo tanto, el archivo robots.txt se volvió aún más significativo para los webmasters porque pueden pavimentar fácilmente manera de que los robots de los motores de búsqueda descubran todas las páginas de su sitio web.
Cómo agregar tu sitemap XML a tu archivo Robots.txt
Aquí hay tres pasos simples para agregar la ubicación de tu sitemap XML a tu archivo robots.txt:
Paso 1: Ubica la URL de tu sitemap XML
Si tu sitio web ha sido desarrollado por un desarrollador externo, primero debes verificar si han creado un sitemap XML para tu sitio.
Por defecto, la URL de tu sitemap XML será /sitemap.xml. Por ejemplo, el sitemap XML para https://befound.pt es
https://befound.pt/sitemap.xml
Así que escribe esta URL en tu navegador con tu dominio en lugar de 'befound.pt'.
Algunos sitios web tienen más de un sitemap XML, lo que requiere un sitemap para sitemaps (conocido como índice de sitemaps). Por ejemplo, si estás utilizando el complemento Yoast SEO con WordPress, se agregará automáticamente un índice de sitemap a /sitemap_index.xml.
https://befound.pt/sitemap_index.xml
También puedes ubicar tu sitemap XML mediante las búsquedas de Google utilizando los operadores de búsqueda como se muestra en los ejemplos a continuación:
site:befound.pt filetype:xml
O
filetype:xml site:befound.pt inurl:sitemap
Pero esto solo funcionará si tu sitio ya fue rastreado e indexado por Google.
Si tienes acceso al administrador de archivos de tu sitio web, puedes buscar tu archivo xml de sitemap.
Si no encuentras un sitemap XML en tu sitio web, puedes crear uno tú mismo. Hay muchas herramientas para ayudar con esto, incluido el generador de sitemaps XML que es gratuito para hasta 500 páginas, pero deberás eliminar manualmente cualquier página que no quieres incluir. Alternativamente, sigue el protocolo explicado en Sitemaps.org.
Paso 2: Localiza tu archivo Robots.txt
Puedes verificar si tu sitio web tiene un archivo robots.txt escribiendo /robots.txt después de tu dominio), por ejemplo, https://befound.pt/robots.txt.
Si no tienes un archivo robots.txt, deberás crear uno y agregarlo al directorio raíz de tu servidor web. Para hacer esto, necesitarás acceso a tu servidor web. Por lo general, se coloca en el mismo lugar donde se encuentra el "index.html" principal de tu sitio. La ubicación de estos archivos depende del tipo de software de servidor web que tengas. Deberías considerar obtener la ayuda de un desarrollador web si no estás acostumbrado a estos archivos.
Solo recuerda escribir las letras del nombre de archivo del robots.txt en minúsculas. No uses Robots.TXT o Robots.Txt como nombre de archivo.
Paso 3: Agrega la ubicación del sitemap XML al archivo Robots.txt
Ahora, abre el archivo robots.txt en la raíz de tu sitio. Nuevamente, necesitas acceso a tu servidor web para hacerlo. Por lo tanto, solicita instrucciones a un desarrollador web o tu empresa de hosting si no sabes cómo ubicar y editar el archivo robots.txt de tu sitio web.
Para facilitar el descubrimiento automático de tu archivo de sitemap XML a través de tu robots.txt, todo lo que tienes que hacer es colocar una directiva con la URL en tu robots.txt, como se muestra en el ejemplo a continuación:
Sitemap: http://befound.pt/sitemap.xml
Entonces, el archivo robots.txt se ve así:
Sitemap: http://befound.pt/sitemap.xml
User-agent:*
Disallow:
NOTA: La directiva que contiene la ubicación del sitemap XML se puede colocar en cualquier parte del robots.txt Es independiente de la línea de agente de usuario, por lo que no importa dónde se coloque.
Puedes ver este aspecto en acción en un sitio en vivo visitando tu sitio web favorito, agregando /robots.txt al final del dominio. Por ejemplo, https://befound.pt/robots.txt.
¿Qué sucede si tienes varios sitemap XML?
Según Google y Bing, los sitemap XML no deben contener más de 50,000 URLs y no deben ser mayores de 50Mb cuando no están comprimidos. Entonces, en el caso de un sitio más grande con muchas URL, puedes crear múltiples archivos de sitemap XML.
Debes enumerar todas las ubicaciones de archivo de sitemap XML en un archivo de índice de sitemaps. El formato XML del archivo de índice de sitemaps es similar al archivo sitemap XML, lo que lo convierte en un sitemap de sitemaps.
Cuando tienes varios sitemaps, puedes especificar la URL del archivo de índice de tu sitemap XML en tu archivo robots.txt como se muestra en el siguiente ejemplo:
Sitemap: http://befound.pt/sitemap_index.xml
O bien, puedes especificar URLs individuales para cada de tus archivos sitemap XML, como se muestra en el siguiente ejemplo:
Sitemap: http://befound.pt/sitemap_pages.xml
Sitemap: http://befound.pt/sitemap_posts.xml
Esperamos que haya quedado claro cómo crear un archivo robot.txt con la ubicación de tu sitemap XML. ¡Hazlo, ayudará a tu sitio web!
¿Ya has localizado tu sitemap XML en tu archivo robots.txt?