El blog de dinahosting
  • Inicio
  • Novedades
  • Contenidos Técnicos
    • Marketing
    • Seguridad
    • WordPress
    • Prestashop
  • Eventos
  • Equipo DH
  • Clientes

El blog de dinahosting

  • Inicio
  • Novedades
  • Contenidos Técnicos
    • Marketing
    • Seguridad
    • WordPress
    • Prestashop
  • Eventos
  • Equipo DH
  • Clientes
#HalloweenDH

Suscríbete a nuestra newsletter

Recibe quincenalmente consejos muy útiles para tu web y ecommerce. Además con tu alta te regalamos 2 guías: una de iniciación a WordPress y otra con recursos de marketing.

Newsletter
Robots.txt

¿Cómo aprovechar el robots.txt para mejorar tu SEO?

escrito por Comunicación Dinahosting marzo 2, 2018

Usar bien el archivo robots.txt es fundamental para tener tu web correctamente indexada en las bases de datos de los motores de búsqueda ya que este archivo te permite tener cierto control sobre qué contenidos pueden o no ser indexados. Pero ¿qué es?, ¿cómo crearlo?, ¿dónde se coloca? Te damos algunas pistas sobre este archivo.

Índice de contenidos

  • 1 ¿Qué es el robots.txt y para qué sirve?
  • 2 El contenido del archivo robots.txt
  • 3 Funcionamiento
  • 4 Conclusión

¿Qué es el robots.txt y para qué sirve?

Para encontrar nuevas webs o actualizar información de las que ya existentes en sus bases de datos, los motores de búsqueda utilizan mecanismos (softwares) conocidos como Robots, Spiders o Crawlers que barren constantemente internet buscando nuevas páginas o revisitando otras para actualizar la información.

Para ayudar a los motores a indexar la información de tu web puedes (y debes) utilizar dos pequeños archivos en formato texto para orientarlos y ayudarles a obtener la información con más facilidad; el robots.txt y el Sitemap.

El robots.txt es un archivo de texto plano con algunas reglas que funciona como un filtro para los robots y hace que puedas controlar los permisos de acceso a determinadas páginas o carpetas de tu web. Es el primer archivo que consultará el robot y todos los robots acreditados respetan las directivas del archivo robots.txt.

El contenido del archivo robots.txt

La configuración del robots.txt es importante porque:

  • Ayuda a indexar mejor tu web el contenido de tu página con lo que mejora tu posicionamiento.
  • Impide el acceso a determinados robots además de limitar la información que quieres mostrar, de forma que los datos personales privados no puedan ser encontrados.
  • Reducen la sobrecarga del servidor. Algunos robots se dedican a hacer muchas peticiones que pueden saturar el servidor y provocar que la navegación por la página sea más lenta.

Para orientar los robots, existen algunas reglas que debes seguir. Los comandos principales para un archivo robots.txt simple utiliza varias reglas:

  • User-agent: identifica para qué mecanismo de rastreo son las instrucciones que se incluyen
  • Disallow: informa qué páginas no deben ser analizadas por los rastreadores.
  • Allow: informa qué páginas deben ser analizadas por los rastreadores.
  • Sitemap: muestra la localización del sitemap de tu web, importante para que los rastreadores encuentren las nuevas entradas.
  • Crawl-delay: indica al robot el número de segundos que debe esperar entre cada página. Es muy útil para reducir la carga del servidor. El tiempo recomendado es de 5-10 segundos, desde dinahosting siempre recomendamos 10 segundos.

También puedes utilizar comodines:

  • Asterisco (*): vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por «directorio» serían «/directorio*/»
  • Dólar ($): indica el final de un URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .inc se utilizaría «/.inc$».

Funcionamiento

Ejemplos:

Un ejemplo de robots.txt básico:

User-Agent: 
*Disallow: /nombrecarpeta/
Sitemap: http://tudominio.com/sitemap.xml

Ejemplo de un archivo robots.txt más complejo:

User-agent: 
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /imagenes/
Disallow: /tecnologia/
Allow: /tecnologia/computadoras
Crawl-delay: 10
User-agent: googlebot
Disallow: /categorias/
Disallow: /plantillas/
Sitemap: http://www.tudominio.com/sitemap.xml

Explicaciones:

  • Línea 1: indica que las líneas posteriores (líneas 3 a 6) serán indexadas y seguidas por todos los robots de todos los motores de búsqueda.
  • Líneas 2 a 5: indican qué carpetas no serán indexadas para todos los robots
  • Línea 6: indica que aunque la carpeta «tecnologia» no debe ser indexada, la subcarpeta computadoras sí puede ser leída
  • Línea 7: indica que los robots tienen que esperar 10 segundos entre cada acceso
  • Línea 8: indica que a partir de esa línea las reglas solo son para el Googlebot
  • Líneas 9 y 10: carpetas que solo Googlebot no puede visitar
  • Línea 10: especifica la carpeta donde se encuentra el sitemap y el nombre del archivo

Incluir comentarios en el robots.txt

Si eres una persona metódica y quieres incluir comentarios en tu robots solo tienes que usar (#) de esta forma:

#La regla servirá para todos los robots
User-agent: *
#Mi archivo de contraseñas ultra-secretas que nadie puede saber
Disallow:/ultrasecreto.html
#Bloqueando mi carpeta llena de fotos ;p
Disallow:/micarpeta/

Cosas que debes tener en cuenta

  • Debe existir solo un robots.txt para cada web y este debe estar en el directorio raíz
  • El robots.txt no es una forma de seguridad
  • Robots.txt no hace que una página sea eliminada del índice de los motores de búsqueda si ya ha sido indexada
  • Los robots de búsqueda solo siguen lo que has especificado en tu robots.txt
  • Los robots son sensibles a las mayúsculas y minúsculas
  • La información de tu robots.txt es pública y cualquiera puede acceder a ella tecleando http://tudominio.com/robots.txt

Importante: Si utilizas una sección específica para un robot, éste ignorará los comandos de la sección global. Ah, y cuidado con dejarte el robots.txt de desarrollo al pasarlo a producción puedes perjudicar el posicionamiento de TODO tu contenido.

Recuerda: si ayudas a los motores de búsqueda, contribuyes a una mejor indexación del contenido de tu página, y en consecuencia, a traer más visitas a tu web.

Conclusión

Los motores de búsqueda utilizan robots para recorrer toda la web, indexando todo o casi todo el contenido disponible. El robots.txt funciona principalmente con reglas de negación ya que por norma todas las páginas están accesibles a los robots.

El Protocolo de Exclusión de Robots es utilizado en muchas tareas de SEO ya que evita la duplicación de contenido, permite o no la indexación de contenido de los webspiders, ocultar contenido y otras tareas.

Fíjate si es útil un robots.txt que hasta en la web de la Casa Real han personalizado su robots.txt para ayudar a los buscadores 😉

User-agent: *
Disallow:Disallow: /_*/
Disallow: /ES/FamiliaReal/Urdangarin/
Disallow: /CA/FamiliaReal/Urdangarin/
Disallow: /EU/FamiliaReal/Urdangarin/
Disallow: /GL/FamiliaReal/Urdangarin/
Disallow: /VA/FamiliaReal/Urdangarin/
Disallow: /EN/FamiliaReal/Urdangarin/
Sitemap: http://www.casareal.es/sitemap.xml

Cuando hayas creado tus reglas podrás subir el archivo a la raíz de tu web desde SEO Toolkit la herramienta que hemos implementado para que puedas crear o modificar el sitemap.xml o el robots.txt y subirlo a tu hosting de forma fácil o puedes usar el Administrador de Archivos de tu Panel de Control.

4 comentarios
0
Facebook Twitter Google + Pinterest

4 comentarios

Juan marzo 12, 2015 - 10:38 am

Interesante el post, tengo problemas para que google de alta a mi sitio web.
En http://www.cucarachas-valencia.com/robots.txt se puede ver:
User-agent: *
Sitemap: http://www.cucarachas-valencia.com/sitemap.xml

en google no esta indexado y lleva mas de 30dias. site:cucarachas-valencia.com
En webmasterstools en explorar como google la raiz del dominio lo devuelve como «completo» sin errorres:
Tipo de robot de Google: Escritorio
Completo el lunes, 9 de marzo de 2015, 15:06:49 GMT-7

Reply
prios marzo 12, 2015 - 2:04 pm

¡Muchas gracias por tu comentario, Juan!

Comentarte que el robots.txt que tienes construido (aunque no tiene errores de sintaxis) no se ajusta exactamente a las necesidades de tu web. Te recomendamos que lo cambies por algo así ya que es lo mejor para un sitio construido con WordPress:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/
Sitemap: http://cucarachas-valencia.com/sitemap.xml

Reply
Dani julio 8, 2015 - 7:48 pm

Buenas, tener en cuenta que antes de modificarlo asegurarlos de que esta todo correcto un ejemplo conocido poner por error :

Disallow: *

que nos empieza a desindexar todo el contenido

,saludos

Reply
prios julio 9, 2015 - 8:33 am

¡Muchas gracias por tu comentario, Dani!
Efectivamente, tenemos que verificar que todo está correcto antes de modificar el robots.txt, un pequeño descuido puede hacer que se desindexe tu web.

Reply

Deja un comentario Cancelar respuesta

*

code

Puedes revocar tu consentimiento, así como otros derechos, tal y como se describe en la información adicional

Información básica sobre protección de datos

Responsable
Dinahosting S.L.  [+ info]
Finalidad y legitimación
Tratamos los datos que nos proporcionas con la finalidad de gestionar tu comentario, incluida su publicación en nuestro blog. Al enviarnos tu comentario o sugerencia nos das tu consentimiento explícito para que tratemos tus datos con esta finalidad  [+ info]
Destinatarios
Publicamos los comentarios que nos envías en el blog. Enviar un comentario en nuestro blog implica la publicación en el blog del ‘nombre’ y, en su caso, el ‘avatar’ que utilices al dejar el comentario  [+ info]
Derechos
Puedes revocar tu consentimiento, así como otros derechos, tal y como se describe en la información adicional  [+ info]
Información adicional
Para más información, consulta nuestra Política de Privacidad

En dinahosting

Promotion Image

Dominios

Promotion Image

Hosting SSD NVMe

Promotion Image

VPS

Suscríbete a nuestra newsletter

Promotion Image Newsletter

Newsletter

Recibe quincenalmente consejos muy útiles para tu web y ecommerce. Además con tu alta te regalamos 2 guías: una de iniciación a WordPress y otra con recursos de marketing.

INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS

Responsable
Dinahosting SL. [+ info]
Finalidad y legitimación
Trataremos tus datos con la finalidad de enviarte el boletín electrónico informándote sobre los contenidos del blog. Estamos legitimados para tratarlos porque te has suscrito a nuestra newsletter.[+ info]
Personas destinatarias
No comunicaremos tus datos a terceros, salvo obligación legal.[+info]
Derechos
Puedes revocar tu consentimiento, modificando tu perfil tal y como se describe en el correo electrónico de suscripción.[+ info]
Información adicional
Para más información, consulta nuestra Política de Privacidad.

Conviértete en afiliado

Gana dinero recomendando dinahosting a todo el mundo.
Hazte afiliado

¡Síguenos!

Facebook Twitter Instagram Linkedin Youtube
dinahosting
Facebook Twitter Instagram Linkedin Youtube

LLÁMANOS GRATIS

900 854 000


ESCRÍBENOS

soporte@dinahosting.com

En dinahosting

  • Hosting
  • Dominios

Área privada

  • Panel de administración
  • Webmail
  • Feedback
  • Protección de datos
  • Ayuda
  • 900 854 000
  • soporte@dinahosting.com

@2020 - Dinahosting

INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS

Responsable
Dinahosting SL  [+ info]
Finalidad y legitimación
Trataremos tus datos con la finalidad de enviarte el boletín electrónico informándote sobre los contenidos del blog. Estamos legitimados para tratarlos porque te has suscrito a nuestra newsletter  [+ info]
Personas destinatarias
No comunicaremos tus datos a terceros, salvo obligación legal  [+ info]
Derechos
Puedes revocar tu consentimiento, modificando tu perfil tal y como se describe en el correo electrónico de suscripción  [+ info]
Información adicional
Para más información, consulta nuestra Política de Privacidad