Robots.txt: por qué la mayoría de WordPress lo tienen equivocado y tú deberías de leer esto

Crear robots.txt en WordPress

¿Es posible que la mayoría de los archivos robots.txt que se usan en WordPress estén mal enfocados?

Después de la experiencia que tengo optimizando páginas web tengo una respuesta clara.

Si, la mayoría de los que veo están equivocados.

Bien porque están bloqueando más de lo que deben o todo lo contrario.

Por eso hoy voy a ayudarte a entender como funciona realmente el archivo robots.txt.

Además, veremos algunos casos de los fallos más comunes que se suelen ver.

Ya decides tú.

¿Qué es un archivo robots.txt?

El robots.txt es un archivo físico que se crea en la raíz donde se aloja la página web o en caso de WordPress también puede ser virtual.

Sirve para dar indicaciones a los buscadores y bots de como tienen que rastrear nuestro sitio web.

Con él podemos limitar el modo que rastrear nuestra web, qué es lo que tienen que rastrear y como, y muchas más cosas.

Aunque debes de saber que puede que estas indicaciones las tengan en cuenta o no, dado que mucho no siguen estos estándares.

[clickToTweet tweet=”El archivo robots sugiere pero no bloquea, ni evita que los bots indexen un sitio web” quote=”El archivo robots sugiere pero no bloquea, ni evita que los bots indexen un sitio web”]

¿Para qué nos puede servir?

Este archivo tiene muchos usos, pero te diré los más comunes.

Intentar controlar lo que los bosts pueden rastrear

Desde él se pueden indicar qué directorios y contenidos permitimos que puedan ser rastreados.

Ojo: digo rastreados y no indexados, porque este archivo no impide que se indexen contenidos, aunque sí se muestran bloqueados en los resultados.

También se les puede indicar cada cuanto tiempo queremos que rastreen la web para que no tener un consumo desmesurado de recursos.

Añadir el sitemap o mapa del sitio

Si ya has creado tu mapa del sitio y lo has enviado a los buscadores, estos ya tendrán estos datos.

Pero puede que te interese que otros buscadores puedan acceder a él, así que lo podemos indicar en este archivo para facilitarles la tarea.

¿Para qué NO sirve el robots.txt?

Veo muchos sitios web que hacen un uso inadecuado de este archivo, así que voy a darte algunas indicaciones para que sepas los usos que no debes hacer.

Para ocultar o proteger directorios

Si tienes algo que no quieres que vean, no lo pongas aquí porque será todo lo contrario.

Todo bot o persona que vea tu archivo sabrá que intentas proteger ese directorio y más ganas le entrarán de ver qué hay.

Para NO indexar directorios de WordPress

Si por algún motivo se te están indexando directorios como el wp-admin, wp-includes o el wp-content, debes de saber que no es problema de este archivo como más abajo te explicaré.

Es porque tu hosting no está configurado para evitar el listado de directorios.

Si encima los bloqueas desde este archivo, lo que haces es empeorarlo.

La diferencia entre noindex y disallow

Debes de tener claros estos 2 conceptos para que puedas entender lo que viene a continuación.

Cuando indicamos a un contenido que sea noindex, estamos evitando que se indexe en los buscadores. Osea que no aparecerá.

Pero si lo que hacemos es bloquearlo mediante disallow no evitamos que se indexe, sino que lo hará, pero aparecerá bloqueado con la frase de “No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio”.

Pero este seguirá indexado, cosa que hará que aumente el número de páginas que los buscadores deben rastrear.

El archivo robots virtual de WordPress

Antes de seguir debes de saber que en WordPress existen 2 tipos de archivos robots.txt, uno virtual y uno físico que puedes crear.

El archivo virtual lo trae WordPress de serie y solo se puede editar desde plugins o desde código.

En el momento en el que tú crees uno de forma física, el virtual queda invalidado, así que tenlo en cuenta.

La finalidad es la misma, pero el físico lo podemos editar de forma sencilla y el virtual no.

Analizo el típico robots.txt y te explico porqué es erróneo

El otro día haciendo una búsqueda de ejemplos para crear estos archivos, dí con un artículo de Raiola Network que son un hosting especializado en WordPress.

En él nos ponen como ejemplo el archivo perfecto para WordPress que todos deberíamos de crear.

Si no tienes conocimientos, lo normal es que cojas este archivo y lo copies en tu web al cuál.

Pero déjame decirte que estarías cometiendo un error garrafal si lo hicieras de esa manera.

Mi intención es ponerlo como ejemplo simplemente para poder analizarlo con profundidad, dado que es uno de los más “completos”.

Me gustaría aclarar que ellos junto a Siteground y Webempresa son mis hostings favoritos, así que no hay ninguna intención de perjudicar a nadie.

El archivo robots.txt que ponen de ejemplo es el siguiente:

#robots de Raiola Networks
#es necesario personalizar algunas opciones o puede dar problemas

# Bloqueo basico para todos los bots y crawlers
# puede dar problemas por bloqueo de recursos en GWT
User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-includes/ 
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*

# Bloqueo de las URL dinamicas
Disallow: /*?

#Bloqueo de busquedas
User-agent: *
Disallow: /?s= 
Disallow: /search

# Bloqueo de trackbacks
User-agent: *
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback

# Bloqueo de feeds para crawlers
User-agent: *
Allow: /feed/$ 
Disallow: /feed/ 
Disallow: /comments/feed/
Disallow: /*/feed/$ 
Disallow: /*/feed/rss/$ 
Disallow: /*/trackback/$ 
Disallow: /*/*/feed/$ 
Disallow: /*/*/feed/rss/$ 
Disallow: /*/*/trackback/$ 
Disallow: /*/*/*/feed/$ 
Disallow: /*/*/*/feed/rss/$ 
Disallow: /*/*/*/trackback/$

# Ralentizamos algunos bots que se suelen volver locos
User-agent: noxtrumbot
Crawl-delay: 20
User-agent: msnbot
Crawl-delay: 20
User-agent: Slurp
Crawl-delay: 20

# Bloqueo de bots y crawlers poco utiles
User-agent: MSIECrawler
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: Orthogaffe 
Disallow: / 
User-agent: UbiCrawler 
Disallow: / 
User-agent: DOC 
Disallow: / 
User-agent: Zao 
Disallow: / 
User-agent: sitecheck.internetseer.com 
Disallow: / 
User-agent: Zealbot 
Disallow: / 
User-agent: MSIECrawler 
Disallow: / 
User-agent: SiteSnagger 
Disallow: / 
User-agent: WebStripper 
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: Fetch 
Disallow: / 
User-agent: Offline Explorer 
Disallow: / 
User-agent: Teleport 
Disallow: / 
User-agent: TeleportPro 
Disallow: / 
User-agent: WebZIP 
Disallow: / 
User-agent: linko 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: Xenu 
Disallow: / 
User-agent: larbin 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: ZyBORG 
Disallow: / 
User-agent: Download Ninja 
Disallow: / 
User-agent: wget 
Disallow: / 
User-agent: grub-client 
Disallow: / 
User-agent: k2spider 
Disallow: / 
User-agent: NPBot 
Disallow: / 
User-agent: WebReaper 
Disallow: /

# Previene problemas de recursos bloqueados en Google Webmaster Tools
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$

# En condiciones normales este es el sitemap
Sitemap: https://raiolanetworks.es/sitemap.xml

# Si utilizas Yoast SEO estos son los sitemaps principales
Sitemap: https://raiolanetworks.es/sitemap_index.xml
Sitemap: https://raiolanetworks.es/category-sitemap.xml
Sitemap: https://raiolanetworks.es/page-sitemap.xml
Sitemap: https://raiolanetworks.es/post-sitemap.xml

Sin duda alguna es un archivo muy currado, menos por un pequeño detalle.

Este archivo no sirve o por lo menos no es la forma adecuada para hacer las cosas y te lo voy a explicar punto por punto.

El bloqueo de directorios de WordPress

Como la siguiente directiva están intentando evitar que directorios como wp-adminwp-content y wp-includes se rastreen.

Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

Aquí tenemos varios problemas.

Desde que salió el algoritmo penguin 4 de Google, este quiere tener acceso a todos los archivos de una web ya sean CSS, JS, etc.

Ya no basta con que pueda examinar los HTML, debe de analizar la web completa incluidos todos los scripts.

Estos archivos se encuentran dentro de wp-includes y wp-content.

Si bloqueamos estas carpetas, lo único que estamos haciendo es entorpecer a los buscadores, por mucho que le demos acceso a algunos recursos.

Puede que mediante algunas directivas le des acceso a ciertos directorios, pero desde mi punto de vista no se debería de bloquear ninguno y hasta Yoast lo cuenta en su blog.

Si no me crees mira su archivo y verás como en él no bloquean nada.

Robots Yoast

Pero por otra parte y como te he comentado antes, puede que se nos estén indexando estos directorios y el motivo es porque el hosting permite el listado de directorios, cosa que es un error garrafal de seguridad.

Pero no se debería de arreglar de este modo porque al final lo estamos haciendo peor.

Si quieres ver otro ejemplo tienes la web de WordPress.com que gracias a indicar que quiere bloquear la carpeta admin de los resultados, ahora la está indexando, aunque indique que está bloqueada por robots.

Wp-admin indexado

Esto lo puedes probar tú mismo usando los comandos avanzados de Google.

Bloqueo de categorías y etiquetas

Es cierto que si no optimizamos correctamente el SEO de las categorías y etiquetas producen contenido duplicado y eso nos penaliza en los resultados.

Descarga gratis mi checklist SEO On Page y optimiza tus contenidos. ¡Es gratis!

La quiero

Y que la mejor forma que tenemos de que no se indexen es aplicando noindex.

Pero si aplicamos el bloqueo directamente en el archivo robots, lo que vamos a conseguir es que jamás podamos eliminar esas urls de los resultados porque están bloqueadas.

Disallow: /category/
Disallow: /tag/

¿Se puede aplicar las directivas a categorías y etiquetas?

Puedes depende de la web, depende de la estrategia de contenidos y más cosas.

Pero es que si  además le hemos quitado de la url el “tag” y el “category” que WordPress trae de serie y como muchos sitios hacen, estas directivas no sirven para nada.

Bloqueo de los feeds

Si le echas un ojo a lo siguiente, lo que se supone que hace es bloquear los feeds RSS de WordPress para que no se rastreen y tampoco den problemas de contenido duplicado.

User-agent: *
Disallow: /feed/

El problema de esto es que no sirve absolutamente para nada, dado que WordPress aplica noindex a los feeds, osea que no se indexan y en la siguiente imagen te lo muestro.

Noindex feeds WordPress

He testeado los feeds de mi web con una herramienta y WordPress les está aplicando noindex mediante x-robots.

Osea que no sirve todo lo que se está poniendo para bloquearlos.

Bloqueo de urls dinámicas

Las urls dinámicas son todas las que después de la url, tienen un símbolo de interrogación que hace que cambie el contenido.

Sería algo así como http://miweb.cm/?lo-quesea.

Dentro de este tipo de urls entran las de búsqueda, las urls de los comentarios de WordPress y muchas otras.

Estas sí que son un calentamiento de cabeza a la hora de tener contenido duplicado, porque cada plugin que instalemos puede tener las suyas, además de las de WordPress.

Normalmente se bloquean con la siguientes directivas:

User-agent: *
Disallow: /?s=
Disallow: /*?

El problema aquí es que esto NO va a evitar que estos contenidos se indexen, sino que lo harán, pero aparecerán bloqueados.

Si, puede que no te den problemas de contenido duplicado, pero no es la forma correcta de hacerlo, porque aunque esas páginas estén bloqueadas, están indexadas.

Lo que habría que hacer es evitar el indexado.

Bloqueo de bots y crawlers

Con esta directiva lo que se intenta es bloquear a robots malos o menos buenos indicándoles de buena manera que no indexen nuestro sitio web.

# Bloqueo de bots y crawlers poco utiles
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
Y resto…

Puede que haya alguno que sí respete la normativa y no indexe la web, pero desde mi punto de vista, la mayoría lo rastrearán.

Es más, a muchos les estarás dando más pistas de directorios que no conocían para que los rastree.

Para esto hay mejores soluciones como bloquearlos con algún plugin como Wordfence o directamente desde el hosting.

Url del sitemap

Respecto a la url del sitemap o mapa del sitio, hay varias cosas que debemos de tener en cuenta.

Lo primero es que si queremos que Google u otro buscador indexe el mapa del sitio que crea el plugin Yoast, no debemos de poner todas las urls.

Con poner la url del mapa principal tenemos, porque los buscadores accederán a los que hay internamente y los podremos controlar mejor desde nuestra web.

Aquí te dejo una captura para que vea que solo enviando el principal que está arriba, hemos hecho clic en él y se van indexando los demás.

Sitemap índice

Osea que no hace falta añadir a mano los mapas del sitio de entradas, páginas, categorías y demás como ellos los están poniendo.

# Si utilizas Yoast SEO estos son los sitemaps principales
Sitemap: https://raiolanetworks.es/sitemap_index.xml
Sitemap: https://raiolanetworks.es/category-sitemap.xml
Sitemap: https://raiolanetworks.es/page-sitemap.xml
Sitemap: https://raiolanetworks.es/post-sitemap.xml

Pero es que además pasa otra cosa.

Si indicas el mapa del sitio en el archivo robots, cualquier bot puede tener acceso a él y ver lo que estás indexando.

Puede que la cosa interese o no, ya dependiendo del tipo de web.

La pregunta del millón: ¿qué archivo robots.txt debo de crear entonces para mi web?

Supongo que si has llegado a leer todo esto, te estarás preguntando qué debes de poner en el archivo.

¿No debes crearlo? ¿Debes de dejarlo vacío? ¿Debes de bloquear solo algunas cosas? ¿Cuáles?

La respuesta es sencilla, pero además compleja.

Lo primero decirte que el archivo es fundamental para cualquier web, pero no se puede hacer a la ligera.

No hay un archivo robots.txt que sirva para 2 sitios web, dado que cada uno tiene sus necesidades.

No es lo mismo una web que tiene una tienda online, un blog que no se usa, un blog que tiene miles de entradas, etc.

Tampoco te puedo decir por ejemplo bloquea las categorías sin saber porqué hay que bloquearlas.

Si te digo pon esto o pon lo otro te mentiría porque hay muchas variables en este juego que te pueden perjudicar o mejorar el posicionamiento.

Así que desde mi punto de vista no deberías de copiar ningún archivo robots, porque no te sirve.

Es más, posiblemente te perjudique el posicionamiento.

[clickToTweet tweet=”Copiar un archivo robots.txt de otra web te solo servirá para perjudicar la tuya.” quote=”Copiar un archivo robots.txt de otra web solo te servirá para perjudicar la tuya.”]

Necesitas una solución real y personalizada

Te seré sincero, he dado miles de vueltas pensando en como ayudarte a crear un archivo robots personalizado para tu web y no lo puedo hacer con un artículo.

No es solo crear un archivo, necesitas una solución completa y adaptada a tu web, según las necesidades de tu proyecto.

Así que mi recomendación por ahora es que si no sabes qué bloquear, lo dejes en blanco como tengo yo.

Mira mi archivo.

¿Te he roto todos los esquemas?

Supongo que después de leer este artículo estarás en duda con ese archivo robots que tanto te has trabajado o al que le has dado tantas vueltas.

Tranquilo, yo he estado en tu misma situación después de la investigación que he estado haciendo durante semanas.

Podría haber hecho un artículo sobre “toma, el mejor archivo robots.txt para tu web”.

Incluso bien currado se podría haber posicionado delante de mi competencia, pero no es lo que quiero, no sería una solución real, sino un artículo con el que aumentar las visitas a web.

En fin, espero que este artículo te guste y si tienes alguna duda o quieres comentar algo, sabes que tienes la puerta abierta en mis comentarios.

Foto: https://es.123rf.com/profile_ktsdesign

¡Valora mi contenido!
[7 votos. Media: 3]
avatar
el más nuevo el más antiguo el más votado
Carlos
Invitado
Carlos

Hola excelente articulo

cuando hago un site:
me salen como 100 resultados asi: of /wp-content/uploads/wp-slimstat/browscap-db
Porque pasa esto y como lo soluciono?

Gracias.

juan carlos tumino pinto
Invitado

hola Raul como estas un saludo, amigo quiero plantearte un problema que tengo y no he podido encontrar solución, he enviado mi mapa del sitio en la search console y siempre queda en estado pendiente no quiere indexar no se el por que mas sin embargo cuando pruebo el mapa dice que no hay errores dime si te puedo contactar a algun sitio o me puedes ayudar por esta via de verdad te lo agradeceria en el alma ya que no consigo solución

Daniel
Invitado
Daniel

Hola!
Muy buen post!!

veras…

mi robots.txt mostraba lo siguiente:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

cuando configure toda mi search console (mandando mi sitemaps de yoast seo, etc), al rato me llego un mensaje diciendome que una pagina estaba indexada pero bloqueada por robots.txt.

procedí a eliminar el archivo robots.txt pero me sigue apareciendo bloqueada. De hecho hice la prueba poniendo en el buscador inurl: y me sale indexada pero sin información que mostrar (justo como le pasa a wordpress.com)

Para colmo, la página con la que me ocurre es la home… que debo hacer?

Ander
Invitado
Ander

Buenas tardes Raúl;

Mi pregunta es muy básica (y quizá estúpida) viendo el nivel de sabiduría al respecto de la mayoría, pero bueno, allá va:

He creado un sitemap .xml pero en ella no aparecen todo lo que google debería indexar, así como el blog del la web. He investigado por internet pero la verdad es que no me aclaro… También he intentado crear uno desde Search Console (el anterior lo cree con una herramienta online debido a este problema) “Tu sitemap parece ser una página HTML. un formato de sitemap compatible”. ¿Cómo creo un sitemap .html? ¿Es necesario? ¿Porque el sitemap no engloba todos los apartados de mi web?

¡Gracias por todo de antemano! 😉

Jimmy Díaz
Invitado

Curiosamente andaba diferenciando los robots.txt de varios sitios, me encontré con el tuyo y me asustó pues leí todo y muy bueno tu artículo. Muy agradecido.

Javier
Invitado
Javier

Hola Raul una pregunta. Search console me bloquea
wp-admin/admin-ajax.php

Y me dice que 91 paginas estan usando ese recurso bloqueado. Viendo tu articulo le puse
Allow: /wp-admin/admin-ajax.php
pero el all in one seo lo marca en amarillo
http://prntscr.com/ig9jig

Este es todo el código que inserto:

User-agent: *
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: *?replytocom
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
Allow: /wp-admin/admin-ajax.php
Sitemap: sitemap.xml

¿Me puedes decir si dejar Allow: /wp-admin/admin-ajax.php no tiene ningun peligro?

Gracias

Pedro
Invitado
Pedro

¡Buenas Raúl!

Antes que nada, felicitarte por el artículo que me ha aclarado bastantes aspectos importantes sobre el archivo robots.txt. Soy principiante y tengo una duda, por si me puedes ayudar a resolverla

Mi problema es el siguiente: En el mismo hosting tengo 2 páginas web distintas (una es un dominio adicional) y he recibido un correo de Search Console en el que pone: “Se ha detectado un nuevo problema de Cobertura del índice en http://www.midominioadicional.es/” y “robots.txt ha bloqueado la URL enviada”.

He “copiado” el archivo robots.txt de otro tutorial y lo he subido al directorio raíz (y he borrado el antiguo):
User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: http://dominioprincipal.com/sitemap_index.xml

Y mi pregunta es… ¿Y el archivo robots.txt del dominio adicional? La página del dominio adicional se indexa, pero no sé si debo subir otro archivo robots.txt a la carpeta del dominio adicional (como he leído en otras páginas) o agregar el sitemap del dominio adicional al ÚNICO robots.txt de la carpeta raíz.
User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: http://dominioprincipal.com/sitemap_index.xml
Sitemap: http://dominioadicional.com/sitemap_index.xml

En definitiva, me gustaría saber cómo configurar adecuadamente el ÚNICO archivo robots.txt del directorio raíz para que permita indexar uno o varios dominios adicionales contenidos en el mismo hosting

Disculpar si mi pregunta es una tontería (viendo el nivel de los comentarios del artículo), pero como he comentado, voy con la “L” y no logro encontrar la solución

Muchas gracias de antemano

Jota
Invitado
Jota

Hola Raul . La verdad es que después de dar un paseo para informarte del famoso robots.txt te quedas un poco desorientado y más, si al final lo mejor es dejarlo en blanco. Yo tengo un del tipo del principio de este post. Y hasta ahora no parece ir mal. Solo tengo un problemilla que no logro desactivar.

Es respecto a un error 403 de acceso denegado. Se supone que el robot está intentando acceder a la zona de wp-admin a través del archivo wp-login con cadenas como esta “wp-login.php?redirect_to=https%3A%2F%……………” en la que en los puntos suspensivos sigue el nombre de mi dominio y la ruta de wp-admin

Claro. Google no puede entrar porque es un area de login, pero ¿Como le digo que no entre ahí? Me ha generado más de 100 errores de este tipo todos con la estructura indicada.

Mi robot.txt en la parte que puede afectar a esto es el siguiente (que ya me estoy planteando reducir a la mínima expresión después de lo leído)
—————————-
User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
Disallow: /wp-includes/
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /category/*/*
Disallow: /page/
Disallow: /author/
Disallow: /comments/
Disallow: /location/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*
Disallow: */comment-subscriptions/

Disallow: /*?

User-agent: *
Disallow: /?s=
Disallow: /search

User-agent: *
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback

User-agent: *
Allow: /feed/$
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
—————————
Mil gracias si desde tu experiencia haces que deje de deambular buscando arreglar esto, si es que es importante

Eduardo Pardo
Invitado
Eduardo Pardo

Hola Raúl.
Yo tengo el robots típico de wordpress:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sin embargo en “explorar como Google” en algunas páginas me bloquea las imágenes y la secuencia de comandos y el robots aparece así:
User-agent: *
Disallow: /

El “probador de robots.txt” no da ningún error, tampoco en estas páginas.

¿Existen diferentes robots.txt?
¿Te has encontrado con este problema antes?
Pone que la gravedad es “Bajo” pero supongo que afecta al SEO, ¿verdad?

Un saludo y gracias por el post.

Manu Mess
Invitado
Manu Mess

Hola Raul
Vi este post y estoy teniendo tu mismo problema; quisiera saber como desbloqueaste para que indexe tu web??

José Miguel
Invitado
José Miguel

Pues de verdad que me has roto todos los esquemas. Lo extraño, es que Google no informe sobre lo que aquí afirmas y, si lo hace, me gustaría saber dónde.

El motivo de llegar aquí después de muchas búsquedas, es aclarar una duda.

Normalmente este es un archivo típico:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Pero que sucede si lo sustituimos por el siguiente:
User-agent: *
Disallow: /wp-admin

Muchas gracias por todo.

Manolo
Invitado
Manolo

Fantástico el comentario “la respuesta es simple, pero además compleja”. Así me queda mucho más claro 🙂

Diego
Invitado
Diego

Hola Raúl necesito ayuda para mi sitio y es al buscarlo en google en la descripción sale lo mismo “No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.” y quiero que aparezca mi descripción de WordPress. Busque muchas soluciones y no funcionan, espero que me ayudes por favor.

Eva
Invitado
Eva

Hola, muchas gracias.

tengo una duda, añado o no esto?
sitemap: http://miweb.com/sitemap_index.xml

muchas gracias por todo!!!

José Ant.
Invitado
José Ant.

Hola Raúl, te felicito por tus conocimientos y porque es de los mejores textos que he leído con sentido y que realmente ayudan. Necesito que me aconsejes sobre mi web almelx.es. Es una web construida por mi, con mis burdos conocimientos, pero intentando conseguir buenos resultados (no soy programador pero llevo trasteando ordenadores desde que existían el Amstrad, Dragon o el Spectrum). Montada con wordpress y WooCommerce, es una web de comercio que tambien uso categorias para productos, pero también quiero tener un blog. Tengo instalados Akismet, All in one Seo, Async JS and CSS, Aviso de Cookie, Contact Form 7, Postman SMTP y WP Rocket, que robots.txt me aconsejas y como quitar las URL duplicadas y/o con cadena de consulta. Por cierto uso también WPS Hide Login ¿puede alterar el rastreo o indexación ?. Un montón de gracias por ayudar con tus conocimientos.

Aarón
Invitado
Aarón

Hola Raúl. Yo tengo una web de carátulas. En la cuál cada una de ellas está en una entrada de wordpress, por lo que tengo miles.
Que me aconsejas que ponga en el robot?.
Muchas gracias.

Antonio
Invitado
Antonio

Hola Raúl,

Mi robots sale con 3 sitemaps, esta bien? Yo agregue el tercero siguiendo tu guía de sitemap en Yoast, cuando le di crear robots.txt los otros ya estaban.

Sitemap: sitemap.xml
Sitemap: news-sitemap.xml
Sitemap: sitemap_index.xml
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Por cierto buenas guías.

Antonio
Invitado
Antonio

Hola Raúl,

Se me fue, no quise mostrar mi web. espero lo edites, gracias.

javier posada
Invitado
javier posada

Raúl muchas gracias por el tutorial muy útil,
el robots.txt lo genere con yoast automáticamente esto:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php