¿Es posible que la mayoría de los archivos robots.txt que se usan en WordPress estén mal enfocados?
Después de la experiencia que tengo optimizando páginas web tengo una respuesta clara.
Si, la mayoría de los que veo están equivocados.
Bien porque están bloqueando más de lo que deben o todo lo contrario.
Por eso hoy voy a ayudarte a entender como funciona realmente el archivo robots.txt.
Además, veremos algunos casos de los fallos más comunes que se suelen ver.
Ya decides tú.
Contenido
- ¿Qué es un archivo robots.txt?
- ¿Para qué nos puede servir?
- ¿Para qué NO sirve el robots.txt?
- La diferencia entre noindex y disallow
- El archivo robots virtual de WordPress
- Analizo el típico robots.txt y te explico porqué es erróneo
- La pregunta del millón: ¿qué archivo robots.txt debo de crear entonces para mi web?
- Necesitas una solución real y personalizada
- ¿Te he roto todos los esquemas?
¿Qué es un archivo robots.txt?
El robots.txt es un archivo físico que se crea en la raíz donde se aloja la página web o en caso de WordPress también puede ser virtual.
Sirve para dar indicaciones a los buscadores y bots de como tienen que rastrear nuestro sitio web.
Con él podemos limitar el modo que rastrear nuestra web, qué es lo que tienen que rastrear y como, y muchas más cosas.
Aunque debes de saber que puede que estas indicaciones las tengan en cuenta o no, dado que mucho no siguen estos estándares.
[clickToTweet tweet=”El archivo robots sugiere pero no bloquea, ni evita que los bots indexen un sitio web” quote=”El archivo robots sugiere pero no bloquea, ni evita que los bots indexen un sitio web”]
¿Para qué nos puede servir?
Este archivo tiene muchos usos, pero te diré los más comunes.
Intentar controlar lo que los bosts pueden rastrear
Desde él se pueden indicar qué directorios y contenidos permitimos que puedan ser rastreados.
Ojo: digo rastreados y no indexados, porque este archivo no impide que se indexen contenidos, aunque sí se muestran bloqueados en los resultados.
También se les puede indicar cada cuanto tiempo queremos que rastreen la web para que no tener un consumo desmesurado de recursos.
Añadir el sitemap o mapa del sitio
Si ya has creado tu mapa del sitio y lo has enviado a los buscadores, estos ya tendrán estos datos.
Pero puede que te interese que otros buscadores puedan acceder a él, así que lo podemos indicar en este archivo para facilitarles la tarea.
¿Para qué NO sirve el robots.txt?
Veo muchos sitios web que hacen un uso inadecuado de este archivo, así que voy a darte algunas indicaciones para que sepas los usos que no debes hacer.
Para ocultar o proteger directorios
Si tienes algo que no quieres que vean, no lo pongas aquí porque será todo lo contrario.
Todo bot o persona que vea tu archivo sabrá que intentas proteger ese directorio y más ganas le entrarán de ver qué hay.
Para NO indexar directorios de WordPress
Si por algún motivo se te están indexando directorios como el wp-admin, wp-includes o el wp-content, debes de saber que no es problema de este archivo como más abajo te explicaré.
Es porque tu hosting no está configurado para evitar el listado de directorios.
Si encima los bloqueas desde este archivo, lo que haces es empeorarlo.
La diferencia entre noindex y disallow
Debes de tener claros estos 2 conceptos para que puedas entender lo que viene a continuación.
Cuando indicamos a un contenido que sea noindex, estamos evitando que se indexe en los buscadores. Osea que no aparecerá.
Pero si lo que hacemos es bloquearlo mediante disallow no evitamos que se indexe, sino que lo hará, pero aparecerá bloqueado con la frase de “No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio”.
Pero este seguirá indexado, cosa que hará que aumente el número de páginas que los buscadores deben rastrear.
El archivo robots virtual de WordPress
Antes de seguir debes de saber que en WordPress existen 2 tipos de archivos robots.txt, uno virtual y uno físico que puedes crear.
El archivo virtual lo trae WordPress de serie y solo se puede editar desde plugins o desde código.
En el momento en el que tú crees uno de forma física, el virtual queda invalidado, así que tenlo en cuenta.
La finalidad es la misma, pero el físico lo podemos editar de forma sencilla y el virtual no.
Analizo el típico robots.txt y te explico porqué es erróneo
El otro día haciendo una búsqueda de ejemplos para crear estos archivos, dí con un artículo de Raiola Network que son un hosting especializado en WordPress.
En él nos ponen como ejemplo el archivo perfecto para WordPress que todos deberíamos de crear.
Si no tienes conocimientos, lo normal es que cojas este archivo y lo copies en tu web al cuál.
Pero déjame decirte que estarías cometiendo un error garrafal si lo hicieras de esa manera.
Mi intención es ponerlo como ejemplo simplemente para poder analizarlo con profundidad, dado que es uno de los más “completos”.
Me gustaría aclarar que ellos junto a Siteground y Webempresa son mis hostings favoritos, así que no hay ninguna intención de perjudicar a nadie.
El archivo robots.txt que ponen de ejemplo es el siguiente:
#robots de Raiola Networks #es necesario personalizar algunas opciones o puede dar problemas # Bloqueo basico para todos los bots y crawlers # puede dar problemas por bloqueo de recursos en GWT User-agent: * Allow: /wp-content/uploads/* Allow: /wp-content/*.js Allow: /wp-content/*.css Allow: /wp-includes/*.js Allow: /wp-includes/*.css Disallow: /cgi-bin Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /*/attachment/ Disallow: /tag/*/page/ Disallow: /tag/*/feed/ Disallow: /page/ Disallow: /comments/ Disallow: /xmlrpc.php Disallow: /?attachment_id* # Bloqueo de las URL dinamicas Disallow: /*? #Bloqueo de busquedas User-agent: * Disallow: /?s= Disallow: /search # Bloqueo de trackbacks User-agent: * Disallow: /trackback Disallow: /*trackback Disallow: /*trackback* Disallow: /*/trackback # Bloqueo de feeds para crawlers User-agent: * Allow: /feed/$ Disallow: /feed/ Disallow: /comments/feed/ Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # Ralentizamos algunos bots que se suelen volver locos User-agent: noxtrumbot Crawl-delay: 20 User-agent: msnbot Crawl-delay: 20 User-agent: Slurp Crawl-delay: 20 # Bloqueo de bots y crawlers poco utiles User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / # Previene problemas de recursos bloqueados en Google Webmaster Tools User-Agent: Googlebot Allow: /*.css$ Allow: /*.js$ # En condiciones normales este es el sitemap Sitemap: https://raiolanetworks.es/sitemap.xml # Si utilizas Yoast SEO estos son los sitemaps principales Sitemap: https://raiolanetworks.es/sitemap_index.xml Sitemap: https://raiolanetworks.es/category-sitemap.xml Sitemap: https://raiolanetworks.es/page-sitemap.xml Sitemap: https://raiolanetworks.es/post-sitemap.xml
Sin duda alguna es un archivo muy currado, menos por un pequeño detalle.
Este archivo no sirve o por lo menos no es la forma adecuada para hacer las cosas y te lo voy a explicar punto por punto.
El bloqueo de directorios de WordPress
Como la siguiente directiva están intentando evitar que directorios como wp-admin, wp-content y wp-includes se rastreen.
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Aquí tenemos varios problemas.
Desde que salió el algoritmo penguin 4 de Google, este quiere tener acceso a todos los archivos de una web ya sean CSS, JS, etc.
Ya no basta con que pueda examinar los HTML, debe de analizar la web completa incluidos todos los scripts.
Estos archivos se encuentran dentro de wp-includes y wp-content.
Si bloqueamos estas carpetas, lo único que estamos haciendo es entorpecer a los buscadores, por mucho que le demos acceso a algunos recursos.
Puede que mediante algunas directivas le des acceso a ciertos directorios, pero desde mi punto de vista no se debería de bloquear ninguno y hasta Yoast lo cuenta en su blog.
Si no me crees mira su archivo y verás como en él no bloquean nada.
Pero por otra parte y como te he comentado antes, puede que se nos estén indexando estos directorios y el motivo es porque el hosting permite el listado de directorios, cosa que es un error garrafal de seguridad.
Pero no se debería de arreglar de este modo porque al final lo estamos haciendo peor.
Si quieres ver otro ejemplo tienes la web de WordPress.com que gracias a indicar que quiere bloquear la carpeta admin de los resultados, ahora la está indexando, aunque indique que está bloqueada por robots.
Esto lo puedes probar tú mismo usando los comandos avanzados de Google.
Bloqueo de categorías y etiquetas
Es cierto que si no optimizamos correctamente el SEO de las categorías y etiquetas producen contenido duplicado y eso nos penaliza en los resultados.
Y que la mejor forma que tenemos de que no se indexen es aplicando noindex.
Pero si aplicamos el bloqueo directamente en el archivo robots, lo que vamos a conseguir es que jamás podamos eliminar esas urls de los resultados porque están bloqueadas.
Disallow: /category/
Disallow: /tag/
¿Se puede aplicar las directivas a categorías y etiquetas?
Puedes depende de la web, depende de la estrategia de contenidos y más cosas.
Pero es que si además le hemos quitado de la url el “tag” y el “category” que WordPress trae de serie y como muchos sitios hacen, estas directivas no sirven para nada.
Bloqueo de los feeds
Si le echas un ojo a lo siguiente, lo que se supone que hace es bloquear los feeds RSS de WordPress para que no se rastreen y tampoco den problemas de contenido duplicado.
User-agent: *
Disallow: /feed/
El problema de esto es que no sirve absolutamente para nada, dado que WordPress aplica noindex a los feeds, osea que no se indexan y en la siguiente imagen te lo muestro.
He testeado los feeds de mi web con una herramienta y WordPress les está aplicando noindex mediante x-robots.
Osea que no sirve todo lo que se está poniendo para bloquearlos.
Bloqueo de urls dinámicas
Las urls dinámicas son todas las que después de la url, tienen un símbolo de interrogación que hace que cambie el contenido.
Sería algo así como http://miweb.cm/?lo-quesea.
Dentro de este tipo de urls entran las de búsqueda, las urls de los comentarios de WordPress y muchas otras.
Estas sí que son un calentamiento de cabeza a la hora de tener contenido duplicado, porque cada plugin que instalemos puede tener las suyas, además de las de WordPress.
Normalmente se bloquean con la siguientes directivas:
User-agent: *
Disallow: /?s=
Disallow: /*?
El problema aquí es que esto NO va a evitar que estos contenidos se indexen, sino que lo harán, pero aparecerán bloqueados.
Si, puede que no te den problemas de contenido duplicado, pero no es la forma correcta de hacerlo, porque aunque esas páginas estén bloqueadas, están indexadas.
Lo que habría que hacer es evitar el indexado.
Bloqueo de bots y crawlers
Con esta directiva lo que se intenta es bloquear a robots malos o menos buenos indicándoles de buena manera que no indexen nuestro sitio web.
# Bloqueo de bots y crawlers poco utiles
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
Y resto…
Puede que haya alguno que sí respete la normativa y no indexe la web, pero desde mi punto de vista, la mayoría lo rastrearán.
Es más, a muchos les estarás dando más pistas de directorios que no conocían para que los rastree.
Para esto hay mejores soluciones como bloquearlos con algún plugin como Wordfence o directamente desde el hosting.
Url del sitemap
Respecto a la url del sitemap o mapa del sitio, hay varias cosas que debemos de tener en cuenta.
Lo primero es que si queremos que Google u otro buscador indexe el mapa del sitio que crea el plugin Yoast, no debemos de poner todas las urls.
Con poner la url del mapa principal tenemos, porque los buscadores accederán a los que hay internamente y los podremos controlar mejor desde nuestra web.
Aquí te dejo una captura para que vea que solo enviando el principal que está arriba, hemos hecho clic en él y se van indexando los demás.
Osea que no hace falta añadir a mano los mapas del sitio de entradas, páginas, categorías y demás como ellos los están poniendo.
# Si utilizas Yoast SEO estos son los sitemaps principales
Sitemap: https://raiolanetworks.es/sitemap_index.xml
Sitemap: https://raiolanetworks.es/category-sitemap.xml
Sitemap: https://raiolanetworks.es/page-sitemap.xml
Sitemap: https://raiolanetworks.es/post-sitemap.xml
Pero es que además pasa otra cosa.
Si indicas el mapa del sitio en el archivo robots, cualquier bot puede tener acceso a él y ver lo que estás indexando.
Puede que la cosa interese o no, ya dependiendo del tipo de web.
La pregunta del millón: ¿qué archivo robots.txt debo de crear entonces para mi web?
Supongo que si has llegado a leer todo esto, te estarás preguntando qué debes de poner en el archivo.
¿No debes crearlo? ¿Debes de dejarlo vacío? ¿Debes de bloquear solo algunas cosas? ¿Cuáles?
La respuesta es sencilla, pero además compleja.
Lo primero decirte que el archivo es fundamental para cualquier web, pero no se puede hacer a la ligera.
No hay un archivo robots.txt que sirva para 2 sitios web, dado que cada uno tiene sus necesidades.
No es lo mismo una web que tiene una tienda online, un blog que no se usa, un blog que tiene miles de entradas, etc.
Tampoco te puedo decir por ejemplo bloquea las categorías sin saber porqué hay que bloquearlas.
Si te digo pon esto o pon lo otro te mentiría porque hay muchas variables en este juego que te pueden perjudicar o mejorar el posicionamiento.
Así que desde mi punto de vista no deberías de copiar ningún archivo robots, porque no te sirve.
Es más, posiblemente te perjudique el posicionamiento.
[clickToTweet tweet=”Copiar un archivo robots.txt de otra web te solo servirá para perjudicar la tuya.” quote=”Copiar un archivo robots.txt de otra web solo te servirá para perjudicar la tuya.”]
Necesitas una solución real y personalizada
Te seré sincero, he dado miles de vueltas pensando en como ayudarte a crear un archivo robots personalizado para tu web y no lo puedo hacer con un artículo.
No es solo crear un archivo, necesitas una solución completa y adaptada a tu web, según las necesidades de tu proyecto.
Así que mi recomendación por ahora es que si no sabes qué bloquear, lo dejes en blanco como tengo yo.
Mira mi archivo.
¿Te he roto todos los esquemas?
Supongo que después de leer este artículo estarás en duda con ese archivo robots que tanto te has trabajado o al que le has dado tantas vueltas.
Tranquilo, yo he estado en tu misma situación después de la investigación que he estado haciendo durante semanas.
Podría haber hecho un artículo sobre “toma, el mejor archivo robots.txt para tu web”.
Incluso bien currado se podría haber posicionado delante de mi competencia, pero no es lo que quiero, no sería una solución real, sino un artículo con el que aumentar las visitas a web.
En fin, espero que este artículo te guste y si tienes alguna duda o quieres comentar algo, sabes que tienes la puerta abierta en mis comentarios.
Foto: https://es.123rf.com/profile_ktsdesign
Hola Raul, quería mostrarte esta URL https://www.proalt.es/wp-content/themes/enfold/framework/images/layout/?S ¿qué te parece? ¿Como podría limpiarla?
Raúl, buen dia muy interesante tu artículo, tengo un problema con robot.txt, tanto en search console como analytics me tiran esto: “Se ha indexado aunque un archivo robots.txt la ha bloqueado” y no puedo obtener los informes deseados por que hay una discrepancia entre las visitas y el numero de clics.
Natalia, eso es porque el archivo robots está bloqueando algo, pero sin verlo no sabría decirte qué, ni cómo. Saludos.
Hola Raúl. interesante artículo!
Tengo una duda. Google me está indexando las urls (/?s=) aunque las tenga bloqueadas en robots.txt. ¿Qué puedo hacer? En total son 265 urls.
Según google esas urls se han indexado porque alguien me está enlazando con http://www.misitio.com/?s=hola
¿Qué me recomiendas hacer?
Gracias!
Antonio, si usas Yoast SEO no deberías tener ese problema. Si ya lo tienes, pues espera que se eliminen o hazlo tú a mando desde Search Console. Saludos.
Hola excelente articulo
cuando hago un site:
me salen como 100 resultados asi: of /wp-content/uploads/wp-slimstat/browscap-db
Porque pasa esto y como lo soluciono?
Gracias.
Carlos, habría que mirarlo. Puede ser del hosting, del plugin de SEO, etc. Saludos.
hola Raul como estas un saludo, amigo quiero plantearte un problema que tengo y no he podido encontrar solución, he enviado mi mapa del sitio en la search console y siempre queda en estado pendiente no quiere indexar no se el por que mas sin embargo cuando pruebo el mapa dice que no hay errores dime si te puedo contactar a algun sitio o me puedes ayudar por esta via de verdad te lo agradeceria en el alma ya que no consigo solución
Juan Carlos, tienes mi página de contacto para ello. Saludos.
Hola!
Muy buen post!!
veras…
mi robots.txt mostraba lo siguiente:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
cuando configure toda mi search console (mandando mi sitemaps de yoast seo, etc), al rato me llego un mensaje diciendome que una pagina estaba indexada pero bloqueada por robots.txt.
procedí a eliminar el archivo robots.txt pero me sigue apareciendo bloqueada. De hecho hice la prueba poniendo en el buscador inurl: y me sale indexada pero sin información que mostrar (justo como le pasa a wordpress.com)
Para colmo, la página con la que me ocurre es la home… que debo hacer?
Daniel, tienes que decirle a Google que analice de nuevo el archivo robots.txt desde Search Console. Verás como así no te da error. Saludos.
Gracias Raúl. Hice lo que me dices y bueno, ahora estoy esperando a que pase un tiempo porque el analizador me sigue mostrando lo que vió el día 25. Espero que cuando se actualice ya no me salga el error. Saludos!
Buenas tardes Raúl;
Mi pregunta es muy básica (y quizá estúpida) viendo el nivel de sabiduría al respecto de la mayoría, pero bueno, allá va:
He creado un sitemap .xml pero en ella no aparecen todo lo que google debería indexar, así como el blog del la web. He investigado por internet pero la verdad es que no me aclaro… También he intentado crear uno desde Search Console (el anterior lo cree con una herramienta online debido a este problema) “Tu sitemap parece ser una página HTML. un formato de sitemap compatible”. ¿Cómo creo un sitemap .html? ¿Es necesario? ¿Porque el sitemap no engloba todos los apartados de mi web?
¡Gracias por todo de antemano! 😉
Ander, ¿has echado un ojo a este artículo? Míralo porque ahí está lo que necesitas saber. Saludos.
Curiosamente andaba diferenciando los robots.txt de varios sitios, me encontré con el tuyo y me asustó pues leí todo y muy bueno tu artículo. Muy agradecido.
Me alegro que te haya gustado Jimmy. Saludos.
Hola Raul una pregunta. Search console me bloquea
wp-admin/admin-ajax.php
Y me dice que 91 paginas estan usando ese recurso bloqueado. Viendo tu articulo le puse
Allow: /wp-admin/admin-ajax.php
pero el all in one seo lo marca en amarillo
http://prntscr.com/ig9jig
Este es todo el código que inserto:
User-agent: *
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: *?replytocom
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
Allow: /wp-admin/admin-ajax.php
Sitemap: sitemap.xml
¿Me puedes decir si dejar Allow: /wp-admin/admin-ajax.php no tiene ningun peligro?
Gracias
Javier, si estás bloqueando el /wp-admin/ obviamente necesitas que los robots accedan a admin-ajax.php para que puedan ejecutar la página.
De todas maneras en el artículo ya doy mi punto de vista sobre ello, pero te recuerdo que no hay necesidad de bloquear nada si se hacen bien las cosas.
Saludos y gracias por comentar.
¡Buenas Raúl!
Antes que nada, felicitarte por el artículo que me ha aclarado bastantes aspectos importantes sobre el archivo robots.txt. Soy principiante y tengo una duda, por si me puedes ayudar a resolverla
Mi problema es el siguiente: En el mismo hosting tengo 2 páginas web distintas (una es un dominio adicional) y he recibido un correo de Search Console en el que pone: “Se ha detectado un nuevo problema de Cobertura del índice en http://www.midominioadicional.es/” y “robots.txt ha bloqueado la URL enviada”.
He “copiado” el archivo robots.txt de otro tutorial y lo he subido al directorio raíz (y he borrado el antiguo):
User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: http://dominioprincipal.com/sitemap_index.xml
Y mi pregunta es… ¿Y el archivo robots.txt del dominio adicional? La página del dominio adicional se indexa, pero no sé si debo subir otro archivo robots.txt a la carpeta del dominio adicional (como he leído en otras páginas) o agregar el sitemap del dominio adicional al ÚNICO robots.txt de la carpeta raíz.
User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: http://dominioprincipal.com/sitemap_index.xml
Sitemap: http://dominioadicional.com/sitemap_index.xml
En definitiva, me gustaría saber cómo configurar adecuadamente el ÚNICO archivo robots.txt del directorio raíz para que permita indexar uno o varios dominios adicionales contenidos en el mismo hosting
Disculpar si mi pregunta es una tontería (viendo el nivel de los comentarios del artículo), pero como he comentado, voy con la “L” y no logro encontrar la solución
Muchas gracias de antemano
Hola Pedro,
Lo que tienes que preguntarte es por qué quieres bloquear algo. WordPress ya trae un archivo robots predefinido para bloquear el wp-admin dando acceso al ajax. El resto no se debería de bloquear desde esto, sino usando noindex.
Lo del sitemap en el archivo robots es simplemente una ayuda para otros buscadores. Si ya has enviado el sitemap a Google no necesitas ponerlo ahí.
Hazme caso y no te compliques. ¡La vida es más sencilla de lo que parece!
Un saludo y gracias por comentar.
Hola Raul . La verdad es que después de dar un paseo para informarte del famoso robots.txt te quedas un poco desorientado y más, si al final lo mejor es dejarlo en blanco. Yo tengo un del tipo del principio de este post. Y hasta ahora no parece ir mal. Solo tengo un problemilla que no logro desactivar.
Es respecto a un error 403 de acceso denegado. Se supone que el robot está intentando acceder a la zona de wp-admin a través del archivo wp-login con cadenas como esta “wp-login.php?redirect_to=https%3A%2F%……………” en la que en los puntos suspensivos sigue el nombre de mi dominio y la ruta de wp-admin
Claro. Google no puede entrar porque es un area de login, pero ¿Como le digo que no entre ahí? Me ha generado más de 100 errores de este tipo todos con la estructura indicada.
Mi robot.txt en la parte que puede afectar a esto es el siguiente (que ya me estoy planteando reducir a la mínima expresión después de lo leído)
—————————-
User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
Disallow: /wp-includes/
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /category/*/*
Disallow: /page/
Disallow: /author/
Disallow: /comments/
Disallow: /location/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*
Disallow: */comment-subscriptions/
Disallow: /*?
User-agent: *
Disallow: /?s=
Disallow: /search
User-agent: *
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback
User-agent: *
Allow: /feed/$
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
—————————
Mil gracias si desde tu experiencia haces que deje de deambular buscando arreglar esto, si es que es importante
Hola Jota,
A ver, una cosa es el bloqueo y otra la indexación. Los robots tienen que examinar tu sitio sí o sí para ejecutar el código completo. Y respecto al admin de WordPress, el archivo virtual que tiene ya hace que este no se indexe.
Ahora, respecto a poner el archivo de un modo u otro, depende del sitio web y lo que se quiera hacer. Yo personalmente prefiero controlar esto desde algún plugin como Yoast y dejar el robots.txt para cosas que no se puedan controlar desde WordPress.
Espero que te haya ayudado.
Un saludo.
Hola Raul. Gracias por tu respuesta, pero sigo un poco igual respecto a porque me devuelve esos errores 403 de acceso denegado y si les debo dar importancia o entra dentro de lo normal, porque, claro que hay acceso denegado. Obviamente google no sabe los usuarios y passwords para entrar en el panel de control de WP. Lo que me mosquea es que siendo tan obvio que es una zona restringida siendo además algo, que como dices, el propio archivo virtual que ya tiene wordpress ya hace que no se indexe. salten todas esas advertencias.
En algún sitio he leído que esos 403 hay que verlos pero que si son por el motivo de ser zonas restringidas, es decir, que no es un error de otro tipo, que no hay que hacerles mucho caso, y que no afectan al SEO ¿Tu que opinas?
Hola Jota,
Mandame un email desde la página de contacto y lo miramos.
Saludos.
Hola Raúl.
Yo tengo el robots típico de wordpress:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sin embargo en “explorar como Google” en algunas páginas me bloquea las imágenes y la secuencia de comandos y el robots aparece así:
User-agent: *
Disallow: /
El “probador de robots.txt” no da ningún error, tampoco en estas páginas.
¿Existen diferentes robots.txt?
¿Te has encontrado con este problema antes?
Pone que la gravedad es “Bajo” pero supongo que afecta al SEO, ¿verdad?
Un saludo y gracias por el post.
Hola Eduardo,
Está el robot normal y el virtual como comento en el post. Aunque el primero machaca al segundo.
Puede que tu problema venga por algún plugin, aunque así de primeras y sin verlo no sabría decirte. Problemas de este tipo hay montones y todos los días descubro alguno.
Claro que te afecta al SEO, estás bloqueando toda la web, así que míralo bien.
Saludos.
Hola Raul
Vi este post y estoy teniendo tu mismo problema; quisiera saber como desbloqueaste para que indexe tu web??
Manu, es que esto depende de muchos factores. Es cosa de que vayas probando todo. Saludos.
Pues de verdad que me has roto todos los esquemas. Lo extraño, es que Google no informe sobre lo que aquí afirmas y, si lo hace, me gustaría saber dónde.
El motivo de llegar aquí después de muchas búsquedas, es aclarar una duda.
Normalmente este es un archivo típico:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Pero que sucede si lo sustituimos por el siguiente:
User-agent: *
Disallow: /wp-admin
Muchas gracias por todo.
Si cambias el código por el segundo “bloqueas” todo el admin y Google no puede acceder a algunos archivos que necesita.
Como has podido ver, no hay necesidad de bloquear tanto contenido desde el Robots porque por un lado hace que no puedan analizarla bien y por otro hay muchos que pasan de lo que dice.
Saludos.
Fantástico el comentario “la respuesta es simple, pero además compleja”. Así me queda mucho más claro 🙂
Hola Raúl necesito ayuda para mi sitio y es al buscarlo en google en la descripción sale lo mismo “No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.” y quiero que aparezca mi descripción de WordPress. Busque muchas soluciones y no funcionan, espero que me ayudes por favor.
Diego puede ser porque has bloqueado tu sitio desde el archivo robots o a lo mejor has marcado las casilla de “Disuade a los motores de búsqueda de indexar este sitio” en ajustes – lectura de WordPress. Saludos.
Muchas gracias por la respuesta Raul, pero ya desmarque la casilla y tengo un plugin e igual sigue apareciendo el mensaje de “No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.” en la descripción de mi web, en mi archivo robots.txt solo tengo
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Por favor ayudame a que aparezca mi descripción
Hola, muchas gracias.
tengo una duda, añado o no esto?
sitemap: http://miweb.com/sitemap_index.xml
muchas gracias por todo!!!
Eva, si esa url está correcta y es la de tu sitemap, pues sí que lo puedes añadir. Saludos.
Muchas gracias Raúl, estupendos tus artículos.
Hola Raúl, te felicito por tus conocimientos y porque es de los mejores textos que he leído con sentido y que realmente ayudan. Necesito que me aconsejes sobre mi web almelx.es. Es una web construida por mi, con mis burdos conocimientos, pero intentando conseguir buenos resultados (no soy programador pero llevo trasteando ordenadores desde que existían el Amstrad, Dragon o el Spectrum). Montada con wordpress y WooCommerce, es una web de comercio que tambien uso categorias para productos, pero también quiero tener un blog. Tengo instalados Akismet, All in one Seo, Async JS and CSS, Aviso de Cookie, Contact Form 7, Postman SMTP y WP Rocket, que robots.txt me aconsejas y como quitar las URL duplicadas y/o con cadena de consulta. Por cierto uso también WPS Hide Login ¿puede alterar el rastreo o indexación ?. Un montón de gracias por ayudar con tus conocimientos.
Hola José,
Muchas gracias y me alegro que te haya sido de ayuda.
Mándame un email y hablamos de lo tuyo.
Saludos.
Hola Raúl. Yo tengo una web de carátulas. En la cuál cada una de ellas está en una entrada de wordpress, por lo que tengo miles.
Que me aconsejas que ponga en el robot?.
Muchas gracias.
Aarón no te puedo recomendar crear un archivo robots.txt así por que sí. Eso requiere un estudio de la web, porque si no podemos hasta perjudicarla.
Saludos.
Hola Raúl,
Mi robots sale con 3 sitemaps, esta bien? Yo agregue el tercero siguiendo tu guía de sitemap en Yoast, cuando le di crear robots.txt los otros ya estaban.
Sitemap: sitemap.xml
Sitemap: news-sitemap.xml
Sitemap: sitemap_index.xml
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Por cierto buenas guías.
Hola Raúl,
Se me fue, no quise mostrar mi web. espero lo edites, gracias.
Hola Antonio,
En tu caso solo necesitas 2 Sitemaps. Uno el de Yoast y otro el de las noticias.
No te preocupes, ya he borrado la url.
Saludos.
Raúl muchas gracias por el tutorial muy útil,
el robots.txt lo genere con yoast automáticamente esto:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Si Javier, ese es el típico archivo robots que crea WordPress, aunque como digo en el artículo, hay que ver muy bien lo que se bloquea, porque la reglas de hoy día han cambiado. Saludos.