Como propietario de un sitio web, es posible que hayas observado contenido generado automáticamente en las secciones de comentarios o en las conversaciones de los foros. Esto no solo afecta a la experiencia de los usuarios que visitan tu sitio web, sino que también puede incluir contenido que quizá no quieras que se asocie a tu sitio web en Google o en otros motores de búsqueda.
En esta entrada del blog, te ofreceremos consejos para ayudarte a hacer frente a este tipo de spam en tu sitio web o foro.
Algunos spammers hacen un uso inadecuado de los sitios web de otros usuarios publicando contenido y enlaces engañosos, con el fin de conseguir más tráfico para su sitio web. A continuación se muestran algunos ejemplos:
Los comentarios y las conversaciones de los foros pueden ser una buena fuente de información y una manera eficaz de involucrar a los usuarios de los sitios web en debates. Es una lástima que este contenido valioso pase desapercibido a causa de las palabras clave que se generan automáticamente y los enlaces que colocan los spammers.
Hay muchas maneras de proteger los foros y los comentarios de tu sitio web, y de evitar que sean atractivos para los spammers.
 Mantén el software de tu foro actualizado y con los parches pertinentes. Dedica un tiempo a actualizar el software y presta atención a las actualizaciones de seguridad importantes. Los spammers aprovechan los errores de seguridad de las versiones antiguas de los blogs, los tablones de noticias y otros sistemas de gestión de contenido para sus propios fines.
●  Añade un CAPTCHA. Los CAPTCHA obligan a los usuarios a confirmar que no son robots. Tienen que demostrar que son seres humanos y no un script automatizado. Una manera de hacerlo es usando un servicio como reCAPTCHA, Securimage o Jcaptcha.

●  Bloquea los comportamientos sospechosos. Muchos foros te permiten establecer límites de tiempo entre las entradas. A menudo, puedes encontrar complementos que detectan el tráfico excesivo procedente de direcciones IP individuales o proxies, y otras actividades más propias de los robots que de los seres humanos. Por ejemplo, phpBB, Simple Machines, myBB y muchas otras plataformas de foros cuentan con estas configuraciones.
 Consulta diariamente quiénes son los usuarios que más entradas publican en el foro. Si un usuario se ha unido recientemente y publica una cantidad excesiva de entradas, deberás revisar su perfil y asegurarte de que sus entradas y comentarios no sean spam.
Puedes inhabilitar algunos tipos de comentarios. Por ejemplo, una práctica recomendada es cerrar todas las conversaciones antiguas del foro que no vayan a recibir respuestas legítimas.
Si no quieres supervisar tu foro más adelante y los usuarios ya no interactúan con él, desactiva la publicación de entradas por completo para evitar que los spammers hagan un uso inadecuado de esta función.
Aprovecha las posibilidades de moderación. Puedes habilitar funciones de moderación que requieran que los usuarios tengan una cierta reputación para poder publicar enlaces o comentarios con enlaces.
Si es posible, modifica tu configuración para bloquear las entradas anónimas y hacer que las entradas de usuarios nuevos requieran tu aprobación antes de ser visibles para todo el mundo.
Los moderadores, junto con tus amigos o compañeros y otros usuarios de confianza, pueden ayudarte a revisar y a aprobar entradas (así se reparte el trabajo). Presta atención a los usuarios nuevos de tu foro y observa las entradas y actividades que llevan a cabo en él.
Puedes incluir en una lista negra los términos que designan contenido fraudulento. Bloquea los comentarios que son claramente inadecuados mediante una lista negra de términos que designan contenido fraudulento (p. ej., el streaming ilegal o los términos farmacéuticos). Añade términos inadecuados y sin relación con el tema que solamente usen los spammers; para identificarlos, puedes consultar las entradas fraudulentas que aparecen en tu foro o en otros foros. Integra funciones o complementos que puedan eliminar o marcar comentarios como spam por ti.
 Usa el atributo "nofollow" para los enlaces del campo de comentarios. De esta manera, disuadirás a los spammers para que dejen de fijarse en tu sitio web. De forma predeterminada, muchos sitios web de blogs, como Blogger, añaden este atributo de forma automática a cualquier comentario que se publique.
 Usa sistemas automatizados para proteger tu sitio web.  Los sistemas integrales como Akismet, que cuenta con complementos para muchos blogs y sistemas de foros, son fáciles de instalar y hacen la mayor parte del trabajo por ti.


Para obtener información detallada sobre estos temas, consulta el documento del Centro de Ayuda sobre el spam generado por usuarios y los comentarios con spam. También puedes visitar nuestro Foro de ayuda para webmasters si tienes dudas.
Escrito por Anouar Bendahou, Estratega de Calidad de Búsqueda. Publicado por Joan Ortiz, Equipo de Calidad de Google.

Últimamente se han oído muchas definiciones del término "crawl budget" o "presupuesto de rastreo". Sin embargo, no hay una única palabra que describa íntegramente este concepto para los usuarios. Esta entrada de blog pretende aclarar qué es y qué significa para el robot de Google.

En primer lugar, quiero resaltar que, como se describe a continuación, no es algo que debería preocupar a la mayoría de los editores. Si las páginas nuevas suelen rastrearse el mismo día en que se publican, no es imprescindible que los webmasters se fijen en el presupuesto de rastreo. Si el sitio web tiene unas pocas miles de URL, casi siempre se rastreará bien.

Priorizar el contenido que se debe rastrear, cuándo debe rastrearse y cuántos recursos puede asumir el servidor que aloja el sitio es más importante para los sitios web grandes o para aquellos que generan páginas automáticamente a partir de parámetros de URL, por ejemplo.



Límite de la frecuencia de rastreo
El robot de Google está diseñado para tener un funcionamiento ejemplar en la Web. Su prioridad es el rastreo, pero también se asegura de que no se degrade la experiencia de los usuarios en el sitio web. Esto se llama "frecuencia de rastreo", que limita la frecuencia con la que se obtienen las páginas de un sitio web.

Es decir, representa el número de conexiones paralelas y simultáneas que utiliza el robot de Google para rastrear el sitio web, así como el tiempo de espera entre cada obtención. La frecuencia de rastreo puede aumentar o disminuir en función de dos factores:

  • Estado del rastreo: si el sitio web responde rápidamente durante un tiempo, el límite aumenta, lo que significa que se pueden usar más conexiones para rastrear las páginas. Si el sitio se ralentiza o genera errores de servidor, el límite disminuye y el robot de Google rastrea menos páginas.
  • Límite definido en Search Console: el propietario de un sitio web puede reducir la frecuencia de rastreo del robot de Google en su sitio. Ampliar el límite no aumenta automáticamente la frecuencia de rastreo.



Demanda de rastreo
Aunque no se alcance el límite de la frecuencia de rastreo, si no hay demanda de indexación, el robot de Google tendrá poco trabajo. Estos son los dos factores que juegan un papel crucial en la demanda de rastreo:

  • Popularidad: las URL que son más populares en la red suelen rastrearse con más frecuencia, para que estén lo más actualizadas posible en nuestro índice.
  • Inactividad: nuestros sistemas intentan evitar que las URL del índice queden inactivas.

Además, los eventos que afectan a todo un sitio, por ejemplo, un traslado, pueden aumentar la demanda de rastreo para que se vuelva a indexar el contenido en las nuevas URL.

La frecuencia y la demanda son la base del presupuesto de rastreo, es decir, el número de URLs que el robot de Google puede y quiere rastrear.



Factores que afectan al presupuesto de rastreo
Según nuestros análisis, si un sitio tiene muchas URL de poca calidad, el rastreo y la indexación podrían verse perjudicados. Estas URL se dividen en las categorías siguientes, por orden de importancia:

  • Navegación por facetas e identificadores de sesión
  • Contenido duplicado en el sitio
  • Páginas con errores menores
  • Páginas pirateadas
  • Espacios infinitos y servidores proxy
  • Contenido spam y de poca calidad

Si malgastamos los recursos del servidor con páginas como éstas, se dejarán de rastrear páginas que verdaderamente son interesantes, lo que puede provocar que se tarde mucho en descubrir el contenido de calidad de un sitio web.



Preguntas frecuentes
Para los sitios web, el rastreo es la puerta de entrada a los resultados de búsqueda de Google. Si este paso se hace bien, la indexación en la Búsqueda de Google será más fácil.


P: ¿La velocidad de un sitio afecta al presupuesto de rastreo? ¿Y los errores?
R: Si un sitio web es rápido, la experiencia del usuario es mejor y el sitio también se rastrea con más frecuencia. Para el robot de Google, si un sitio es rápido significa que los servidores están en buen estado, y puede obtener más contenido con el mismo número de conexiones. En cambio, si hay muchos errores del tipo 5xx o a menudo se agota el tiempo de espera de las conexiones, significa lo contrario y el rastreo se ralentiza.
Te recomendamos que prestes atención al informe de errores de rastreo de Search Console y que reduzcas al máximo los errores de servidor.


P: ¿El rastreo afecta a la clasificación de un sitio web?
R: Que un sitio web se rastree con más frecuencia no significa que vaya a ocupar una mejor posición en los resultados de búsqueda. Google utiliza cientos de indicadores para clasificar los resultados, y aunque rastrear un sitio es imprescindible para que este aparezca en los resultados de búsqueda, no es un factor determinante para la clasificación.


P: ¿En el presupuesto de rastreo se tienen en cuenta las URL alternativas y el contenido insertado?
R: En principio, cualquier URL que rastree el robot de Google se tendrá en cuenta en el presupuesto de rastreo del sitio. Es posible que haya que rastrear las URL alternativas, como AMP o hreflang, y el contenido insertado, como CSS y JavaScript, lo que consumirá el presupuesto del sitio web. Las cadenas largas de redireccionamiento también podrían perjudicar el rastreo.


P: ¿Puedo controlar el robot de Google con la directiva "crawl-delay"?
R: El robot de Google no procesa la directiva "crawl-delay" no estándar de robots.txt.
Si quieres saber cómo mejorar el rastreo de tu sitio web, lee la entrada del blog sobre cómo optimizar el rastreo. Es de 2009, pero las indicaciones siguen vigentes. Y si tienes dudas, publícalas en los foros.


P: ¿La directiva “nofollow” afecta a mi “presupuesto de rastreo”?
R: Depende. Todas la URLs rastreadas afectan al presupuesto de rastreo, de modo que aunque tu página marque una URL como “nofollow”, ésta puede ser rastreada si cualquier otra página en tu sitio o en la web no marca el enlace como “nofollow”.



Escrito por Gary, Equipo de Rastreo y de Indexación. Publicado por Joan Ortiz, Equipo de Calidad de Búsqueda.