Hemos visto algunos raros casos (3 este año, hasta Julio 2024), de sitios de clientes que mantienen el 100% de su CPU y decenas de procesos en uso 24/7. El crawler de facebook visita url’s que no existen o practicamente hace un DDoS sobre el sitio web.
En todos los casos hemos asistido a los clientes con diferentes metodos.
- Aplicacion de Caché
- Reglas de .htaccess
- Bloqueo de rangos de IPs
- Reglas ModSecurity
Sin embargo, estos 3 casos especificos, eran casos donde los crawlers o bots de Facebook, Google, Amazon, Tencent, Bing u otros, estaban fuera de control, junto a alguna configuracion de su sitio.
Estos bots estaban fuera de control, ya que hacian decenas de miles (hasta 600.000 solicitudes vimos) de solicitudes al día, en donde casi el 99% del trafico del sitio era solo el cralwer o bot en lugar de tráfico y visitas reales.
Los sitios tienen un tipo de configuracion de sus productos con multiples categorias, subcategorias, filtros, tags, que permite generar combinaciones casi infinitas, es decir, infinitas paginas para el crawler que visitar.
Finalmente se ha identificado que esto se parece mucho a lo que se discute en estos enlaces:
- Ref 1: https://developers.facebook.com/community/threads/373463150452444/
- Ref 2: https://developers.facebook.com/community/threads/992798532416685/
- Ref 3: https://developers.facebook.com/community/threads/473239115254449/
- Ref 4: https://wordpress.org/support/topic/facebookexternalhit-1-1-thousands-of-requests/
- Ref 5: https://wordpress.org/support/topic/psa-bytedance-and-bytespider-bots-recommend-blocking/
- Hay muchos más, pero con esto se entiende la idea, que lleva pasando años (aun que nosotros recién lo vemos este 2024), y son todos muy similares.
Solucion contra los bots fuera de control
La solución en estos 3 casos fue activar el modo «Bot Fight Mode» y «Bloquear AI Scrappers» utilizando CloudFlare.
- Aqui puedes ver como utilizar CloudFlare: https://docs.premiumhosting.cl/documentacion/configurar-cloudflare/
- Una vez tengas CloudFlare activo, y tu dominio pase por sus DNS, podrás utilizar gratuitamente estas 2 protecciones que han dado buenos resultados protegiendo sitios en este caso especifico.
Como siempre, si tienes dudas, necesitas asistencia para activar y configurar CloudFlare, o verificar si tu sitio está siendo victima de este tipo de crawlers/bots, puedes escribirnos a [email protected] o abrir un Ticket de Soporte!