GNU/Linux >> Tutoriales Linux >  >> Linux

Lista blanca de bots de Google, Bing, Yahoo, Yandex, Baidu en csf y mod_security

ConfigServer Security &Firewall o csf para abreviar es una popular solución de firewall para servidores cPanel. Combinado con algunas buenas reglas para mod_security, hace un gran trabajo.

Para evitar que csf bloquee temporalmente/permanentemente las direcciones IP de los bots buenos, debe editar el archivo /etc/csf/csf.rignore

###################### #########################
# Copyright 2006-2017, Way to the Web Limited
# URL:http://www.configserver.com
# Correo electrónico:[email protected]
###################### #########################
# La siguiente es una lista de dominios y dominios parciales que procesa lfd
# el seguimiento se ignorará en función de las búsquedas de DNS inversas y directas. Un ejemplo de
# su uso es para evitar que los rastreadores web sean bloqueados por lfd, p.
# .googlebot.com y .crawl.yahoo.net
#
# Debe usar un nombre de dominio completo (FQDN) o una terminación única
# subconjunto del nombre de dominio que debe comenzar con un punto (los comodines NO son
# de lo contrario permitido)
#
# Por ejemplo, las siguientes son todas entradas válidas:
# www.configserver.com
# .configserver.com
# .configserver.co.uk
#.googlebot.com
# .crawl.yahoo.net
# .buscar.msn.com
#
# Las siguientes entradas NO son válidas:
# *.configserver.com
# *google.com
# google.com (a menos que la búsqueda sea EXACTAMENTE google.com sin subdominio
#
# Cuando se inspecciona una dirección IP candidata, se realiza una búsqueda inversa de DNS en
# la dirección IP. A continuación, se realiza una búsqueda DNS directa en el resultado de la
# búsqueda inversa de DNS. La dirección IP solo se ignorará si:
#
# 1. Los resultados de la búsqueda final coinciden con la dirección IP original
# Y
# 2a. Los resultados de la búsqueda de rDNS coinciden con el FQDN
# O
# 2b. Los resultados de la búsqueda de rDNS coinciden con el subconjunto parcial del dominio
#
# Nota:si las búsquedas de DNS son demasiado lentas o no devuelven los resultados esperados
# la dirección IP se contará para el activador de bloqueo como de costumbre
#

Agregue las siguientes líneas a /etc/csf/csf.rignore archivo:

.googlebot.com
.crawl.yahoo.net
.search.msn.com
.google.com
.yandex.ru
.yandex.net
.yandex.com
.crawl.baidu.com
.crawl.baidu.jp

csf está bloqueando direcciones IP cuando un host está bloqueado varias veces por una regla mod_security. Entonces, debemos ir a la raíz del problema:crearemos reglas mod_security para permitir buenos bots.
Para ello editaremos los archivos mod_security .conf. Si está utilizando cPanel EasyApache 4, agregue las siguientes líneas al archivo /etc/apache2/conf.d/modsec/ modsec2.user.conf

HostnameLookups On
SecRule REMOTE_HOST "@endsWith .googlebot.com" "allow,log,id:5000001,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .google.com" "allow,log,id:5000002,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .search.msn.com" "allow,log,id:5000003,msg:'msn bot'"
SecRule REMOTE_HOST "@endsWith .crawl.yahoo.net" "allow,log,id:5000004,msg:'yahoo bot'"
SecRule REMOTE_HOST "@endsWith .yandex.ru" "allow,log,id:5000005,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.net" "allow,log,id:5000006,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.com" "allow,log,id:5000007,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.com" "allow,log,id:5000008,msg:'baidu bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.jp" "allow,log,id:5000009,msg:'baidu bot'"

Después de agregar estas líneas, reinicie el servidor web Apache. Después de un tiempo, verá entradas en los registros del servidor. Simplemente vaya a WHM->Centro de seguridad->Herramientas de ModSecurity™->Lista de aciertos o desde la línea de comando:

root@web [/]# grep "500000" /usr/local/apache/logs/error_log | tail -30

Recursos:
https://webmasters.googleblog.com/2006/09/how-to-verify-googlebot.html
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.xml
https://www.bing.com/webmaster/help/how-to-verify-bingbot-3905dc26
https://github.com/SpiderLabs/ModSecurity/wiki/


Linux
  1. Incluya en la lista blanca una IP en CSF para conexiones MySQL remotas

  2. Lista blanca de bots de Google, Bing, Yahoo, Yandex, Baidu en csf y mod_security

  3. cloudHQ:sincronice Google Apps y G Suite con cuentas en la nube de forma gratuita

  4. Configure un vhost de Apache en Ubuntu 20.04 y Debian 10

  5. curl:(6) No se pudo resolver el host:google.com; Nombre o servicio desconocido

¿Cómo incluir direcciones IP en la lista blanca/negra mediante la línea de comandos y la GUI en el firewall CSF?

¿Cómo reclamo mis créditos publicitarios de Google Adwords Express** y Bing/Yahoo!†?

Instalar y configurar ConfigServer Security and Firewall (CSF) en Linux

Cómo instalar y configurar el cortafuegos CSF para Linux

Cómo instalar y usar Google Chrome en el sistema Linux

Cómo instalar y configurar Google Cloud SDK en Linux Desktop