Back to Question Center
0

Semalt bitt Tipps fir wéi Dir mat Bots, Spiders a Crawlers fannt

1 answers:

Ausser Schafe vun Sichmotors gëeegenten URLen, kann d'.htaccess-Datei Webmasteren blockéiert spezifesch Bots vu sengem Internet hunn. Een Wee fir dës Roboter ze blockéieren ass duerch d'robots.txt Datei. De Ross Barber, den Semalt Client Success Manager, seet datt hien e puer Crawler gesat huet, déi dës Ufro ignoréieren. Ee vun de beschte Weeër ass fir d'.htaccess Datei ze benotzen fir se ze stophalen aus Ärem Inhalt ze indexéieren.

Wat sinn dës Bots?

Si sinn eng Zort Software déi duerch Sichmotoren benotzt gëtt fir nei Inhalter vum Internet fir ze indexéieren.

Si maachen déi folgend Aufgaben:

  • Websäiten besiche déi Dir verknüpft mat
  • Préift Äre HTML Code fir Feeler
  • Si späichere wéi Websäiten déi Dir verloosst a kuckt wat Websäiten mam Inhalt
  • Si hunn Äre Inhalt Inhalt

Allerdéngs sinn e puer Botten béiswahrscheinlech a sicht no Ären Site fir E-Mailadressen a Formulare déi normalerweis benotzt ginn fir onerwënscht Emailen oder Spam ze schécken. Aanerer gesicht och fir Sécherheet Schlësselen an Ärem Code.

Wat brauch Dir fir d'Web Crawler ze blockéieren?

Virun der Benotzung vun der .htaccess-Datei benotzen, musst Dir déi folgend Saachen ze kontrolléieren:

1. Äre Site muss op engem Apache Server lafen. Hautdesdaags sinn och déi Web-Hosting-Firmen halleft an hirer Aarbechtsplaz zougänglech.

2. Dir sollt Zougang zu dir sinn déi rau Serverbicher vun Ärer Websäit, fir datt Dir lokaliséiere wat Bots fir Är Websäiten besicht hunn.

Bedenkt datt et keng Aart ass, datt Dir all méiglecherweis Bots blockéiere wäert, ausser datt Dir all eenzel vun hinnen blockéiert, och déi déi Dir als Nëtzlech fannt. Nei Botz kommen all Dag, an déi al agefouert ginn. Déi effizient Manéier ass fir Äre Code ze schützen an et mécht et fir Bots fir ze spam.

Benotzung vu Botter

Bots kann entweder vun der IP Adress oder vun der "User Agent String" identifizéiert ginn, déi se an den HTTP Header schécken. Zum Beispill benotzt Google den "Googlebot"

Dir musst dës Lëscht mat 302 Bots brauchen wann Dir den Numm vum Bot ass, deen Dir gär géift benotze mat .htaccess

Een anere Wee ass fir all de Logbicher vum Server ze lueden an ze öffnen mat engem Texteditor. Äert Standort op dem Server kann ofhängeg vun der Konfiguratioun vun Ärem Server änneren. Hëllef vun Ärem Webhost.

Wann Dir wësst wat dës Säit besicht huet oder d'Zäit vum Besuch ass, ass et méi einfach mat engem ongewollten Bot ze kommen. Dir kënnt d'Log Log Datei mat dëse Parameteren duerchsichen.

Eemol hunn Dir festgestallt, wat Bots Dir braucht fir ze blockéieren; Dir kënnt se dann an der .htaccess-Datei opmaachen. Maacht weg datt d'Botzen net méi genuch fir dat ze stoppen. Et kann mat engem neie IP oder dem Numm zeréckkommen.

Wéi se blockéieren

Luet eng Kopie vun der .htaccess Datei. Maacht Backup wann néideg.

Methode 1: Sperrung vun IP

Dëse Code-Snippet blockéiert de Bot mat der IP-Adress 197.0.0.1

Bestellt Deny, erlaabt

Verflicht vum 197.0.0.1

Déi éischt Zeil heescht, datt de Server all Ufroën déi matenee passen, déi Dir uginn hutt, blockéieren an all aner.

Déi zweet Linn weist de Server fir e 403 ze verginn: verbueden Säit

Method 2: Blocking by User Agenten

Dee einfachste Wee ass den Apache-Neier ze schreiwen

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Déi éischt Liga suergt fir datt de Neenschuele Modul erlaabt ass. Linn 2 ass d'Conditioun, déi d'Regel gëlt. Den "F" an der Linn 4 erzielt de Server fir e 403 zréckzebréngen: Verboten wann "L" heescht dat ass déi lescht Regel.

Dir wäert d'.htaccess-Datei op ärem Server uploaden an d'existéierend iwwerschreiwe. Mat der Zäit musst Dir d'Bot vun der IP aktualiséieren. Am Fall wou Dir e Feeler maacht, just de Backup deen Dir gemaach hutt.

November 29, 2017
Semalt bitt Tipps fir wéi Dir mat Bots, Spiders a Crawlers fannt
Reply