Baidu aussperren

ferrarajunior · 23. Januar 2012

Hallo ihr Lieben,

wider meines Strebens musste ich feststellen, dass die ChinaSuchmaschine meinen Server scannt und scannt.

Dies möchte ich unterbinden ... widererwarten funktioniert mein iptables auf meinem V-Server nicht.

Kennt ihr irgendein tool, welches des SpiderBot von Baidu automatisch aussperrt ? ...

Ich möchte nicht, dass mein Server von irgendwelchen Bots gescannt wird, vermutlich hält er sich ncihtmal an Regeln, die ich ihm über eine bot.ini erteile.

Daher will ich die Chinesen von mir aus einfach alle aussperren ... entlastet vielleicht auch meinen Server in Punkto BruteForceing attacken.

Würde mich sehr sehr über eure Antwort freuen.

MfG

Sebastian3196 · 23. Januar 2012

Zitat

Dies möchte ich unterbinden ... widererwarten funktioniert mein iptables auf meinem V-Server nicht.

Log dich in das VCP ein, wähle deinen VServer aus und klicke auf "Firewall". Dort kannst du auch dementsprechende Firewallregeln festlegen

martin\ · 23. Januar 2012

bot.ini? Eigentlich ist der simpelste Weg eine robots.txt - Probiers mal damit:

Zitat

User-agent: Baiduspider
Disallow: /

Wenn du alle bots aussperren willst, dann kommt statt Baiduspider eine Wildcard hin.

ferrarajunior · 23. Januar 2012

woow das wusst ich ned, dachte nur ports ...

check ich gleichmal ab

haha ja klar ... Ziel / QUell IP ... sehr schön gemacht NEtcup

ok hat sich somit also erledigt ... alles klaro =)

Dragon · 23. Januar 2012

Baidu ist eine seriöse Suchmaschine. Google crawlt da viel häufiger und aggressiver.

ferrarajunior · 24. Januar 2012

Zitat von Dragon

Baidu ist eine seriöse Suchmaschine. Google crawlt da viel häufiger und aggressiver.

Und das sagt wer ? Die, die Google Verboten haben? Wer Kontrolliert die? in Deutschland muss Google EU Normen erfüllen, die dinger aus China ... wer weiß.

Darüber kann man Server nach .mp3 files "durchsuchen" und darauf hab ich keine Lust. Und bevor der Bot irgendeine bot.txt ignoriert sperr ich den aus.

Ich mags ned ungefragt in irgendeiner Suchmaschine aufzutauchen, vielleicht wollte ich ja nicht, dass meine Homepage in irgendeiner (nichtmal Google) Suchmaschine auftaucht ... und selbst für google muss man sich erst anmelden ... und man hat die Möglichkeit sich wieder austragen zu lassen.

Wo ist diese Möglichkeit bei baidu?
Sorry, aber 1. Wurde ich nicht benachrichtigt (whois hätte meine E-mail herausgegeben)
2. finde ich es eine Frechheit, dass irgendwelche Bots meinen Server scannen ... ich lauf auch nicht durch die Straße und schau in "JEDES" Fenster unter der Gardine durch ...

also seriös ist für mich was anderes zumal, ich kann kein Chinesisch ... anhand meiner IP ist es 0 Problem herauszufinden, dass diese aus Deutschland kommt und mir zumindest eine Englisch-Sprachige Version zur Verfügung gestellt werden könnte.

Zumal der Bot vermehrt pro Stunde auf meinem Server kommt ... er spammt mir förmlich die logfiles voll.

MfG

ferrarajunior · 24. Januar 2012

Zitat von martin',

bot.ini? Eigentlich ist der simpelste Weg eine robots.txt - Probiers mal damit:

Wenn du alle bots aussperren willst, dann kommt statt Baiduspider eine Wildcard hin.

ja aber die Datei müsste dann in jeden "unterordner", damit diese nicht gescannt werden oder schickt das root verz ?

kenn mich da nicht so aus, hab davon schon gehört, weiß, wie es funktioniert hab mir auchmla welche aus einem CMS angeschaut aber habe auch gehört, dass "unseriöse" Bots diese einfach ignorieren ...

Baidu wird in dieser hinsicht keineswegs unseriös sein ... doch trotzdem habe ich meine Bedenken. Zumal die Chinesen da nicht so ganz ohne sind.

Dragon · 24. Januar 2012

Zitat von ferrarajunior

Und das sagt wer ? Die, die Google Verboten haben? Wer Kontrolliert die? in Deutschland muss Google EU Normen erfüllen, die dinger aus China ... wer weiß.

EU Normen für Suchmaschinen-Crawler wären mir neu... Auf meiner Website verhalten sich alle Crawler der großen Suchmaschinen korrekt, darauf achte ich schon...

Zitat von ferrarajunior

Ich mags ned ungefragt in irgendeiner Suchmaschine aufzutauchen, vielleicht wollte ich ja nicht, dass meine Homepage in irgendeiner (nichtmal Google) Suchmaschine auftaucht

Dann leg die robots.txt an, ansonsten ist das Internet öffentlich. Oder fragst du erst in jedem Geschäft, ob du ins Schaufenster schauen darfst?

Zitat von ferrarajunior

und selbst für google muss man sich erst anmelden ... und man hat die Möglichkeit sich wieder austragen zu lassen.

Unsinn, die robots.txt ist das wichtige. Ohne die kommst du auch bei Google nicht aus dem Index.

Zitat von ferrarajunior

Sorry, aber 1. Wurde ich nicht benachrichtigt (whois hätte meine E-mail herausgegeben)
2. finde ich es eine Frechheit, dass irgendwelche Bots meinen Server scannen ... ich lauf auch nicht durch die Straße und schau in "JEDES" Fenster unter der Gardine durch ...

Nochmal, das Internet ist öffentlich, daher ist der Vergleich unpassend. Das Mittel zur Steuerung der Bots existiert ja, man muss es nur anwenden.

Zitat von ferrarajunior

Zumal der Bot vermehrt pro Stunde auf meinem Server kommt ... er spammt mir förmlich die logfiles voll.

"vermehrt pro Stunde". Harmlos... Google kommt bei mir exakt alle 2 Stunden auf eine seit Jahren unbenutzte Seite, die nur einen 403 zurück gibt. Auf der richtigen Website sind die Crawler praktisch rund um die Uhr aktiv. Bing kommt danach und die restlichen sind seltener unterwegs, auch Baidu und Yandex.

Zitat von ferrarajunior

ja aber die Datei müsste dann in jeden "unterordner", damit diese nicht gescannt werden oder schickt das root verz ?

Eine im Root-Verzeichnis reicht vollkommen.

martin\ · 24. Januar 2012

Zitat von ferrarajunior

Datei müsste dann in jeden "unterordner", damit diese nicht gescannt werden oder schickt das root verz ?

Nein, die muss ins root-Verzeichnis deines Webservers, wo auch in die index.* drin liegt. Mit "Disallow: /" verbietest du dem Crawler, dass er eben genau dieses Verzeichnis auslesen darf. Du kannst Ihm mit Disallow: /bla/ auch einzelne Ordner verbieten oder mit Allow: /bla/ einzelne Ordner erlauben.

Das ganze funktioniert nur, wenn du sie robots.txt (!) und nicht bot.ini oder bot.txt nennst. Ignorieren wird die Datei keine der größeren Suchmaschinen, das kannst du ja aber ganz einfach in den logs feststellen. Probier das doch einfach mal aus, bevor du mit Kanonen auf Spatzen losgehst und iptables* oder irgendwelche Scripte installierst, schließlich ist die robots.txt für genau diese Fälle gedacht.

Wenn dir der Bot deine Logs zu voll spammt, dann ist für dich obiges interessant, alternativ auch Crawl-delay: und dahinter eine Sekunden-Anzahl. Das legt fest, wie oft eine Seite gecrawlt werden darf.

Zitat von ferrarajunior

"vermehrt pro Stunde". Harmlos... Google kommt bei mir exakt alle 2 Stunden auf eine seit Jahren unbenutzte Seite, die nur einen 403 zurück gibt.

Wenn die Webseite nicht mehr genutzt wird, dann geb' ihm doch einen 301 oder einen 404 mit. Dann dürfte der Bot nicht mehr kommen - denke ich.

Dragon · 24. Januar 2012

Zitat von martin',

Wenn die Webseite nicht mehr genutzt wird, dann geb' ihm doch einen 301 oder einen 404 mit. Dann dürfte der Bot nicht mehr kommen - denke ich.

Das weiß ich nicht genau, die Domain ist mittlerweile wieder in Betrieb. Allerdings sucht er auf der aktuellen Website immer noch Unterseiten, die es schon mehrere Monate oder Jahre nicht mehr gibt (404). Und, die die "erst" mehrere Monate weg sind, sind auch weiterhin im Index. Früher war das jedenfalls nicht so.

ferrarajunior · 24. Januar 2012

Du kannst bei Google eine Löschung beantragen ... hierzu musst du nur eine datei in dein Root verz. einfügen, die dich dann verifiziert ... und schon kannst du alles managen.

Hab ich auch auf einer alten Seite gemacht.

ICh finds halt komisch von x-beliebigen Suchmachschinen gescannt zu werden.

Teilweise sind welche dabei, die mein Root verz nach ingwelchen Unterordnern durchsuchen, die es nie gab ... (z.B. ab.de/torrent) usw. usw.

extremmichi · 24. Januar 2012

Zitat von martin',

Wenn du alle bots aussperren willst, dann kommt statt Baiduspider eine Wildcard hin.

Sperre ich damit dann nicht auch google usw aus?

gruss

michi

KB19 · 24. Januar 2012

Zitat von extremmichi

Sperre ich damit dann nicht auch google usw aus?

Logisch, außer du fügst zusätzlich etwas in dieser Art hinzu:

Code

User-agent: <BOT>
Allow: /

MfG Christian

ferrarajunior · 26. Januar 2012

Ok Baidu ist nur das "kleinere" Übel, wie siehts mit Sistrix aus? Der ignoriert meine robots.txt ... jemand Erfahrung?

Kann ich diese Scans nicht irgendwie vorbeugen? gibts ne Liste mit Ip's von so unseriösen (für mich ist das höchsts unseriös) Suchmaschinen?

Mich nervts eine 300mb große Logdatei runterzuladen, anzuschauen und dann doch zu 98% ingwelche Bot"Actions" nachzulesen ...

Bald brauch ich ein neues Mausrad ehy.

ehm ... ich will baidu aussperren im VCP ... (IP Range: 180.5.x & 180.6.x) aber wie muss ich das schreiben?, also die Range ?
MfG

Dragon · 26. Januar 2012

Sistrix ist keine Suchmaschine... Deren Vorgehen ist aber wirklich abartig, mehrere Stunden mit 5 gleichzeitigen Verbindungen zu crawlen... Ich würde den anhand des User-Agents sperren, die IPs scheinen zu wechseln.

Ggf. ist das was für dich: Bot-Trap.de Spamschutz fuer Webmaster

ferrarajunior · 26. Januar 2012

Haha ich hab sistrix angeschrieben, dass siie sich doch bitte rechtfertigen sollen, zurück kam eine Antwort, dass sie die robots.txt sicher miteinbeziehen.

Wie kommt es, dass beim Google bot jedesmal ein GET Robots.txt steht und beim sistrix nicht?

Abartig find ich, dass google eins zwei mal pro stunde kommt, die aber fast jede minute.

KB19 · 26. Januar 2012

Zitat von ferrarajunior

Haha ich hab sistrix angeschrieben, dass siie sich doch bitte rechtfertigen sollen, zurück kam eine Antwort, dass sie die robots.txt sicher miteinbeziehen.

Ich kenne diesen Anbieter nicht, aber eventuell haben sie einfach eine höhere Cache-Zeit für die robots.txt?

MfG Christian