Baidu aussperren

  • Hallo ihr Lieben,


    wider meines Strebens musste ich feststellen, dass die ChinaSuchmaschine meinen Server scannt und scannt.


    Dies möchte ich unterbinden ... widererwarten funktioniert mein iptables auf meinem V-Server nicht.


    Kennt ihr irgendein tool, welches des SpiderBot von Baidu automatisch aussperrt ? ...


    Ich möchte nicht, dass mein Server von irgendwelchen Bots gescannt wird, vermutlich hält er sich ncihtmal an Regeln, die ich ihm über eine bot.ini erteile.


    Daher will ich die Chinesen von mir aus einfach alle aussperren ... entlastet vielleicht auch meinen Server in Punkto BruteForceing attacken.



    Würde mich sehr sehr über eure Antwort freuen.


    MfG

  • Zitat

    Dies möchte ich unterbinden ... widererwarten funktioniert mein iptables auf meinem V-Server nicht.

    Log dich in das VCP ein, wähle deinen VServer aus und klicke auf "Firewall". Dort kannst du auch dementsprechende Firewallregeln festlegen ;)

  • bot.ini? Eigentlich ist der simpelste Weg eine robots.txt - Probiers mal damit:


    Zitat

    User-agent: Baiduspider
    Disallow: /


    Wenn du alle bots aussperren willst, dann kommt statt Baiduspider eine Wildcard hin.

  • woow das wusst ich ned, dachte nur ports ... :D


    check ich gleichmal ab :)



    haha ja klar ... :D Ziel / QUell IP ... sehr schön gemacht NEtcup


    ok hat sich somit also erledigt ... alles klaro =)

  • Baidu ist eine seriöse Suchmaschine. Google crawlt da viel häufiger und aggressiver.

    Und das sagt wer ? Die, die Google Verboten haben? Wer Kontrolliert die? in Deutschland muss Google EU Normen erfüllen, die dinger aus China ... wer weiß.


    Darüber kann man Server nach .mp3 files "durchsuchen" und darauf hab ich keine Lust. Und bevor der Bot irgendeine bot.txt ignoriert sperr ich den aus.


    Ich mags ned ungefragt in irgendeiner Suchmaschine aufzutauchen, vielleicht wollte ich ja nicht, dass meine Homepage in irgendeiner (nichtmal Google) Suchmaschine auftaucht ... und selbst für google muss man sich erst anmelden ... und man hat die Möglichkeit sich wieder austragen zu lassen.


    Wo ist diese Möglichkeit bei baidu?
    Sorry, aber 1. Wurde ich nicht benachrichtigt (whois hätte meine E-mail herausgegeben)
    2. finde ich es eine Frechheit, dass irgendwelche Bots meinen Server scannen ... ich lauf auch nicht durch die Straße und schau in "JEDES" Fenster unter der Gardine durch ...


    also seriös ist für mich was anderes zumal, ich kann kein Chinesisch ... anhand meiner IP ist es 0 Problem herauszufinden, dass diese aus Deutschland kommt und mir zumindest eine Englisch-Sprachige Version zur Verfügung gestellt werden könnte.


    Zumal der Bot vermehrt pro Stunde auf meinem Server kommt ... er spammt mir förmlich die logfiles voll.


    MfG

  • Zitat von martin',

    bot.ini? Eigentlich ist der simpelste Weg eine robots.txt - Probiers mal damit:



    Wenn du alle bots aussperren willst, dann kommt statt Baiduspider eine Wildcard hin.

    ja aber die Datei müsste dann in jeden "unterordner", damit diese nicht gescannt werden oder schickt das root verz ?


    kenn mich da nicht so aus, hab davon schon gehört, weiß, wie es funktioniert hab mir auchmla welche aus einem CMS angeschaut aber habe auch gehört, dass "unseriöse" Bots diese einfach ignorieren ...


    Baidu wird in dieser hinsicht keineswegs unseriös sein ... doch trotzdem habe ich meine Bedenken. Zumal die Chinesen da nicht so ganz ohne sind.

  • Und das sagt wer ? Die, die Google Verboten haben? Wer Kontrolliert die? in Deutschland muss Google EU Normen erfüllen, die dinger aus China ... wer weiß.


    EU Normen für Suchmaschinen-Crawler wären mir neu... ;) Auf meiner Website verhalten sich alle Crawler der großen Suchmaschinen korrekt, darauf achte ich schon...


    Ich mags ned ungefragt in irgendeiner Suchmaschine aufzutauchen, vielleicht wollte ich ja nicht, dass meine Homepage in irgendeiner (nichtmal Google) Suchmaschine auftaucht


    Dann leg die robots.txt an, ansonsten ist das Internet öffentlich. Oder fragst du erst in jedem Geschäft, ob du ins Schaufenster schauen darfst? :D

    und selbst für google muss man sich erst anmelden ... und man hat die Möglichkeit sich wieder austragen zu lassen.


    Unsinn, die robots.txt ist das wichtige. Ohne die kommst du auch bei Google nicht aus dem Index.


    Sorry, aber 1. Wurde ich nicht benachrichtigt (whois hätte meine E-mail herausgegeben)
    2. finde ich es eine Frechheit, dass irgendwelche Bots meinen Server scannen ... ich lauf auch nicht durch die Straße und schau in "JEDES" Fenster unter der Gardine durch ...


    Nochmal, das Internet ist öffentlich, daher ist der Vergleich unpassend. Das Mittel zur Steuerung der Bots existiert ja, man muss es nur anwenden.


    Zumal der Bot vermehrt pro Stunde auf meinem Server kommt ... er spammt mir förmlich die logfiles voll.


    "vermehrt pro Stunde". Harmlos... Google kommt bei mir exakt alle 2 Stunden auf eine seit Jahren unbenutzte Seite, die nur einen 403 zurück gibt. Auf der richtigen Website sind die Crawler praktisch rund um die Uhr aktiv. Bing kommt danach und die restlichen sind seltener unterwegs, auch Baidu und Yandex.

    ja aber die Datei müsste dann in jeden "unterordner", damit diese nicht gescannt werden oder schickt das root verz ?


    Eine im Root-Verzeichnis reicht vollkommen.

  • Datei müsste dann in jeden "unterordner", damit diese nicht gescannt werden oder schickt das root verz ?


    Nein, die muss ins root-Verzeichnis deines Webservers, wo auch in die index.* drin liegt. Mit "Disallow: /" verbietest du dem Crawler, dass er eben genau dieses Verzeichnis auslesen darf. Du kannst Ihm mit Disallow: /bla/ auch einzelne Ordner verbieten oder mit Allow: /bla/ einzelne Ordner erlauben.


    Das ganze funktioniert nur, wenn du sie robots.txt (!) und nicht bot.ini oder bot.txt nennst. Ignorieren wird die Datei keine der größeren Suchmaschinen, das kannst du ja aber ganz einfach in den logs feststellen. Probier das doch einfach mal aus, bevor du mit Kanonen auf Spatzen losgehst und iptables* oder irgendwelche Scripte installierst, schließlich ist die robots.txt für genau diese Fälle gedacht.


    Wenn dir der Bot deine Logs zu voll spammt, dann ist für dich obiges interessant, alternativ auch Crawl-delay: und dahinter eine Sekunden-Anzahl. Das legt fest, wie oft eine Seite gecrawlt werden darf.


    "vermehrt pro Stunde". Harmlos... Google kommt bei mir exakt alle 2 Stunden auf eine seit Jahren unbenutzte Seite, die nur einen 403 zurück gibt.


    Wenn die Webseite nicht mehr genutzt wird, dann geb' ihm doch einen 301 oder einen 404 mit. Dann dürfte der Bot nicht mehr kommen - denke ich. :)

  • Zitat von martin',

    Wenn die Webseite nicht mehr genutzt wird, dann geb' ihm doch einen 301 oder einen 404 mit. Dann dürfte der Bot nicht mehr kommen - denke ich. :)


    Das weiß ich nicht genau, die Domain ist mittlerweile wieder in Betrieb. Allerdings sucht er auf der aktuellen Website immer noch Unterseiten, die es schon mehrere Monate oder Jahre nicht mehr gibt (404). Und, die die "erst" mehrere Monate weg sind, sind auch weiterhin im Index. Früher war das jedenfalls nicht so.

  • Du kannst bei Google eine Löschung beantragen ... hierzu musst du nur eine datei in dein Root verz. einfügen, die dich dann verifiziert ... und schon kannst du alles managen.


    Hab ich auch auf einer alten Seite gemacht.


    ICh finds halt komisch von x-beliebigen Suchmachschinen gescannt zu werden.


    Teilweise sind welche dabei, die mein Root verz nach ingwelchen Unterordnern durchsuchen, die es nie gab ... (z.B. ab.de/torrent) usw. usw.

  • Zitat von martin',


    Wenn du alle bots aussperren willst, dann kommt statt Baiduspider eine Wildcard hin.

    Sperre ich damit dann nicht auch google usw aus?


    gruss


    michi

    It's me, only me, pure michi 🦆

    RS 1000 SAS G8 | Cyber Quack

    VPS: 50 G7 |B Ostern 2017|200 | Karneval | piko

    WH: SmallEi | Adv17 Family |4000 SE|1000 SE

  • Ok Baidu ist nur das "kleinere" Übel, wie siehts mit Sistrix aus? Der ignoriert meine robots.txt ... jemand Erfahrung?


    Kann ich diese Scans nicht irgendwie vorbeugen? gibts ne Liste mit Ip's von so unseriösen (für mich ist das höchsts unseriös) Suchmaschinen?


    Mich nervts eine 300mb große Logdatei runterzuladen, anzuschauen und dann doch zu 98% ingwelche Bot"Actions" nachzulesen ...


    Bald brauch ich ein neues Mausrad ehy.


    ehm ... ich will baidu aussperren im VCP ... (IP Range: 180.5.x & 180.6.x) aber wie muss ich das schreiben?, also die Range ?
    MfG

  • Haha ich hab sistrix angeschrieben, dass siie sich doch bitte rechtfertigen sollen, zurück kam eine Antwort, dass sie die robots.txt sicher miteinbeziehen.


    Wie kommt es, dass beim Google bot jedesmal ein GET Robots.txt steht und beim sistrix nicht?


    Abartig find ich, dass google eins zwei mal pro stunde kommt, die aber fast jede minute.

  • Haha ich hab sistrix angeschrieben, dass siie sich doch bitte rechtfertigen sollen, zurück kam eine Antwort, dass sie die robots.txt sicher miteinbeziehen.


    Ich kenne diesen Anbieter nicht, aber eventuell haben sie einfach eine höhere Cache-Zeit für die robots.txt? :)



    MfG Christian

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)