CMS-Header per .htaccess

  • Hallo allerseits,


    ich habe aktuell folgendes Problem, und zwar listet seit über 10 Tagen keine einzige Suchmaschine meine Webseite(Wordpress). Aktuell gibt es eine Umleitung die auch soweit funktioniert von http://www.domain.de auf http://www.domain.de/webseite per .htacces datei

    Code
    RedirectMatch ^/$ /webseite

    alternativ funktioniert zwar auch

    Apache Configuration
    RewriteEngine On
    RewriteBase /
    RewriteCond %{REQUEST_URI} !^/webseite/
    RewriteRule ^(.*)$ /webseite/ [L,R=301]

    aber dann scheitert bei einem Klick auf einen Link auf der Webseite selbst, eine Weiterleitung auf z.B. http://www.domain.de/wiki/ habe auch schon einiges andere ausprobiert, wo die Umleitung letztendlich scheitert.


    Kann mir jemand bestätigen das Entweder der obige Eintrag keine Auswirkung auf eine Indexierung durch die Suchmaschinen hat, oder alternativ den unteren .htaccess Eintrag anpassen um auch mein Wiki anzuzeigen.


    Gruß Fee

    »Vertraue dir selbst. Du weißt mehr, als du denkst.«

  • Wordpress hat auch eine stelle wo die indexing ausser kraft setzen können im head block:


    Code
    <meta name="robots" content="noindex, nofollow">


    meine rewrite in der .htaccess sieht so aus:


    Apache Configuration
    <IfModule mod_rewrite.c>
      RewriteEngine On
    
     # Redirect HTTP to HTTPS
      RewriteCond %{HTTPS} off
      RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]
    
    </IfModule>

    du kannst auch mal bei https://webbkoll.5july.net schauen ob die was meckern ... und mit curl einen blick werfen ob was "off" scheint - hier als Beispiel mit meiner nagelneuen netcup Heldenseite als ziel:

    Code
    curl -s -I https://derwebdesignheld.de

    ist der Ruf erst ruiniert, lebt es sich ganz ungeniert

    Edited 6 times, last by webdesignheld ().

  • ...und zwar listet seit über 10 Tagen keine einzige Suchmaschine meine Webseite(Wordpress)...

    Dann ist das Problem aber möglicherweise älter als 10 Tage.

    In der Regel braucht es einige Zeit, bis die Seiten nach und nach aus der Inderxierung fallen.

    (Ich musste das schmerzhaft erfahren, als ich US geogeblockt hatte. Da blieben dann auch die Crawler außen vor :( )

  • Hi,


    dank euch allesamt für die Antworten, werde jetzt nur noch kurz mal darauf eingehen, und versuchen Morgen mal abzuarbeiten.


    Eine robot.txt gab es bis heute Morgen zugegeben leider gar nicht, könnte sein das ich die mal versehentlich gelöscht habe als ich kein unterverzeichnis für eine Installation verwendet habe, ist daher erst mitsamt der sitemap.xml händisch erstellt worden, das kann natürlich schon ein Grund sein.


    Ob nun in Wordpress noch nofollow Einträge aktiv sind, kann ich zwar nicht ganz ausschließen ist aber unwahrscheinlich, werde ich aber noch mal überprüfen.

    meine rewrite in der .htaccess sieht so aus:

    Danke werde ich mal schauen ob mir das weiterhilft, aktuell bin ich aber schon zu müde. Dein verlinktes Tool meldet auch ein paar Dinge die ich beheben sollte, mein Armer Karsamstag,.. : :whistling:

    Dann ist das Problem aber möglicherweise älter als 10 Tage.

    Ich hatte das Webprojekt lange ohne Indexierung Online , kann schon sein das dies zum Nachteil ist.


    Gruß Fee

    »Vertraue dir selbst. Du weißt mehr, als du denkst.«

  • Benutzt du die Google Search Console? Da wird einem eigentlich alles angezeigt und man sieht auch den HTTP Request so wie Google es sieht (Fetch as Google). Auch eine Sitemap sofern vorhanden kann man da direkt hinzufügen und dann gibts auch Fehlermeldungen dazu (wenns Fehler gibt). Wenn es hier ein technisches Problem gibt, dann siehst du es so eigentlich ziemlich direkt.

  • Das ist ja kein Problem. Die ist ja nur da, um robots zu sagen, das sie nicht kommen sollen. ;)

    Oder auch um ihnen mitzuteilen, welche Verzeichnisse/Dateien sie nicht verarbeiten sollen. Also wenn keine robots.txt vorhanden ist, dann dürfen sie alles verwenden was nicht bei drei auf dem Baum ist. Die robots.txt verhindert letztlich nichts, es ist eher ein frommer Wunsch, den manche Bots respektieren und andere eben nicht.


    Google gibt sich jedenfalls den Anschein, das zu respektieren. Kontrollieren lässt sich das schwer, sie könnten für solche unerwünschten Zugriffe ja notfalls einen anderen Bot benutzen, der ihnen nicht so leicht zuordenbar ist. Das will ich jetzt nicht unterstellen, aber daran hindern könnte man sie jedenfalls per robots.txt nicht.

  • Eine robot.txt gab es bis heute Morgen zugegeben leider gar nicht

    Ist ok wenn die Seite klein ist und alle inhalte öffentlich sein können. Bots haben ein sogenanntes Crawl Budget - hat die Website viele Pages kann es passieren dass wichtige Dinge ausgelassen oder auf einen anderen Termin verschoben werden während unwichtiges oder doppeltes einbezogen wird - kann das SEO negativ beeinflussen. Ohne robots.txt können Login seiten nicht ausgeschlossen werden (cms systeme wie wordpress bzw deren plugins wie yoast und so weiter schreiben auch ohne robots.txt in den head bereich) und es können keine Bots ausgeschlossen werden. Google und die meisten bots halten sich an die robots.txt / robots metatags auch aus Eigeninteresse. Eine robots.txt ist schnell gemacht und schaden kann sie nicht wenn sie korrekt ist.

    ist der Ruf erst ruiniert, lebt es sich ganz ungeniert

    Like 1
  • Hi,


    habe nun mal etwas die Punkte aufgearbeitet, komme aber nur langsam voran momentan bin ich noch dabei die mir über das Tool von "webdesignheld" https://webbkoll.5july.net angezeigten Fehler zu beseitigen. Ich scheitere gerade am CMS-Header, habe mir ein Beispiel aus dem Netz gesucht, was natürlich nicht auf Anhieb funktioniert. :S


    Code
    Header set Content-Security-Policy "frame-ancestors 'self'; base-uri 'self'; default-src 'none'; form-action 'self'; img-src 'self' https://julia-vicentini.de data:; font-src 'self' data:; object-src 'none'; script-src 'self' '; style-src 'self';"

    Wordpress zeigt mir dann mein Hintergrund Bild nicht mehr an, und es gibt noch so einige andere Fehler bei der Formatierung, zudem wird ein eingebundener Mastodon Feed nicht angezeigt. So richtig verstehe ich noch nicht eindeutig wofür die Optionen im einzelnen zuständig.

    Die restlichen Fehler welche mir das Tool anzeigt bis auf den "preload" habe ich über die htaccess beheben können.

    Benutzt du die Google Search Console?

    Bisher nicht, und es wäre schön wenn es auch ohne geht, ziehe ich aber in Betracht was die Optimierung angeht.


    Ist ok wenn die Seite klein ist und alle inhalte öffentlich sein können.

    Die Webseite selbst darf öffentlich sein, aber zu dem Projekt gehört noch ein Forum(phpBB), ein Wiki (mediaWiki), und ein Blog(Wordpress), bis auf das Forum darf das alles Öffentlich auch bei den Suchmaschinen landen. Habe das mit einer einfachen Regel in der robots.txt angepasst.

    Code
    User-agent: *
    Allow: /webseite/ 
    Allow: /blog/
    Allow: /wiki/
    Disallow: /forum/

    Für die Anmeldeseite wäre dann vermutlich noch sinnvoll ein,..


    Code
    Disallow: /webseite/wp-login.php

    Aktuell würde ich gern die CMS- Header hinbekommen, und dann vielleicht mal schauen was die "Google Search Console" sagt, aber dort habe ich gerade kein Konto.


    Danke euch allen schon mal für eure Anregungen, das hilft schon mal auch bei der Motivation. :)


    Gruß Fee

    »Vertraue dir selbst. Du weißt mehr, als du denkst.«

    Edited 3 times, last by Fee ().

  • Ich scheitere gerade am CMS-Header, habe mir ein Beispiel aus dem Netz gesucht,

    Dein Beispiel ist sehr restriktiv (und hat einen Fehler bei: ... script-src 'self' '; da ist eins zuviel ...

    gibts auch eine testseite für https://csp-evaluator.withgoogle.com ) - Im grunde erlaubt es nur dinge die auf deiner webseite sind - wenn dein Background image von woanders kommt - cdn oder so erlaubt der Browser das nicht weil Du es Ihm in der CSP verboten hast - dann ist es nicht da. Ich verwende so eine csp - aber ich bau statische seiten die nicht mal javascript verwenden. Du kannst das mit wordpress wasserdicht hinbekommen ist aber nicht mal eben so ...

    https://webbkoll.5july.net ist nicht mein tool - das ist eine Seite die testet genau wie:


    https://pagespeed.web.dev (Google standard Prüfung)

    https://wave.webaim.org (barrierefreiheit)

    https://metatags.io (social share meta)

    https://securityheaders.com (sicherheit headers)

    https://dmarcian.com (email dmarc eintrag - hoffentlich reject)

    https://dr-dsgvo.de/webseiten-check/ (dsgvo korrekt?)


    Die empfehle ich allen Kunden die wissen wollen ob Ihr webdesignbüro das Geld wert ist - beim Gebraucht Autokauf schaut man ja auch unter die Haube aber als Laie braucht man einen Mechaniker daneben - das sind diese TestSeiten :) allesamt ohne email sperenzchen - Ergebnis sofort.

    ist der Ruf erst ruiniert, lebt es sich ganz ungeniert

    Edited 3 times, last by webdesignheld ().

  • zudem wird ein eingebundener Mastodon Feed nicht angezeigt

    das matomo js muss als https: eingebunden werden (nicht //)

    <script src="https://julia-vicentini.de/wp-content/uploads/matomo/matomo.js"></script>


    und du musst von dir aus den SRI hash generieren mit:

    Code
    curl -s https://julia-vicentini.de/wp-content/uploads/matomo/matomo.js | openssl dgst -sha384 -binary | openssl base64 -A


    korrekt ist das dann so ähnlich wie hier - musste aber selber machen:


    Code
    <script src="https://julia-vicentini.de/wp-content/uploads/matomo/matomo.js"
            integrity="sha384-6bpXM/fEliEG3fq1h8gQuWIy3wHEVerTpVpVhhKrSQl9Z0/VaUiKQzq7hdkX5nUO"
            crossorigin="anonymous"></script>

    ist der Ruf erst ruiniert, lebt es sich ganz ungeniert

    Edited once, last by webdesignheld ().

  • Fee

    Changed the title of the thread from “Blockiert die .htaccess die Indexierung bei Suchmaschinen?” to “CMS-Header per .htaccess”.
  • Hi,


    dank Dir für die ausführliche Antwort, und die vielen nützlichen Testseiten, ob ich das sinnvoll nutzen kann muss ich mir aber erst noch mal anschauen. :)


    Das Hintergrundbild liegt auf dem Server, warum es nicht angezeigt wird mit dem Beispiel weis ich nicht. Sehe gerade dank des verlinkten "pagespeed test" das es doch wohl recht groß ist. Auch wird übrigens die Hälfte der Seite Buchstabenweise untereinander Dargestellt,.. :huh:


    Die Rückverfolgung für Dritte würde ich gern soweit wie möglich einschränken da beim Thema nicht für jeden ein offener Umgang die regel ist, und ich auch Datenschutz im Projekt hervorhebe.


    Die Webseite im Beispiel ist übrigens auch nicht meine, und den letzten Teil hast falsch interpretiert, es handelt sich nicht um matomo (Webanalyse) sondern um Mastodon (Eine freie alternative Sozialmedia Plattform ähnlich zu Twitter) Die Einbindung läuft über ein Wordpress Plugin das dürfte auf dem "ActivityPub" Protokoll beruhen. Im Grunde der Nachrichtenverlauf von geteilten Posts eines Projekt eigenen Accounts.


    Die Tools habe ich noch zwar noch nicht allesamt getestet aber zeigen mir schon mal viel Potenzial zur Verbesserung auf, werde ich mal nach und nach mal durchgehen.

    Quote

    und du musst von dir aus den SRI hash generieren mit:

    Damit kann ich zwar gerade noch nicht viel anfangen werde aber mit den Schlagworten mal auf Recherche gehen,..


    Dank noch mal für den Umfang und deine Zeit,.. :thumbup: :)


    Gruß Fee

    »Vertraue dir selbst. Du weißt mehr, als du denkst.«

  • Dank noch mal für den Umfang und deine Zeit

    Gerne - Foren sollen ja Nachschlagewerke sein.

    zu Klarstellung - das extra ' das ich oben angemerkt hatte ist nicht mehr in deiner .htaccess

    ( script-src 'self' '; muss script-src 'self'; heissen.


    und wordpress ist im ordner domain.de/webseite und ist erreichbar über domain.de und in wordpress ist das auch korrekt angegeben - wordpress-url und website-url sind ja normalerweise identisch - aber hier nicht.

    ist der Ruf erst ruiniert, lebt es sich ganz ungeniert

    Like 1
  • Hi,

    ( script-src 'self' '; muss script-src 'self'; heissen.

    Das Zeichen hatte ich heraus genommen, macht leider keinen Unterschied, habe auch bereits ein wenig herum getestet aber perfekt ist es noch lange nicht.

    Quote

    und wordpress ist im ordner domain.de/webseite und ist erreichbar über domain.de und in wordpress ist das auch korrekt angegeben

    Ja von der Hauptdomain existiert eine Umleitung auf "domain.de/webseite",


    Edit:

    beim Korrekt angegeben bin ich mir nicht so siche, was genau meinst Du?



    Gruß Fee

    »Vertraue dir selbst. Du weißt mehr, als du denkst.«

    Edited once, last by Fee ().

  • Bei den Suchmaschinen bin ich auch kaum weiter gekommen, habe nun mal von Bing dieses "Webmaster Tool" verwendet, Das sagt mir gerade das bei einer Analyse domain.de/webseite.

    Insgesamt ist das Tool recht wenig hilfreich und verwirrt nur durch solche aussagen.

    Quote

    ProblemMeta-Robots-Tag enthält restriktive Robots-Anweisungen

    eine Robots.txt gibt es in dem Ordner aber nicht nur im Hauptordner der domain.de, in der heißt es wie oben schon zitiert nur das domain.de/forum nicht durchsucht werden soll. :rolleyes:


    EDIT:


    Scheint wohl auf die Blockade des /forum zurück zugehen.


    Das Bing sich mit einer skurillen meldung ausgerechnet weigert den Wichtigsten bereich der Seite zu indexieren ist in dem Fall schon ein klares Politisches Statement.


    Quote

    Kriechen

    Die überprüfte URL ist bei Bing bekannt, weist jedoch einige Probleme auf, sodass sie nicht indiziert werden kann. Bitte folgen Sie den Bing-Webmaster-Richtlinien, damit eine Indizierung mit höherer Wahrscheinlichkeit möglich ist.

    »Vertraue dir selbst. Du weißt mehr, als du denkst.«

    Edited once, last by Fee ().

  • beim Korrekt angegeben bin ich mir nicht so siche, was genau meinst Du?

    es gibt da wohl - domain url und wordpress url - domain.de/ ist die domain url und domain.de/wordpressordner/ ist die wordpress url wenn wordpress in einem anderen Ordner liegt als domain.de/ - das kann man in wordpress angeben. Normal ist : beide gleich ...

    ist der Ruf erst ruiniert, lebt es sich ganz ungeniert

    Edited 3 times, last by webdesignheld ().