[Recht und Regeln] Zusammenführen von Daten verschiedener Seiten derselben, fremden Web-Site

  • Holdrio.


    Ich hoffe ehrlich, dass mein Post nicht zu „länglich“ wird. Mir ist allerdings auch nicht klar, wie viel ich vorab erzählen muss, damit meine Schwierigkeit hinterher auch einleuchtet... Erstmal: Hier ist nichts tragisch und am Ende werde ich wahrscheinlich nur schlauer sein.


    Ich verliere auch ein bisschen an deutschem Sprachgefühl. Damit sind wir fast beim Thema: Ich sitze hier in Frankreich und veröffentliche auf meiner Web-Site (meist Duplikate von eigenen) Anleitungen und bissi Erfahrungsberichte diverser Natur aber doch viel Programmier- und Internet-Krempel. Vieles ist auch schon Teil meines Blogs auf Linuxquestions.org, meine eigene Site ist schwach besucht, weil mir das nicht so wichtig ist.


    So.


    Es begab sich vor einiger Zeit, dass ich verstanden habe, wie öffentliche Web-Sites von Behörden und sonstigen öffentlichen Einrichtungen in F mit GAFAM-Krempel verseucht sind. Richtig „festgefressen“ habe ich ich an den Web-Sites von « Radio-France », besonders franceinter.fr (wie RTL aber öffentlich-rechtlich) und franceculture.fr (wie BR2). Dort musste man, um irgend eine Sendung per “Podcasst” oder “Streaming” im Nachhinein zu hören, bis zu 15 Verbindungen zu externen Diensten akzeptieren. Vorher war im dynamischen Code der Seite gar keine Repräsentation der Audiodaten zu finden. Das Spektrum dieser Dienste reichte von Doubleclick.net über F*c*book, abtasty, outbrain bis Google, Amazon, Twitter etc...


    Ich habe darum beschrieben, wie man diesen Quatsch umgeht und dennoch an die mp3-Dateien der Radiosendungen herankommt: Identifizieren mehrerer passender URLs und direkter Download, ohne Umweg über Web und Mausklick. Zuletzt habe ich den Bezug von RSS-Daten (XML) automatisiert, was gestattet, die gesamte Historie einer Sendung nachzuvollziehen und ebenso direkt auf die mp3-Dateien zuzugreifen.


    Bis hierhin ist alles, was ich tue, die Web-Site zu konsultieren und URLs zu finden.


    Jetzt... Die RSS-Dateien sind durch 5-stellige Ziffernfolgen identifiziert, aber allesamt über den gleichen URL zu beziehen. Was fehlt, ist eine Liste dieser Zifferncodes für die verschiedenen Radiosendungen. Ich habe mehrmals die Kontaktadressen der Radiosender angeschrieben, um eine solche Zuordnungsliste zu erhalten oder anzuregen, sie zu veröffentlichen. Auf solche Anfragen bekommt man aber keine Antwort (gar keine).

    Binisch schlau, sage ich mir, und schreibe einen Web-Bot mit Hilfe einer Webdriver Implementation. Watir, man könnte aber auch direkt Silenium verwenden. Egal.

    Weil das so wunderbar funktioniert und ich sämtliche vorhandenen RSS-Ströme ihren Radiosendungen zuordnen kann, habe ich mir gedacht, in diese Listen auch eine Kurzbeschreibung der Sendung einzubauen. <=== DAS IST DAS PROBLEM.


    Diese Kurzbeschreibungen sind *nicht* auf der selben Web-Seite zu finden, wie die Links zu den RSS-Daten.


    In den USA gibt es ein Gesetz, das Interpretationen zulässt. Eine lässt schließen, dass dort meine Verwendung der Web-Site und das „Umgestalten“ der veröffentlichten Daten durch ihre Zusammenführung in einer einzigen Datei ... – ungesetzlich wäre.


    Mir ist völlich klar, dass ich meine Frage in Frankreich stellen muss. Bis jetzt habe ich aber noch nicht entschieden, wo ich das tun werde. Ad hoc würde mich interessieren, wie jemand im netcup-Umfeld die Situation versteht.


    Nochmal Zusammenfassung:

    2 Web-Seiten: Eine mit einer Liste von Radiosendungen und einem Button, der, – erst bei Klick – einen URL nachlädt, über den dann eine RSS-Datei geholt werden kann. Eine zweite Seite, die für 1 Sendung eine Kurzbeschreibung liefert. So ist das vom Web-Site-Betreiber vorgesehen; aber weil ich das schlecht finde, baue ich mir eine Liste mit allen drei Details zu jeder einzelnen Radiosendung.


    Ist das in Ordnung ... in Deutschland, Europa.., in eurem Gefühl oder sonst wie?


    Ach ja... und ich würde die veröffentlichten Prozeduren gerne um eine kleine Einführung in Webdriver (Watir) ergänzen, d.h. meinen mickrigen „Web-Bot“ beschreiben.

  • Umformulierte Frage: "Ist Web-Scraping legal?"

    Für Deutschland findet sich hierzu beispielsweise im Artikel "Was ist Web Scraping?" ein entsprechender Abschnitt.

    (Kein Zitat an dieser Stelle, da ich die Aussage weder zu stark verkürzen noch vom Lesen des gesamten Artikels abhalten möchte.)

    Weiterführende Informationen zu rechtlichen Aspekten finden sich auch in der deutschen Wikipedia. Ich würde vermuten, dass die anderssprachigen Seiten die jeweilige "lokale" Rechtslage in anderen Ländern referenzieren.

    VServer IOPS Comparison Sheet: https://docs.google.com/spreadsheets/d/1w38zM0Bwbd4VdDCQoi1buo2I-zpwg8e0wVzFGSPh3iE/edit?usp=sharing

  • Guten Abend

    Umformulierte Frage: "Ist Web-Scraping legal?"

    Das ist offenbar genau die Frage, die ich stelle. Leider haben mir die Leute von Radio France beständig nicht geantwortet, wenn ich sie angeschrieben habe. Dabei sind durchaus alle Inhalte, die ich verwende, von Radio France veröffentlicht und für Web-Browser zugänglich gemacht ...


    Jetzt könnte man noch anhängen: Muss das legal sein, wenn öffentliche Dienste ihre Kundschaft an transnationale Unternehmen verscherbeln, ohne sie vorher zu fragen oder auch nur eine Information darüber bereitzustellen... Aber das ist off-topic in dieser Diskussion.


    B.a.w. werde ich mein Vorgehen nicht dokumentieren, auch wenn die Frage weder für Deutschland, noch für Frankreich offenbar eindeutig beantwortet werden kann.

  • Im ersten von m_ueberall verlinkten Artikel steht was zur Legalität, allerdings keine definitive Aussage. Die wirst du vielleicht von einem Juristen bekommen. Ist dann aber auch nur definitiv insofern, dass der dafür haftet, wenn er dir sagt es ist legal und du dann zu einer Strafe verdonnert wirst. Dass die Rechtslage wohl nicht eindeutig sein kann zeigen ja auch die andauernden juristischen Streitigkeiten zwischen z.B. Google und diversen Verlagen. Ganz unten im verlinkten Artikel steht dann noch ein Abschnitt dazu, wie man Web Scraping blockieren kann. Die robots.txt "blockt" einen Bot allerdings nur sozusagen auf freiwilliger Basis. Sollte der Bot der Meinung sein, dass die "blockierten" Inhalte interessant für ihn sind, dann wird er sie halt trotzdem auswerten.

  • Die robots.txt "blockt" einen Bot allerdings nur sozusagen auf freiwilliger Basis. Sollte der Bot der Meinung sein, dass die "blockierten" Inhalte interessant für ihn sind, dann wird er sie halt trotzdem auswerten.

    Ebent.

    Der Bot bin ich selber. Da ich danach strebe, Radiosendungen zu hören, ohne zur Gratisware für Datenkrämer und “Influencer” zu werden, zielt mein vorsätzlicher Akt auf präzise Inhalte. Vielleicht haben sie bei Radio France eine robots.txt; aber das interessiert mich ja nicht. Sie lassen Outbrain und Google ungehindert in *meinem Browser* agieren; ich mache das Gleiche mit dem HTML, das sie mir geschickt haben.


    Ich möchte überhaupt keine Blockierungen umgehen. Ich umgehe überhaupt nichts. Das ist der Punkt. Der Zugang zu den Audiodaten ist vorgesehen und normalerweise simpel.

    Der Grund für die Zusammenarbeit mit anrüchigen Unternehmen ist hier, dass die Öffentlichen Einrichtungen, d.h. Behörden und Medien, kein Geld haben, um alles richtig zu machen. Noch weniger, um Leute einzustellen, die wissen, wie das geht.