Holdrio.
Ich hoffe ehrlich, dass mein Post nicht zu „länglich“ wird. Mir ist allerdings auch nicht klar, wie viel ich vorab erzählen muss, damit meine Schwierigkeit hinterher auch einleuchtet... Erstmal: Hier ist nichts tragisch und am Ende werde ich wahrscheinlich nur schlauer sein.
Ich verliere auch ein bisschen an deutschem Sprachgefühl. Damit sind wir fast beim Thema: Ich sitze hier in Frankreich und veröffentliche auf meiner Web-Site (meist Duplikate von eigenen) Anleitungen und bissi Erfahrungsberichte diverser Natur aber doch viel Programmier- und Internet-Krempel. Vieles ist auch schon Teil meines Blogs auf Linuxquestions.org, meine eigene Site ist schwach besucht, weil mir das nicht so wichtig ist.
So.
Es begab sich vor einiger Zeit, dass ich verstanden habe, wie öffentliche Web-Sites von Behörden und sonstigen öffentlichen Einrichtungen in F mit GAFAM-Krempel verseucht sind. Richtig „festgefressen“ habe ich ich an den Web-Sites von « Radio-France », besonders franceinter.fr (wie RTL aber öffentlich-rechtlich) und franceculture.fr (wie BR2). Dort musste man, um irgend eine Sendung per “Podcasst” oder “Streaming” im Nachhinein zu hören, bis zu 15 Verbindungen zu externen Diensten akzeptieren. Vorher war im dynamischen Code der Seite gar keine Repräsentation der Audiodaten zu finden. Das Spektrum dieser Dienste reichte von Doubleclick.net über F*c*book, abtasty, outbrain bis Google, Amazon, Twitter etc...
Ich habe darum beschrieben, wie man diesen Quatsch umgeht und dennoch an die mp3-Dateien der Radiosendungen herankommt: Identifizieren mehrerer passender URLs und direkter Download, ohne Umweg über Web und Mausklick. Zuletzt habe ich den Bezug von RSS-Daten (XML) automatisiert, was gestattet, die gesamte Historie einer Sendung nachzuvollziehen und ebenso direkt auf die mp3-Dateien zuzugreifen.
Bis hierhin ist alles, was ich tue, die Web-Site zu konsultieren und URLs zu finden.
Jetzt... Die RSS-Dateien sind durch 5-stellige Ziffernfolgen identifiziert, aber allesamt über den gleichen URL zu beziehen. Was fehlt, ist eine Liste dieser Zifferncodes für die verschiedenen Radiosendungen. Ich habe mehrmals die Kontaktadressen der Radiosender angeschrieben, um eine solche Zuordnungsliste zu erhalten oder anzuregen, sie zu veröffentlichen. Auf solche Anfragen bekommt man aber keine Antwort (gar keine).
Binisch schlau, sage ich mir, und schreibe einen Web-Bot mit Hilfe einer Webdriver Implementation. Watir, man könnte aber auch direkt Silenium verwenden. Egal.
Weil das so wunderbar funktioniert und ich sämtliche vorhandenen RSS-Ströme ihren Radiosendungen zuordnen kann, habe ich mir gedacht, in diese Listen auch eine Kurzbeschreibung der Sendung einzubauen. <=== DAS IST DAS PROBLEM.
Diese Kurzbeschreibungen sind *nicht* auf der selben Web-Seite zu finden, wie die Links zu den RSS-Daten.
In den USA gibt es ein Gesetz, das Interpretationen zulässt. Eine lässt schließen, dass dort meine Verwendung der Web-Site und das „Umgestalten“ der veröffentlichten Daten durch ihre Zusammenführung in einer einzigen Datei ... – ungesetzlich wäre.
Mir ist völlich klar, dass ich meine Frage in Frankreich stellen muss. Bis jetzt habe ich aber noch nicht entschieden, wo ich das tun werde. Ad hoc würde mich interessieren, wie jemand im netcup-Umfeld die Situation versteht.
Nochmal Zusammenfassung:
2 Web-Seiten: Eine mit einer Liste von Radiosendungen und einem Button, der, – erst bei Klick – einen URL nachlädt, über den dann eine RSS-Datei geholt werden kann. Eine zweite Seite, die für 1 Sendung eine Kurzbeschreibung liefert. So ist das vom Web-Site-Betreiber vorgesehen; aber weil ich das schlecht finde, baue ich mir eine Liste mit allen drei Details zu jeder einzelnen Radiosendung.
Ist das in Ordnung ... in Deutschland, Europa.., in eurem Gefühl oder sonst wie?
Ach ja... und ich würde die veröffentlichten Prozeduren gerne um eine kleine Einführung in Webdriver (Watir) ergänzen, d.h. meinen mickrigen „Web-Bot“ beschreiben.