RSS richtig ausreizen

(http://www.zdnet.de/magazin/39126895/rss-richtig-ausreizen.htm)

von Jörg Rensmann, 21. Oktober 2004

Auf immer mehr Web-Sites prangen RSS-Buttons - Das XML-basierte News-Format gilt als neue Wunderwaffe gegen Spam. ZDNet verrät, welche Möglichkeiten RSS bietet und wie Sie RSS erfolgreich einsetzen.

Screenshot N24 RSS
Großansicht: Klick auf Bild
Über Jahre hinweg fristete RSS ein Mauerblümchen-Dasein. Kaum beachtet und nur Insidern ein Begriff, erlebt RSS im Zeichen der Spam-Debatte ein Revival. Die meist orangefarbenen RSS- oder XML-Buttons avancieren zum Standard auf News- und Portal-Sites. Was der Nachrichtensender "N24" online schon lange praktiziert, finde sich nun auch bei "Spiegel Online", "Stern.de" und Co. Die eigenen News als Schlagzeilen im kompakten XML-Format zu präsentieren, ist en vogue.

Ursprünglich erfunden wurde RSS bereits 1997, als es im Oktober im Rahmen des "Ressource Description Framework" (RDF) erstmals auftauchte. Doch erst 2000 wurde RDF als offizieller W3C-Standard für die Beschreibung, Bewertung und Kategorisierung von Web-Inhalten verabschiedet. Die "RDF Site Summary" – kurz RSS – sollte dazu dienen, den kompletten Inhalt eines Web-Angebots in kompakter Form wiederzugeben.

Zwischenzeitlich hatte Netscape RSS als Basis für sein "My Netscape Network" entdeckt. Site-Betreiber konnten ihre aktuellen Headlines in das persönlich konfigurierbare Netscape-Portal integrieren und so die Klicks auf die eigenen Inhalte steigern. Für Special Interest-Portale ein idealer Weg, die Reichweite zu steigern und für Netscape die Basis, ein umfassendes News-Portal ohne aufwendige Redaktion aufzubauen.

Aus diesen Zeiten stammt das Image, RSS würde vor allem die Verbreitung von Inhalten unterstützen. Zwar stimmt das generell, doch steht der Syndication-Gedanke längst nicht mehr im Vordergrund. Sites wie Spiegel oder Stern können so nicht wirklich die Reichweite erhöhen und ob man auf der eigenen Homepage mehr Klicks verzeichnet, nur weil hier die Politik-Nachrichten von N24 zu finden sind, mag man auch bezweifeln. Wer Nachrichten will, surft direkt zu einem News-Portal. Vielmehr gilt RSS heute als Alternative zum Newsletter, der aufgrund von Spam überfluteter Postfächer in puncto Kundenbindung immer schlechter funktionieren. Mit den RSS-Angeboten haben Webmaster heute vor allem spezielle News Reader wie Newsgator, Plug oder Awasu im Auge. Der Anwender abonniert einfach die gewünschten RSS-Feeds. Der RSS-Reader präsentiert dann die aktuellen Schlagzeilen. Extras wie Suche in den Feeds, Hervorheben von Nachrichten mit bestimmten Schlagworten helfen, sich im Informations-Dschungel Internet schnell und aktuell zu informieren.

Screenshot N24 RSS
Großansicht: Klick auf Bild
Doch stecken die RSS-Reader oft noch in den Kinderschuhen. News werden ähnlich wie E-Mails in Outlook als unappetitliche "Häppchen" präsentiert. Die meisten Tools sind nur in englischer Sprache verfügbar. Die Bedienung ist für den "Otto-Normal-Surfer" oder für einen Einsatz im Unternehmensnetz zu kompliziert. RSS-Reader sind daher noch nicht sehr verbreitet und werden derzeit nur von Insidern und IT-Professionals genutzt.

Screenshot DBA
Großansicht: Klick auf Bild
Allerdings erwarten Experten, dass der Markt für professionelle RSS-Reader in den kommenden Monaten in Bewegung kommt – und damit eine breitere Basis für den unternehmensinternen Einsatz von RSS entsteht. So nutzt etwa die dba (ehemals Deutsche British Airways) schon heute RSS-Technologie, um die Mitarbeiter im Büro und an den Flughäfen per News-Screen Saver über aktuelle Geschehnisse im Unternehmen auf dem Laufenden zu halten.

Screenshot N24 RSS
Großansicht: Klick auf Bild
Dieselbe Software liegt dem News-Schoner von ZDNet[1] zu Grunde. Auch hier kommt RSS zum Einsatz, um aktuellen News, Testberichte und Download-Tipps direkt auf den PC-Desktop zu liefern.

Schön verpackt wie zum Beispiel mit dem Isaver Bildschirmschoner können RSS-Feeds von jedermann genutzt werden, ohne sich mit RSS selbst, der Installation von News Readern oder der Frage, wo man interessante Feeds findet, auseinander setzen zu müssen. Ideen wie der eigene News-Schoner zur Site-Promotion oder für die firmeninterne Kommunikation wie bei der dba zeigen, dass RSS ein Thema mit Potential ist, dass nicht nur versierte Webmaster interessieren sollte. Doch herrscht selbst unter XML-Experten oft Verwirrung und Unsicherheit, wenn es um RSS geht.

Tatsächlich trägt RSS mit unterschiedlichen Versionen, die im Feld kursieren, hierzu selbst maßgeblich bei. Das ganze fand mit RSS 0.9 seinen Anfang in den Bemühungen von Netscape. Kurz nach RSS 0.9 veröffentlichten Netscape und Userland Software eigene Spezifikationen eines erweiterten RSS 0.91.

Das XML-Format war sehr einfach gestrickt. Es bestand aus einem einleitenden Absatz mit Informationen zum Autor sowie darin eingebetteten News-Items, die jeweils aus einer Headline und einem Link auf den Artikel im Web bestanden. Schon kurz darauf wurde das Format um zusätzliche Tags erweitert. Neu in RSS 0.91 und 0.92 war vor allem das Description-Tag mit erläuternden Inhalten zur Headline (Teaser oder Zusammenfassung des Artikels). Allerdings verlor RSS 0.91 seine Wurzeln im RDF-Standard.

Die Verwirrung wurde 2000 komplett, als das World Wide Web Consortium RDF und RSS in Version 1.0 verabschiedeten. Zwar wurde mit RSS 1.0 ein Standard geschaffen, der auch die aus der Praxis stammenden Erweiterungen aus RSS 0.9x berücksichtigte. Dennoch erschien Netscape, Userland und anderen, die RSS vor allem zur Syndizierung von Inhalten nutzten, der offizielle Standard zu komplex. Und so arbeitete man hier weiter an einer eigenen Variante von RSS, die kurz nach dem offiziellen Standard leicht erweitert als RSS 0.92 mit dem Fokus auf Content-Syndication veröffentlicht würde. Aus RSS 0.9x gingen dann 2002 die Spezifikationen für RSS 2.0 hervor.

Zwar vermitteln die Versions-Bezeichnungen den Eindruck, RSS 2.0 wäre moderner, neuer und Leistungsfähiger, als dessen vermeintlicher Vorgänger RSS 1.0. Da das zwar jüngere RSS 2.0 vornehmlich auf die Syndizierung von Inhalten abzielt, handelt es sicher hierbei allerdings um ein weit verbreitetes Vorurteil. Die offizielle Spezifikation RSS 1.0 ist dank ihres modularen Aufbaus und der Erweiterung um zusätzliche so genannte Name Spaces flexibler und leistungsfähiger. Neu im offiziellen Standard RSS 1.0 war vor allem die Gliederung der RSS-Datei in drei Abschnitte. Der Kopf (Head) weist die Datei als XML-Dokument aus. Das <?xml … ?> Tag sollte zwingend in der ersten Spalte der ersten Zeile beginnen. Eine Leerzeile oder Kommentare dürfen die Datei nicht eröffnen, da verschiedene XML-Parser das Format sonst schon gar nicht mehr bearbeiten. So versagt etwa der bordeigene Parser von Mozilla den Dienst, findet er das XML-Tag nicht gleich am Anfang des Dokumentes, während Microsofts Internet Explorer führende Leerzeichen oder Kommentare generös übersieht und das an sich nicht standard-konforme XML trotzdem parst.

Mit dem W3C-Standard wurde RSS außerdem international. Während RSS 0.9x Dateien in der Regel ANSII-Codiert waren, sieht RSS 1.0 das Encoding im UTF-8 Format vor. Somit lassen sich in RSS nun auch Sonderzeiten und Umlaute verwenden. Nur spezielle Zeichen, die im Rahmen des RSS-Standards oder als XML vom Parser interpretiert werden wie die eckigen Klammern, Anführungszeichen oder "&" sind bei Verwendung innerhalb eines Tags zu markieren – das "&" etwa als "&".

Zeile 2 weist die Datei schließlich als RDF-konforme RSS-Datei aus. Hier wird auf die im XML-Dokument verwendeten Name Spaces (xmlns) Bezug genommen. Der Name Space spezifiziert die verwendeten Tags und schreibt jedem definierten Tag eine eindeutige Syntax vor, an die sich der Autor der XML-Datei halten sollte. Für eine RSS 1.0 konforme Datei sieht der Kopf damit wie folgt aus:

Nach dem Kopf folgt die Channel-Beschreibung. Hier finden sich generelle Informationen über den RSS-Feed und dessen Publisher. Das Channel-Tag ist in RSS 1.0 bindend und muss ein rdf:about Attribut ausweisen, das den Channel über eine URI (Uniform Resource Identifier) eindeutig identifiziert. In der Regel setzt man hier die URL, unter welcher der RSS-Feed veröffentlich ist.

Die Channel-Beschreibung setzt sich mit einem Titel (<TITLE>), einem Link zum Publisher (<LINK>) eine Beschreibung des Channels (<DESCRIPTION>) sowie einer Aufzählung der aktuell enthaltenen News-Items (<ITEMS>-Block) fort. Diese Elemente müssen im Channel auftauchen. Hier ein Beispiel:

Das <IMAGE>-Tag ist optional und kann einen Link auf ein Logo oder eine Grafik für den Channel enthalten. Die Grafik wird über das Attribute rdf:ressource als URL eingebettet, unter der es abgerufen werden kann. Ebenfalls optional ist der Tag <TEXTINPUT>. Hierüber kann eine Texteingabe etwa für eine Suche ebenfalls über das Attribut rdf:ressource in die RSS-Datei eingebettet werden.

Über das Tag <ITEMS> muss eine komplette Auflistung der im abschließenden About-Block der RSS-Datei enthaltenen News folgen. Diese ist als Aufzählung (RDF-Sequenz) mit dem Tag <RDF:SEQ> zu beginnen und zu schließen. Dazwischen sind die Listenelemente der RDF-Aufzählung als <RDF:LI> mit dem ressource-Attribut aufzuführen, wobei als Attribut die Links auf die im Folgenden näher spezifizierten Web-Seiten zu definieren sind. Das Tag </CHANNEL> schließt den zweiten Block der XML-Datei ab. Es folgt abschließend der About-Block mit den Details zu den einzelnen Items, die im Channel-Block spezifiziert wurden. Für jedes Listenelement muss im About-Block ein Item-Tag enthalten sein, das wiederum die beschreibenden Elemente zu diesem News-Item kapselt. Jedes Item muss ein rdf:about-Attribut mit der selben URI wie in der RDF-Liste im Channel-Block aufweisen.

RDF selbst sieht innerhalb des Item-Blocks nur drei Tags für Titel (<TITLE>), Link (<LINK>) und eine weiterführende Beschreibung (<DESCRIPTION>) vor. Nur TITLE- und LINK-Tag sind verpflichtend. Für das obige Beispiel mit zwei Meldungen im Channel-Block könnte der abschließende About-Block wie folgt aussehen:

Das schaut zunächst nicht besonders spektakulär aus. Insbesondere beschränkt RDF mit nur drei Tags die Informationen, die zu einer URL im About-Block zur Verfügung gestellt werden können, sehr stark ein. Das aber bewusst, um RDF selbst möglichst schlank zu halten. Allerdings lässt sich das RDF-Format über Module um weitere Name-Spaces ergänzen, die dann zusätzliche Tags für weiterführende Informationen sowohl im Channel- wie auch im About-Block zu RSS zur Verfügung stellen.

RSS 1.0 sieht zwei zusätzliche Module vor: Die Dublin Core-Erweiterung und das Modul Syndication. Letzteres umfasst lediglich drei Tags zur Kennzeichnung, wie häufig und in welchem Rhythmus die RSS-Datei aktualisiert wird.

Dublin Core hingegen stellt einen sehr umfassenden Satz zusätzlicher Tags zur Verfügung, mit denen im Channel-Block und zu den einzelnen Items im About-Block zusätzliche Metadaten hinterlegt werden können. So lassen sich Autor, Zeitpunkt der Veröffentlichung, Rubik, Sprache, detaillierte Copy-Right-Informationen oder auch Links auf Grafiken zu einem News-Item in die RSS-Spezifikation einbetten.

URLs in diesem Artikel:
[1] = http://www.zdnet.de/downloads/prg/w/h/deZTWH-wc.html