Tip-Veranstaltungsadressen: Von der kopierten Printausgabe zur Datenbank

Folgt man den landläufigen Vorstellungen von Gentrification-Prozessen, dann kommt den sogenannten Pionieren (Künstler/innen, Studierenden, Alternativen etc.) und ihren Einrichtungen eine große Bedeutung in den Frühphasen der Aufwertung zu. Der Imagewandel von „heruntergekommenen“ Nachbarschaften zu „Szenevierteln“, in denen plötzlich viele neue Bars und Restaurants oder auch Galerien und Clubs eröffnen, wird häufig als ein erstes Anzeichen für eine schleichende Gentrification gedeutet. Exemplarisch sei hier auf einen Beitrag in der Frankfurter Rundschau verweisen: “Jung, ledig sucht…” in dem es heißt:

Am Anfang sind es Studenten und Künstler, die einen Stadtteil entdecken. Wir verraten, wie daraus ein Szeneviertel entsteht und welche Quartiere in Zukunft besonders gefragt sein werden

Ob es tatsächlich einen Zusammenhang zwischen Gewerbestruktureinrichtungen und Gentrification-Dynmiken gibt, wollen wir im Rahmen der GentriMap überprüfen. Idee ist es, die räumliche Verteilung von Veranstaltungsadressen mit den soziodemographischen und wohnungswirtschaftlichen Entwicklungen in den jeweiligen Gebieten zu vergleichen. Eine Herausforderung dabei ist die zeitliche Dokumentation von Veranstaltungsadressen auf Basis einer über die Jahre hinweg einheitlichen Systematik.

Als Datenbasis haben wir uns für die im Berliner Stadtmagazin TIP veröffentlichten Veranstaltungsadressen entschieden. Wir sind uns bewusst, dass diese Adressen jeweils nur einen Ausschnitt der Berliner Kulturangebote umfassen, aber durch den regelmäßigen Erscheinungstakt des Mediums selbst ist eine hohe Kontinuität der Datenreihe gewährleistet. Durch die freundliche Unterstützung des Magazins wurden uns Adressenlisten seit 1971 zur Verfügung gestellt, so dass wir die Entwicklung der Angebotsstruktur über einen langen Zeitraum darstellen können.

Die Freude über die freimütige Unterstützung unseres Projektes erhielt ein paar Kratzer als wir realisierten, das uns dieser Adressenschatz in Form von eingescannten Fotokopien der jeweiligen Zeitungsseiten aus dem Archiv der Zeitschrift zur Verfügung gestellt wurde.

TIP-Veranstaltungsadressen von 1973

Die Frage der händischen Übertragung in ein für uns nutzbares Datenformat stellte sich angesichts des Umfangs nicht wirklich und wir entschieden uns, es mit mit dem Freeware-Programm Tesseract zu versuchen. Damit gelang es, alle wesentlichen Informationen der gescannten Adresslisten in digitale Tabellen zu übertragen. Nur einge Hausnummern, Straßennamen und Namen der Veranstaltungsorte mussten nachberabeitet werden.

Auf der Basis der Adressdaten können Veranstaltungsorte nicht nur geographisch zugeordnet werden, sondern auch Veränderungen von Veranstaltungsorten an einem Ort können dargestellt werden.

Weil das Veranstaltungsangebot recht vielfältig ist – schließlich gibt es neben Clubs und Konzert-Locations auch Orte für Kunstveranstaltungen, Museen, Lesebühnen, Galerien usw. –, brauchten wir noch ein Kategorisierungsschema, um die unterschiedlichen Veranstaltungsorte nach ihrem Angebot zu unterteilen. Das TIP-Magazin hat über die Jahre keine Kategorisierung dauerhaft beibehalten und teilweise sogar gar keine Unterscheidung gemacht und stattdessen alle Adressen in einer alphabetischen Liste geführt. Letztendlich haben wir uns an den Kategorien orientiert, die akuell auf der Internetseite und in den Papierausgaben der TIP verwendet wird.

TIP-Veranstaltungsadressen von 2012 (Onlineversion)

Im Scraping-Verfahren haben wir die Veranstaltungsorte, Adressen und Kategorien von der Webseite des Stadtmagazins herausgelesen, so dass uns für 2012 eine komplette Zuordnung aller Adressen zu den Katergorien zur Verfügung stand.  Dabei haben wir auch gleich die Geodaten (Latituden- und Longitudenwerte) für die Veranstaltungsorte extrahieren können, weil auf der Internetseite meist ein Google Maps-Eintrag verlinkt ist.

Der Adressenbestand der Onlineversion ist ausführlicher als der der Printausgaben. Da uns in der Zeitreihe aber nur die Angaben der Printausgaben zur Verfügung standen, mussten wir uns schweren Herzens und um der Vergleichbarkeit Willen von einem Teil unsere gerade gescrapten Daten wieder trennen.

Mit einem kleinen Script wurde für die verschiedenen Jahren nach Übereinstimmungen von Adressen und Namen der Veranstaltungsort gesucht. So konnten Zeitpunkte der erstmnaligen Nennung von Veranstaltungsortenb in den Tip-Adressenlisten identifiziert werden, die wir für weitere Auswertungen als Neueröffnungen behandeln werden. Die Veranstaltungsorte, die es heute nicht mehr gibt und deshalb nicht automatisch nach der aktuellen Kategorisierung unterteilt werden können, mussten allerdings noch einzeln kategorisiert werden.

Für unsere Untersuchung des kulturellen Wandels in Berliner Stadtteilen haben wir uns also eine erste Datengrundlage geschaffen. Die ersten Auswertungen stehen noch aus, aber wir bleiben am Ball!

3 Responses

  1. Roman
    Roman
    at
    | Reply

    Ich habe gerade für Wien angefangen Veranstaltungen zu scrapen wenn auch mit dem Ziel einen Kalender zu erstellen. Aber mir kommt mir das sehr bekannt vor.

    Was ich mich jedenfalls frage ist obe es möglich wäe diese Adressen zu Kategorisieren bzw. zu Gewichten.

    Wäre es nicht sinnvoll mehr noch als die Adressen die Veranstaltungen zu erfassen? Und da gewisse Kategorien herausgreifen?

    Ich frage mich ob die Frequenz der Ankündigungen und die Kategorie der Ankündigungen nicht ein interessantes Merkmal wären. Grundsätzlich sind die auch nicht so schwer zu erfassen – man müsste halt regelmäßig abfragen.

    Ich habe für etwa 10 Seiten die Veranstaltungen ankündigen so etwas gemacht in letzter Zeit – das war nicht so schwierig.

    Eine übrigtens auch mögliche Quelle für Veranstaltungen wäre Facebook. Da stellt sich die Frage wie man da auswählt. City ist eine zentrale “Autorität” – bei Facebook wird das wierderrum schwierig. Man könnter dort höchstens nach Schlagworten suchen oder “Autoritäten” benennen.

    Bei Facebook gibt es dafür einen Adapter wo man beliebige Walls auf ics (ical) Format konvertieren kann. Das ist übrigens vielleicht ein gutes Metaformat – ich habe nun immer auf ics konvertiert und das lese ich dann ein. Die ics-Konverter sind python-scripts mit beautifulsoup – bei Interesse schicke ich Euch gerne ein Beispiel.

    lg
    roman

  2. Martin
    Martin
    at
    | Reply

    Vielen Dank für den Artikel… Eine Anmerkung: Der Link zur “Scraping-Verfahren” funktioniert nicht.

Leave a Reply