Süddeutsche Zeitung Süddeutsche Zeitung Panama Papers
Elf Millionen Dokumente auf einen Blick

Elf Millionen Dokumente auf einen Blick

Von Katharina Brunner, Sascha Goldhofer, Martina Schories und Vanessa Wormer

Wenn Journalisten in den Panama Papers Daten-Ordner der Anwaltskanzlei Mossack Fonseca öffnen, ist keiner wie der andere. In dem einen befindet sich kein einziges Dokument, im nächsten dann 200. Zwei Mails oder doch mehrere Tausend. Und vielleicht noch eine Datenbank. 

Die Panama Papers bestehen aus zwei Ebenen. Sie enthalten auf der ersten Ebene die Namen von rund 214.000 Offshore-Firmen sowie die Namen von Personen, die offiziell als Anteilseigner oder Eigentümer gelten – eine Art kanzlei-internes Register. Dieses Register hat das das International Consortium of Investigative Journalists (ICIJ) in einer eigenen Datenbank zum Leak veröffentlicht. Darüber hinaus gibt es aber eine weiterführende Ebene - und die haben wir visualisiert.

Was die Grafik zeigt

Insgesamt 11,5 Millionen Originaldokumente wie E-Mails, Urkunden oder Passkopien stehen im Zusammenhang mit den gelisteten Firmen. Sie liegen in rund 260.000 Verzeichnissen und lassen sich in sechs Gruppen einordnen: E-Mails, Textdokumente, PDF-Dokumente, Bilder, Datenbanken und sonstige Dateien. In der Grafik bedeutet das: Jedes Verzeichnis besteht aus kleinen Quadraten. Jedes Quadrat steht für einen der Datentypen. Je intensiver die Farbe, desto mehr Dateien dieses Typs befinden sich in einem Verzeichnis.

Es ergibt sich ein Bild, das einem Störbild in Zeiten des analogen Fernsehens gleicht. 

Ein Beispiel: Die Firmen, die das Netzwerk um Sergej Roldugin, den russischen Musiker mit dem engen Draht zu Russlands Präsidenten Wladimir Putin, bilden, tauchen in fünf der rund 260.000 Ordner auf. Datenanalysten sprechen in solchen Fällen gerne davon, dass sie das Signal im Rauschen suchen. Im Fall der Panama Papers halfen dabei Programme wie Nuix. Die Software bringt die Daten in eine maschinenlesbare und vor allem leicht durchsuchbare Form.

Versuchen Sie selbst, in diesem Störbild die Verzeichnisse zu finden, die zum sogenannten Roldugin-Netzwerk gehören. Es ist fast unmöglich.

Wo sich die Grafik vom Leak unterscheidet

In wenigen Punkten unterscheidet sich unsere Visualisierung von der Struktur des Daten-Leaks: Wir zeigen nicht, wie die Verzeichnisse heißen und wie groß sie sind. Ein Ordner kann zum Beispiel eine PDF-Datei enthalten. Ob dieses PDF eine Seite oder 100 Seiten lang ist, geht aus der Grafik nicht hervor. Außerdem haben wir die Struktur der Verzeichnisse aufgelöst. Gezählt werden alle Dateien in einem Ordner. Unterordner werden gleichwertig behandelt, sie stehen neben ihrem übergeordnetem Verzeichnis.

Welche Dateien am häufigsten vorkommen

So unterschiedlich die Verzeichnisse sind, in einigen Punkten gleichen sie sich: In vielen Ordern liegen nur wenige Dateien. In mehr als der Hälfte aller Ordner gibt es mindestens eine E-Mail. Bild- und Textdateien sowie PDF's teilen sich ähnlich auf. Nur die Datenbanken sind auffällig. Sehr wenige Verzeichnisse liefern sehr viele dieser Art von Daten.

Was bei der Grafik schwierig war

Die Ordner in den Panama Papers unterscheiden sich gewaltig. Gibt es zu einem Kunden keine einzige E-Mail oder PDF-Datei, finden sich beim nächsten Hunderte davon. Um diese sehr kleinen und sehr großen Vorkommen auf eine einzige Skala zu bekommen, haben wir sie umgerechnet. In der Mathematik nennt man diese Berechnung logarithmieren. So entstehen drei vergleichbare Farbabstufungen. Und das große Bild voller Rauschen lässt Rückschlüsse auf die Struktur der Panama Papers zu.