Teilchenphysik für alle

CERN überlässt der Öffentlichkeit die Messdaten seiner Grossexperimente

Das Europäische Forschungszentrum für Teilchenphysik (CERN) in Genf arbeitet zur Zeit daran, die Messdaten der vier grossen Experimenten – ALICE, ATLAS, CMS und LHCb - über das Internet der Öffentlichkeit zugänglich zu machen. Von dieser Form der ‹offenen Wissenschaft› profitieren Teilchenphysikerinnen und -physiker rund um den Globus, aber auch Studierende oder Gymnasiastinnen und Gymnasiasten – zum Beispiel in der Schweiz.

Im CERN-Rechenzentrum werden die Daten der Experimente am Teilchenbeschleuniger LHC auf Magnetbändern gespeichert.
Bild: B. Vogel

2012 wurde am CERN das Higgs-Teilchen entdeckt. Es war eine der spektakulärsten Erkenntnisse der physikalischen Grundlagenforschung im letzten Jahrzehnt. Jetzt hat das CERN entschieden, alle Daten, die zur Entdeckung des Teilchens geführt haben, der Öffentlichkeit zur Verfügung zu stellen. Mehr noch: Das CERN will die Daten aller vier grossen Experimente am Teilchenbeschleiniger LHC (für: ‹Large Hadron Collider›) öffentlich zugänglich machen. Die Daten werden ab diesem Jahr nach und nach freigeschaltet. Demnächst sollen im Internet alle Daten abrufbar sein, die am LHC seit dem Start 2010 bis im Jahr 2016 zusammengetragen wurden.

Eine faszinierende Perspektive, denn diese Veröffentlichung bedeutet im Klartext: Wäre das Higgs nicht schon entdeckt, könnte jedermann, der die CERN-Daten angemessen auswertet, die Higgs-Entdeckung selber machen – die 2013 immerhin zu einem Nobelpreis führte. Zwar ist das Higgs schon entdeckt. Aber, wer weiss, vielleicht schlummert in den CERN-Daten noch eine andere wissenschaftliche Sensation?

Daten öffentlich teilen

Nun braucht es für eine angemessene Analyse von CERN-Daten sehr viel Sachverstand, und der Zugang zu den Messwerten allein dürfte kaum zu sensationellen Entdeckungen führen. Trotzdem ist das Vorgehen des CERN bemerkenswert. Es ist ein prominentes Beispiel von ‹open science› (‹offener Wissenschaft›): Wissenschaftlerinnen und Wissenschaftler teilen gewonnene Daten hierbei mit der Öffentlichkeit und schaffen damit die Grundlage, dass aus den Messungen ein Maximum an Erkenntnis gewonnen werden kann. Es ist der Ansatz, den in ähnlicher Weise auch Wissenschaftsorganisationen wie die NASA oder Projekte wie das Computerbetriebssystem Linux oder das Online-Lexikon Wikipedia verfolgen.

Festgeschrieben ist die neue Daten-Freizügigkeit des CERN in der ‹Open-Data-Policy› (etwa: Richtlinie für einen offenen Umgang mit Daten). Diese Richtlinie hat das CERN im letzten Dezember veröffentlicht, nachdem die ‹Europäische Strategie für Teilchenphysik› einen offenen Umgang mit Daten angemahnt hatte. Seither werden Daten der grossen LHC-Experimente ATLAS, LHCb und ALICE freigeschaltet. Die Daten von CMS – dem vierten grossen Experiment – sind bereits verfügbar. Diese Forscherkollaboration hatte der Veröffentlichung seiner Daten nämlich schon früher zugestimmt.

Fokus auf Level-3-Daten

Die ‹Open-Data-Policy› des CERN bezieht ich hauptsächlich auf die sogenannten Level-3-Daten. Um zu verstehen, was damit gemeint ist, muss man sich die Arbeitsweise der LHC-Forschenden vergegenwärtigen: Im Teilchenbeschleuniger werden Protonen zur Kollision gebracht und anschliessend die dabei entstehenden Teilchenspuren mit aufwändigen Messvorrichtungen aufgezeichnet. Da in einem LHC-Experiment pro Sekunde rund eine Milliarde Kollisionen stattfinden, fallen Daten in sehr grosser Menge an. Damit die Wissenschaftlerinnen und Wissenschaftler in diesem Meer von Informationen nicht ertrinken, wird jener Teil der Messdaten, von dem keine wissenschaftliche Erkenntnisse erwartet wird, gar nicht erst weiter prozessiert oder aufgezeichnet.

Übrig bleiben Rohdaten in immer noch grosser Menge, die für sich genommen allerdings noch kaum aussagekräftig sind. Erst wenn die Rohdaten mit entsprechenden Computerprogrammen aufbereitet werden, entstehen ‹rekonstruierte› Daten: Sie beschreiben beispielsweise die Bahnparameter eines Teilchens, das nach einer Proton-Proton-Kollision beobachtet wurde. ‹Rekonstruierte› Daten bilden denn auch die Grundlage aller Analysen an den vier LHC-Experimenten – und damit die Basis aller Entdeckungen am CERN.

Veröffentlichung mit Zeitverzug

Die ‹rekonstruierten› Daten werden Level-3-Daten genannt, um sie gegen andere Typen von Daten abzugrenzen: Zu einen gegen die oben erwähnten Rohdaten (Level-4-Daten), die für sich genommen so wenig aussagekräftig sind, dass sie auch künftig nicht veröffentlicht werden. Zum anderen gegen die Daten, die in wissenschaftlichen Open-Access-Aufsätzen veröffentlicht werden (Level-1-Daten). Diese sind über Wissenschaftsmagazine seit jeher der Öffentlichkeit zugänglich. Bleiben die Level-2-Daten: Das sind die Daten, die das CERN bisher schon und auch in Zukunft für schulische Zwecke und Öffentlichkeitsarbeit nutzt. Ein Beispiel dafür sind die jährlich auch in der Schweiz stattfindenden ‹International Masterclasses› – Tageskurse, bei denen Gymnasiastinnen und Gymnasiasten aus der ganzen Welt mit echten, aber vereinfachten CERN-Daten Elementarteilchen aufspüren und damit einen sehr realistischen Einblick in die Arbeitsweise der Teilchenphysik gewinnen.

Dass das CERN künftig die Level-3-Daten veröffentlicht, hat unter den Forschenden der Einrichtung durchaus auch Vorbehalte hervorgerufen. Sie fürchteten nämlich, externe Wissenschaftlerinnen und Wissenschaftler könnten von CERN-Daten profitieren, ohne sich am komplexen Aufbau der CERN-Experimente beteiligen zu müssen. Sie könnten dann quasi unverdientermassen einen wissenschaftlichen Gewinn einstreichen. «Hier mussten wir die richtige Balance finden», sagt CERN-Physiker Jamie Boyd, der die Open-Data-Policy massgeblich mitformuliert hat. «Damit die CERN-Forschenden nicht um die Früchte ihrer Arbeit betrogen werden, werden die Level-3-Daten erst fünf Jahre nach der Erfassung veröffentlicht.»

Direkt an der Grenze

Physisch betrachtet liegen alle Daten im Rechenzentrum des CERN auf Magnetbändern abgespeichert, auf französischem Boden, wenn man es ganz genau nimmt, denn das Rechenzentrum liegt einige Meter jenseits der Schweizer Grenze. Die Datenspeicherung erfolgt nach dem sogenannten FAIR-Standard. Er stellt sicher, dass die Daten auffindbar, zugänglich, interoperabel und wiederverwendbar sind. Jedes der vier grossen LHC-Experimente produziert jedes Jahr die riesige Datenmenge von rund einem Petabyte. Hinzu kommt nochmals die gleiche Menge von simulierten Daten, die für die Analysen der CERN-Forschenden unabdingbar sind. Ab 2027 wird der LHC nochmals einen Sprung in der Leistungsfähigkeit machen. Die Zahl der Kollisionen am LHC wird sich dann verfünffachen, und dies wird die Menge der Daten nochmals deutlich erhöhen.

Dass die CERN-Daten auch für Wissenschaftlerinnen und Wissenschaftler, die nicht am CERN tätig sind, von Interesse sein können, hat sich bereits gezeigt. So sind laut Jamie Boyd aus den Daten, die das CMS-Experiment bereits in den letzten Jahren öffentlich zugänglich gemacht hat, rund zehn wissenschaftliche Publikationen entstanden. Dieses Beispiel könnte dank der Open-Data-Policy nun Schule machen, ist das CERN in seiner Medienmitteilung überzeugt: «Die neue Richtlinie könnte als Mustervorlage für andere CERN Experimente und weitere wissenschaftliche Einrichtungen dienen.»

Autor: Benedikt Vogel

Das Open-Data-Portal ist zu finden unter: http://opendata.cern.ch

Kategorien

  • Elementarteilchenphysik

Kontakt

Swiss Institute of Particle Physics (CHIPP)
c/o Prof. Dr. Rainer Wallny
ETH Zürich
IPA
HPK E 26
Otto-Stern-Weg 5
8093 Zürich

E-Mail