Im Tandem – ein smarter Ansatz für Data Stewardship

Wie gelingt Data Stewardship als Aufgabe, die auf mehrere Schultern verteilt ist? Dr. Sabina Keller und Dr. Lukas H?rtnagl (Forschungsgruppe Grassland Sciences am D-USYS) berichten im Interview.

Dr. Lukas Hörtnagl und Dr. Sabina Keller

Data Stewardship in einer Forschungsgruppe muss keine ?One-Person-Show? sein. Welche Synergien k?nnen im Tandem genutzt werden, um Herausforderungen zu meistern und die Arbeit einer Forschungsgruppe effizienter zu gestalten? Wie dies gelingen kann, zeigt die ETH-Bibliothek im Gespr?ch mit Dr. Sabina Keller (SK) und Dr. Lukas H?rtnagl (LH).

Arbeiten Sie an der ETH Zürich und besch?ftigen Sie sich mit Forschungsdatenmanagement, Data Stewardship oder Open Research Data?
Vernetzen Sie sich mit anderen Expert:innen, tauschen Sie Erfahrungen und L?sungen aus und profitieren Sie von Best Practices im Data-Stewardship-Netzwerk.
Profitieren Sie vom Wissen der Community und gestalten Sie Data Stewardship an der ETH aktiv mit – melden Sie sich bitte per E-?Mail an uns: .

Sabina und Lukas, ihr arbeitet zurzeit als Datenarchiv-Managerin und Data Scientist. Was sind eure Aufgaben?

SK: Als Datenarchiv-Managerin führe ich alle neuen Gruppenmitglieder ? von Bachelor-Studierenden zu Postdocs ? in die Standards unseres Datenmanagements ein. Dabei geht es um Themen wie die externe Seite FAIR-Prinzipien, unsere Variablennamen-Konvention, die Dokumentation von Metadaten, unsere Data Policy, etc.. Zu Beginn ihrer T?tigkeit unterzeichnen neue Gruppenmitglieder ein ?Research Data Access and Use Agreement?. Bei Abschluss eines Projekts treffe ich mich mit dem/r Datenautor:in, um die Aufbereitung der Daten für die Langzeitarchivierung zu besprechen. Nach Eingabe der Daten kontrolliere ich die projektbasierten Datens?tze auf Vollst?ndigkeit, passe sie n?tigenfalls bezüglich Formaten und Codierung an und transferiere sie mit den dazugeh?renden Metadaten und der entsprechenden Nutzungslizenz ins Langzeit-Datenarchiv der ETH-Bibliothek. Da ich manchmal sehr grosse Datenmengen eines Projekts ins ETH Data Archive übertragen m?chte, nutzen wir dazu in Zusammenarbeit mit der ETH-Bibliothek einen gesonderten ?Batch Processing Ingest?. Die Daten werden sp?ter mit der Research Collection verknüpft und k?nnen dort gefunden und – falls Open Access – heruntergeladen werden.

LH: Als Data Scientist decke ich in unserem Team ein breites Spektrum an Aufgaben ab, das sowohl technische Datenverarbeitung als auch wissenschaftliche Analysen umfasst. Mein Schwerpunkt liegt auf der Berechnung des Gasaustauschs zwischen Biosph?re und Atmosph?re. Dazu geh?ren die sorgf?ltige Qualit?tskontrolle, Korrektur und Vervollst?ndigung von Daten, um lückenlose Langzeitdatens?tze zu erstellen. Diese Datens?tze, die an einigen unserer Messstationen im Swiss FluxNet bereits mehrere Jahrzehnte umfassen, stellen wir über Plattformen wie die ETH Research Collection und externe Seite FLUXNET offen zur Verfügung.

Um die Daten unserer Messstationen effizienter zu überwachen, habe ich vor einigen Jahren eine Datenbank (externe Seite InfluxDB) implementiert, in die t?glich neue Messwerte einfliessen. Ausserdem unterstütze ich Studierende und Postdocs bei der Aufbereitung und Interpretation ihrer ?kosystemdaten, um die erfolgreiche Umsetzung ihrer Forschungsprojekte zu unterstützen.

Dr. Sabina Keller ist seit 2004 in verschiedenen Funktionen als Lehr- und Wissenschaftsassistentin in der Gruppe t?tig: Als Datenarchiv-Managerin in der Schulung der Gruppenmitglieder und der Archivierung von Forschungsdaten, als Dozentin, und mit Outreach-Projekten zur Wissenschafts- und Forschungsvermittlung.

Dr. Lukas H?rtnagl arbeitet seit 2014 zuerst als Postdoc, sp?ter als Data Scientist in der Gruppe. Er besch?ftigt sich u.a. mit dem Austausch von Gasen wie Kohlendioxid und Methan zwischen Biosph?re und Atmosph?re, und koordiniert den Datenupload in internationale Datenbanken, um aktuelle Forschungsdaten zeitnah und offen zug?nglich zu machen.

Welche Herausforderungen seht ihr bei euren Aufgaben bezüglich Datenmanagement?

SK: Eine mangelnde Dokumentation w?hrend der Datenerhebung kann dazu führen, dass wichtige Metadaten für eine sp?tere Nutzung durch andere Forschende fehlen. Zum Beispiel k?nnen bei der Erhebung von Proben im Feld in Zukunft keine Folgeerhebungen an genau denselben Standorten gemacht werden, wenn eine geografische Verortung (GIS) fehlt. Oft merkt man erst, wo Handlungs- oder Aufkl?rungsbedarf besteht, wenn Probleme auftreten. Kürzlich diskutierten wir in der Gruppe sinnvolle Unique Sample IDs für von Hand erhobene Daten.

LH: Eine Herausforderung ist die Definition und Dokumentation transparenter und nachvollziehbarer Aufbereitungskriterien, was aufgrund der Vielfalt unserer Messdaten oft komplex ist. In der Datenverarbeitung unterscheiden wir daher grundlegend zwischen Rohdaten und prozessierten Daten. Dabei sind Rohdaten die ursprünglichen, unver?nderten Daten, die direkt von Messinstrumenten im Feld erfasst werden. Sie stellen die Basis für alle weiteren Verarbeitungsschritte dar. Prozessierte Daten entstehen durch die Bearbeitung der Rohdaten. Dabei k?nnen beispielsweise fehlerhafte Messwerte aufgrund definierter Kriterien entfernt oder Daten transformiert werden. Um die Transparenz zu erh?hen, dokumentieren wir seit einigen Jahren die Datenaufbereitung in externe Seite Jupyter Notebooks. Diese enthalten sowohl den verwendeten Programmcode als auch visuelle Darstellungen der Datenverarbeitungsschritte. Dadurch ist es jederzeit m?glich, die Entstehung der Datens?tze schnell und einfach zu überprüfen.

Eine weitere Herausforderung ist die Wahl eines geeigneten Datenformats zur Speicherung der Daten. Wir legen Wert auf einen einfachen und direkten Zugriff auf unsere Datens?tze. Daher speichern wir Rohdaten und Ergebnisse in allgemein lesbaren Textdateien (CSV, gepackt als ZIP). Für die eigentliche Datenverarbeitung nutzen wir zus?tzlich Formate wie Apache Parquet, die eine hohe Verarbeitungsgeschwindigkeit für grosse Datenmengen erm?glichen.

Welche M?glichkeiten seht ihr im Zusammenhang mit eurer Rolle als Data Stewards, sich auch über Forschungseinheiten hinweg auszutauschen? Was ergab sich bisher?

SK: Die M?glichkeiten für einen Austausch ergaben sich bei mir bisher aufgrund von Anfragen: So stellte ich unser Datenmanagement z. B. den Mitgliedern einer anderen Professur am Departement und einem Gastprofessor vor. Beide haben geh?rt, dass wir ein etabliertes Datenmanagement haben. Kürzlich erhielten wir auch eine Anfrage von einer Professorin am Karlsruher Institut für Technologie, eine ehemalige Doktorandin der Gruppe Graslandwissenschaften, die ihre Forschungsgruppe für das Thema rüsten m?chte.

LH: Durch die enge Einbindung der Gruppe in internationale Forschungsprojekte wie externe Seite ICOS kommt es zu zahlreichen Kooperationen. Wir stellen unsere Daten generell offen unter einer grosszügigen Creative-Commons-Lizenz zur Verfügung.

?Wir stellen unsere Daten generell offen unter einer grosszügigen Creative-Commons-Lizenz zur Verfügung.?
Lukas H?rtnagl

Dadurch kommt es zu zahlreichen Anfragen entweder zu den Daten selbst oder bezüglich Input zu wissenschaftlichen Publikationen. Oft wird auch angefragt, ob zus?tzliche Daten verfügbar sind, die wir dann nach M?glichkeit nachliefern. Es ist mir ein Anliegen, die Nutzung unserer offenen Daten zu unterstützen, daher versuche ich eingehenden Anfragen m?glichst zeitnah nachzukommen.

Welches Potenzial seht ihr darin, Data Stewardship als geteilte Aufgabe wahrzunehmen, so wie ihr es bei Grassland Sciences lebt?

SK: Wir haben bei uns unterschiedliche Forschungsschwerpunkte, entsprechend variieren auch die Anforderungen ans Datenmanagement. Zusammen decken wir aber die unterschiedlichen Aspekte des Datenmanagements gut ab. Zum einen gibt es die SwissFluxNet-Messstationen mit den langj?hrigen Dauermessungen von Treibhausgasflüssen und Messreihen von verschiedenen Meteo-Variablen. Die Messreihen werden von verschiedenen Stations-Verantwortlichen prozessiert und kontrolliert. Lukas implementierte hier alle Abl?ufe und kontrolliert und koordiniert z. B. das Einhalten der Standards, das ?berspielen der Daten in internationale Datenbanken. Da ist sowohl disziplinspezifisches Know-How wie auch IT-Affinit?t gefragt, was Lukas zum Glück beides abdecken kann. Zum anderen gibt es Projekte im Bereich Pflanzen- und ?kosystemphysiologie und zur funktionellen Pflanzendiversit?t, bei denen w?hrend Feld-Kampagnen einzelne Datens?tze generiert werden. Die Archivierung dieser Datens?tze ist eine administrative Angelegenheit. Das ist dann mein Part, diese ins ETH Data Archive zu überführen und zu schauen, dass die Dokumentation (z. B. Feldbücher) komplett ist.

LH: Sabina beschreibt unsere gelungene Arbeitsteilung schon sehr treffend. Ich überwache und betreue die Arbeitsschritte bis zu den finalen Datens?tzen. Zusammen mit unserem Team kümmere ich mich um die regelm?ssige Datenüberprüfung aktueller Messdaten. Hier ist unsere Datenbank hilfreich, die historische und aktuelle Daten kombiniert und Datenabbildungen erstellt. Ich denke dies ist eine wichtige Unterscheidung mit Hinblick auf Data Stewardship: einerseits gibt es aktuelle, kontinuierlich aktualisierte Daten, die wir über die Datenbank in einen historischen Kontext zueinander setzen und vor der Weiterverarbeitung überprüfen, andererseits gibt es die archivierten Langzeitdaten als Endprodukte. Diese Unterscheidung erm?glicht einen optimierten Arbeitsablauf zwischen mir und Sabina, mit klarer Aufgabenteilung und Verantwortlichkeiten. Beide Aspekte werden so angemessen berücksichtigt.

Wie geht ihr vor, um das Datenmanagement in der Gruppe Grassland Sciences zu verbessern?

SK: Wie beschrieben sind wir, denke ich, insgesamt schon ganz gut aufgestellt – auch dadurch, dass wir Data Stewardship schon als geteilte Aufgabe leben und umsetzen.

?Eine Herausforderung ist aber sicher, bei jungen Forschenden ein Bewusstsein dafür zu schaffen, dass Datenmanagement schon bei der Planung eines Experiments und in allen Prozessen der Datenverarbeitung [...] mitgedacht wird.?
Sabina Keller

Durch eine Einführung ins Datenmanagement bereits zu Beginn eines Forschungsprojekts sensibilisieren wir die jungen Forschenden dafür und thematisieren auch die Verantwortung in den weiteren Schritten der Forschung, z. B. zum richtigen Zitieren von Datenquellen.

LH: Wir haben regelm?ssige Treffen, meist monatlich, um uns zu Methoden (z. B. Berechnung, Verarbeitung, Variablenbenennung) auszutauschen oder abzustimmen, und um gemeinsam neueste Daten durchzugehen. Die bereits vorhandene Erfahrung innerhalb der Gruppe wird an neue Gruppenmitglieder weitergegeben. Das ist zun?chst zeitintensiv, doch langfristig führt es zu einer deutlichen Effizienzsteigerung in der t?glichen Arbeit. Zudem diskutieren wir Daten-Themen auf jedem Gruppen-Retreat. Durch meine feste Anstellung kann ich versuchen dazu beizutragen, die Kontinuit?t, Konsistenz und dom?nenspezifisches Wissen innerhalb der Gruppe so weit wie m?glich zu erhalten und weiterzuentwickeln. Das ist aus meiner Sicht enorm wertvoll und erm?glicht uns, Data Stewardship nachhaltig in unserer Forschungsgruppe zu verankern.

Data ?Stewardship an der ETH Zürich

Im Rahmen der?externe Seite externe Seitenationalen ORD-Strategie von swissuniversities sowie des ORD-Programms des ETH-Bereichs wird Data Stewardship an der ETH Zürich unterstützt. Die?ETH-?Bibliothek?engagiert sich aktiv in diesen Programmen und koordiniert unter der Leitung von Dr. Julian Dederke Aktivit?ten zu Data Stewardship. 
Lesen Sie hier die früheren Interviews zu Data-Stewardship-Modellen an der ETH Zürich und die News zum Start des Data Stewardship Network.

Immer aktuell informiert

M?chten Sie stets die wichtigsten internen Informationen und News der ETH Zürich erhalten? Dann abonnieren Sie den Newsletter ?Intern aktuell? und besuchen Sie regelm?ssig Staffnet, das Info-??Portal für ETH-??Mitarbeitende.

?hnliche Themen

Für Forschende

JavaScript wurde auf Ihrem Browser deaktiviert