Forschungsdaten-Repository-Management mit ARC-Struktur

Forschende profitieren von standardisiertem Datenmanagement unter Verwendung der ARC (Annotated Research Context)-Struktur in GitLab, was den kollaborativen Austausch von Forschungsdaten, automatisierte Validierung und langfristige Datenaufbewahrung mit integrierten Metadaten ermöglicht.

Idea
Plan
Prototype
Pilot
Live

Übersicht

Mehrwert: Forschende profitieren von standardisiertem Datenmanagement unter Verwendung der ARC (Annotated Research Context)-Struktur in GitLab, was den kollaborativen Austausch von Forschungsdaten, automatisierte Validierung und langfristige Datenaufbewahrung mit integrierten Metadaten ermöglicht.

Problem: Forschungsdaten im TRR341-Projekt fehlt es an standardisierter Struktur und Verwaltung, was die Zusammenarbeit erschwert, die Datenvalidierung manuell macht und die langfristige Aufbewahrung unsicher gestaltet. Forschende benötigen effiziente Wege, um Forschungsdaten zu teilen und zu validieren, während Qualitätsstandards eingehalten werden.

Lösung: Implementierung von GitLab-basierten Forschungsdaten-Repositories unter Verwendung der ARC (Annotated Research Context)-Struktur mit automatisierter Validierung, Unterstützung für große Dateien über Git LFS und kollaborativem Zugriffsmanagement für effizientes Forschungsdaten-Lebenszyklusmanagement.

Wer profitiert

Primär

  • TRR341-Forschende
    • Standardisierte Datenstruktur
    • Automatisierte Datenvalidierung
    • Kollaborativer Datenaustausch
    • Versionskontrolle für Forschungsdaten
  • Forschungsdatenmanager*innen
    • Zentrale Datenaufsicht
    • Automatisierung der Qualitätssicherung
    • Compliance-Überwachung
    • Zugriffskontrollmanagement

Sekundär

  • Externe Partner*innen
    • Strukturierter Datenzugriff
    • Klare Datendokumentation
    • Transparente Datenherkunft
  • Datenvisualisierungsplattform
    • Standardisierte Dateneingabe
    • Automatisierte Datenintegration
    • Qualitätsgesicherte Datensätze

Wann geeignet

  • Institutionenübergreifende Forschungsprojekte
  • Bedarf an standardisierter Datenstruktur
  • Kollaboratives Forschungsdatenmanagement
  • Anforderungen an Datenvalidierung
  • Anforderungen an langfristige Datenaufbewahrung

Wann nicht geeignet

  • Einzelprojekte von Forschenden
  • Unstrukturierte explorative Daten
  • Projekte ohne Kollaborationsbedarf
  • Einfache Datenspeicheranforderungen

Prozess

  1. Erstellen eines Forschungsdaten-Repositories gemäß ARC-Struktur
  2. Hochladen von Forschungsdaten mit korrekter Metadaten-Annotation
  3. Automatisierte CI/CD-Validierung von Datenstruktur und Metadaten
  4. Zusammenarbeit mit Teammitgliedern über GitLab-Funktionen
  5. Teilen validierter Daten-Repositories mit Stakeholdern
  6. Archivierung abgeschlossener Forschungsdaten zur langfristigen Aufbewahrung

Voraussetzungen

Personen

  • Wissenschaftler*innen
  • Datenmanager*innen
  • GitLab-Administrator*in
  • Entwickler*innen von Validierungsskripten

Daten-Inputs

  • Forschungsdatensätze
  • Metadaten-Annotationen
  • Dokumentationsdateien
  • Analyseskripte

Tools & Systeme

  • GitLab mit CI/CD
  • Git LFS für große Dateien
  • ARC-Validierungstools
  • Objektspeicher (S3)
  • Integration der Datenvisualisierungsplattform

Richtlinien & Compliance

  • Richtlinien zum Forschungsdatenmanagement
  • DSGVO-Konformität
  • Institutionelle Daten-Governance
  • Wissenschaftliche Datenstandards

Risiken & Gegenmaßnahmen

  • Ungültige Datenstruktur verhindert Zusammenarbeit

    • Automatisierte Validierung in CI/CD
    • Vorlagen-Repositories
    • Schulung zur ARC-Struktur
    • Pre-Commit-Validierungs-Hooks
  • Hohe Speicherkosten und Leistungsprobleme bei großen Dateien

    • Git LFS mit Objektspeicher
    • Speicherquotenmanagement
    • Datenlebenszyklusrichtlinien
    • Effiziente Speicher-Backends
  • Verlust von Forschungsdaten

    • Git-Versionskontrolle
    • Regelmäßige Backups
    • Speicherung an mehreren Standorten
    • Disaster-Recovery-Verfahren

Erste Schritte

Um diesen Anwendungsfall zu implementieren, benötigen Sie GitLab mit CI/CD, Git LFS-Unterstützung, ARC-Validierungstools und Integration in die Forschungsdateninfrastruktur.

  1. Einrichten der GitLab-Instanz mit ARC-Vorlagen-Repositories
  2. Konfigurieren von Git LFS und Objektspeicher für große Forschungsdateien
  3. Implementieren von ARC-Validierungsskripten in der CI/CD-Pipeline
  4. Schulung von Forschenden zur ARC-Struktur und GitLab-Workflows
  5. Integration in institutionelle Datenmanagementsysteme

FAQ

Was ist ARC (Annotated Research Context)?

ARC ist eine standardisierte Struktur für Forschungsdaten-Repositories, die eine korrekte Metadaten-Annotation beinhaltet und den FAIR-Prinzipien für Datenmanagement folgt.

Wie funktioniert die Validierung?

CI/CD-Pipelines validieren automatisch die Datenstruktur und Metadaten-Konformität, wenn Änderungen in das Repository gepusht werden.

Können externe Partner*innen auf die Daten zugreifen?

Ja, externen Partner*innen können entsprechende Zugriffsebenen gewährt werden, während Sicherheits- und Compliance-Anforderungen gewahrt bleiben.

Glossar

ARC
Annotated Research Context - standardisierte Struktur für Forschungsdaten-Repositories mit Metadaten
FAIR-Prinzipien
Findable, Accessible, Interoperable, Reusable (Auffindbar, Zugänglich, Interoperabel, Wiederverwendbar) - Leitlinien für das Forschungsdatenmanagement
TRR341
Transregio-Sonderforschungsbereich 341 - kollaboratives Forschungszentrum
FDR
Forschungsdatenrepository - Research Data Repository im deutschen akademischen Kontext