Forschungsdaten-Repository-Management mit ARC-Struktur

Forschende profitieren von standardisiertem Datenmanagement unter Verwendung der ARC (Annotated Research Context)-Struktur in GitLab, was den kollaborativen Austausch von Forschungsdaten, automatisierte Validierung und langfristige Datenaufbewahrung mit integrierten Metadaten ermöglicht.

Idea

Plan

Prototype

Pilot

Live

Übersicht

Mehrwert: Forschende profitieren von standardisiertem Datenmanagement unter Verwendung der ARC (Annotated Research Context)-Struktur in GitLab, was den kollaborativen Austausch von Forschungsdaten, automatisierte Validierung und langfristige Datenaufbewahrung mit integrierten Metadaten ermöglicht.

Problem: Forschungsdaten im TRR341-Projekt fehlt es an standardisierter Struktur und Verwaltung, was die Zusammenarbeit erschwert, die Datenvalidierung manuell macht und die langfristige Aufbewahrung unsicher gestaltet. Forschende benötigen effiziente Wege, um Forschungsdaten zu teilen und zu validieren, während Qualitätsstandards eingehalten werden.

Lösung: Implementierung von GitLab-basierten Forschungsdaten-Repositories unter Verwendung der ARC (Annotated Research Context)-Struktur mit automatisierter Validierung, Unterstützung für große Dateien über Git LFS und kollaborativem Zugriffsmanagement für effizientes Forschungsdaten-Lebenszyklusmanagement.

Wer profitiert

Primär

TRR341-Forschende
- Standardisierte Datenstruktur
- Automatisierte Datenvalidierung
- Kollaborativer Datenaustausch
- Versionskontrolle für Forschungsdaten
Forschungsdatenmanager*innen
- Zentrale Datenaufsicht
- Automatisierung der Qualitätssicherung
- Compliance-Überwachung
- Zugriffskontrollmanagement

Sekundär

Externe Partner*innen
- Strukturierter Datenzugriff
- Klare Datendokumentation
- Transparente Datenherkunft
Datenvisualisierungsplattform
- Standardisierte Dateneingabe
- Automatisierte Datenintegration
- Qualitätsgesicherte Datensätze

Wann geeignet

Institutionenübergreifende Forschungsprojekte
Bedarf an standardisierter Datenstruktur
Kollaboratives Forschungsdatenmanagement
Anforderungen an Datenvalidierung
Anforderungen an langfristige Datenaufbewahrung

Wann nicht geeignet

Einzelprojekte von Forschenden
Unstrukturierte explorative Daten
Projekte ohne Kollaborationsbedarf
Einfache Datenspeicheranforderungen

Prozess

Erstellen eines Forschungsdaten-Repositories gemäß ARC-Struktur
Hochladen von Forschungsdaten mit korrekter Metadaten-Annotation
Automatisierte CI/CD-Validierung von Datenstruktur und Metadaten
Zusammenarbeit mit Teammitgliedern über GitLab-Funktionen
Teilen validierter Daten-Repositories mit Stakeholdern
Archivierung abgeschlossener Forschungsdaten zur langfristigen Aufbewahrung

Voraussetzungen

Personen

Wissenschaftler*innen
Datenmanager*innen
GitLab-Administrator*in
Entwickler*innen von Validierungsskripten

Daten-Inputs

Forschungsdatensätze
Metadaten-Annotationen
Dokumentationsdateien
Analyseskripte

Tools & Systeme

GitLab mit CI/CD
Git LFS für große Dateien
ARC-Validierungstools
Objektspeicher (S3)
Integration der Datenvisualisierungsplattform

Richtlinien & Compliance

Richtlinien zum Forschungsdatenmanagement
DSGVO-Konformität
Institutionelle Daten-Governance
Wissenschaftliche Datenstandards

Risiken & Gegenmaßnahmen

Ungültige Datenstruktur verhindert Zusammenarbeit
- Automatisierte Validierung in CI/CD
- Vorlagen-Repositories
- Schulung zur ARC-Struktur
- Pre-Commit-Validierungs-Hooks
Hohe Speicherkosten und Leistungsprobleme bei großen Dateien
- Git LFS mit Objektspeicher
- Speicherquotenmanagement
- Datenlebenszyklusrichtlinien
- Effiziente Speicher-Backends
Verlust von Forschungsdaten
- Git-Versionskontrolle
- Regelmäßige Backups
- Speicherung an mehreren Standorten
- Disaster-Recovery-Verfahren

Erste Schritte

Um diesen Anwendungsfall zu implementieren, benötigen Sie GitLab mit CI/CD, Git LFS-Unterstützung, ARC-Validierungstools und Integration in die Forschungsdateninfrastruktur.

Einrichten der GitLab-Instanz mit ARC-Vorlagen-Repositories
Konfigurieren von Git LFS und Objektspeicher für große Forschungsdateien
Implementieren von ARC-Validierungsskripten in der CI/CD-Pipeline
Schulung von Forschenden zur ARC-Struktur und GitLab-Workflows
Integration in institutionelle Datenmanagementsysteme

Ressourcen

FAQ

Was ist ARC (Annotated Research Context)?

ARC ist eine standardisierte Struktur für Forschungsdaten-Repositories, die eine korrekte Metadaten-Annotation beinhaltet und den FAIR-Prinzipien für Datenmanagement folgt.

Wie funktioniert die Validierung?

CI/CD-Pipelines validieren automatisch die Datenstruktur und Metadaten-Konformität, wenn Änderungen in das Repository gepusht werden.

Können externe Partner*innen auf die Daten zugreifen?

Ja, externen Partner*innen können entsprechende Zugriffsebenen gewährt werden, während Sicherheits- und Compliance-Anforderungen gewahrt bleiben.

Glossar

ARC: Annotated Research Context - standardisierte Struktur für Forschungsdaten-Repositories mit Metadaten
FAIR-Prinzipien: Findable, Accessible, Interoperable, Reusable (Auffindbar, Zugänglich, Interoperabel, Wiederverwendbar) - Leitlinien für das Forschungsdatenmanagement
TRR341: Transregio-Sonderforschungsbereich 341 - kollaboratives Forschungszentrum
FDR: Forschungsdatenrepository - Research Data Repository im deutschen akademischen Kontext

Verantwortlich

Institution: Universität zu Köln
Abteilung: TRR 341 Forschungsprojekt

Diese Seite bearbeiten

Auf GitLab bearbeiten