Optimierung: Dateien nur 1x prüfen
Eine deutliche Laufzeitverringerung kann durch eine Deduplizierung der Dateichecks erreicht werden.
Denkbare Idee: Die Liste der gefundenen IEs könnte z.B. zur Verarbeitung sortiert / gruppiert werden nach IE-PIDs, um gleiche PIDs hintereinander zu prüfen. Dabei wäre eine rein temporäre Liste bereits geprüfter Dateien pro IE-PID denkbar, die bei Auftreten einer neuen PID verworfen wird.
Für die Optimierung sprechen:
- vor allem große Dateien, die nur auf Band liegen, würden nur 1x geprüft
- ein SLUBArchiv.digital AIP/MD-Update erzeugt immer mehrere IE Versionen in Rosetta
- (fixity) Prüfungen oder andere TA-Arbeiten in Rosetta können neue IE Versionen erzeugen (Bsp. SLUB 2020, jede IE aus 2020 hat 2+ Versionen)
Edited by Jens Steidl