Digitale medier, formater og langtidsbevaring Henrik Højlund – Teamlead Archiving 6. november 2014
Agenda (tilrettes) • Historisk rids – fra masseproduktion af papir til masseproduktion af data. • Statens Arkivers overvejelser og første regelsæt, begrebet ESDH og elektroniske arkivalier. • Overordnet offentlig DK strategi for bevaring + opbevaring • Hvad er en (systemuafhængig) arkiveringsversion? • Fordele og ulemper ved de forskellige strategier (teknisk, politisk, økonomisk mv.) • Øvrige arkiverings standarder – et nedslag. • SI Produkter til produktion af en arkiveringsversion • Det private segment – eArchive
Præsentation
Fokus igennem de sidste 12 år på leverandørsiden: En praktisk indgangsvinkel til produktion af arkiveringsversioner efter danske regler som fastsat af Statens Arkiver (Rigsarkivet) På sidelinjen: Fulgt med i standardiseringsdiskussioner, og har konstateret at det på arkivområdet er lige så vanskeligt som alle andre steder at blive enige om fælles standarder.
Arkivalier og mængde - et historisk tilbageblik frem mod i går I løbet af 1700 opstod et stigende behov for skriftligt dokumentation, og der udviklede sig 2 til 3 henlæggelses metodikker: • Kancelli systemet – tildelt nummer ved sagens oprettelse, og senere breve til/fra fik samme nummer.
• Rentekammer systemet – Hvert brev fik nyt (journal)nummer, der blev styret ved henvisninger frem og tilbage. En ”sag” bestod af mange journalnumre
• Udenrigsministeriets Arkivsystem – Blanding af overstående med geografik udvidelse.
Papir eksplosionen i det offentlige…
Journalplanssystemet var indpas fra 1960’erne og frem, hvor der stod klart at de tidligere systemer ikke kunne håndtere de store mængder data/papir. Journalplanen (som I måske kender) er en organiseret fordeling af de emner, som en given myndighed behandlede. Journalplans systemet med variationer stadig den mest udbredte systematik til registrering emne i dagens ESDH systemer.
Papir eksplosionen II
Journalplanen var bl.a. afgørende for at emne og behandling af et given emne blev styrende for henlæggelse (i stedet for blot kronologi). Desuden indførte man krav til afgræsning af både sager og selve arkivet ved at benytte periodeskift. Kravet om periodeskift er delvist fastholdt i ”nyt” cirkulære fra juni 2013 for de statslige myndigheder, så I vil også fremover møde begrebet.
Papir eksplosionen III
Journalplanen gav også langt bedre mulighed for kassation af papir arkivalier, da man havde et emne/sagsgruppe, der så igen kunne være historisk bevaringsværdigt eller ej. Der er kun Statens Arkiver der kan indstilles offentlige arkivalier til kassation. Der foretages omfattede kassation af papirarkivalier. Kassation af dele af et ESDH system er tilladt, men foretages sjældent.
Papir som medie/arkivalier
Opbevaringsmæssigt en masse udfordringer i form af fysiske forhold (sikring af adgang, temperaturstyring, brand og slid ved brug af originaler). Hvis disser er imødegået ved almindelig omtanke kræver konventionelle papirarkivalier meget lidt ”konvertering” i forhold til læsbarhed over tid. Fremskrivningsforsøg fra SA i 90’erne peger på gennemsnitslig nedbrydningstid på 253 år (alt andet lige)
EDB – første indsamlinger i 1980’erne og 90’erne. ”Sidste øjebliks bevaring” der • pga. manglende regler og ressourcer ofte blev gennemført efterhånden som SA fik kendskab til data. • Man bevarede på de bånd og i de formater, hvor data var skabt og anvendt – uden i øvrigt at foretage konvertering eller modtagelses test. Det blev åbenlyst at man manglede • Regelgrundlag specifikt rettet mod elektroniske arkivalier • En strategi for hvilke arkivalier der skulle bevares
Erfaringer fra indsamling af EDB
Desuden opdagede man hurtigt at IT ”opbevarings enheder” nedbrydes og forældres hurtigt i forhold til papir. Og SA kom frem til den grundlæggende konklusion: • Data skal opbevares i et andet format end de typisk er produceret i • Data skal opbevares på et andet medie end de typisk er lagret på i produktion (og mediet skal fornys ofte).
Statens Arkivers første
Regelsæt omhandlende elektroniske arkivalier kom i 1997, der introducerede begreber som ”ESDH” og ”arkiveringsversion” I de følgende år et markant vækst i IT kompetencer ved SA, der med oprettelsen af ”metode sektionen” gik efter at indhente de forsømte, og gøre Danmark til foregangsland for elektronisk aflevering og bevaring. Det stod klart at udfordringer var af en helt anden kaliber end ved indsamling af konventionelle (papir) arkivalier.
Overordnede strategiske metode valg De 3 overordnede strategier • ”Museums strategien” – der indebar opbevaring af både software og hardware. • ”Emulerings strategien” – der basere sig på produktion af programmer, der emulere (efterligner) fortidens programmer • ”Migrerings strategi” – der indebære at produktionsformat udskiftes til et format særligt velegnet til langtidsopbevaring. Statens Arkiver valgte migrerings strategien, der i en DK kontekst dækker over dels øjeblikkelig datamigrering til arkivformat. Og dels migrering af selve opbevaringsmediet.
Overordnet metode valg – politik, økonomi mv. Der er mange forskellige tilgange til digital bevaring i forskellige lande. Og valg af metode afhænger til dels af hvem der i sidste ende har opbevaringsforpligtelsen SA DK er rent bevaringsstrategi – meget omkostningstung af producere arkiveringsversion, men nemmere og billigere at opbevare, så SA kan garantere for læsning på sigt med et minimeret datatab. Kommer senere tilbage til øvrige strategivalg og standarder.
Økonomi - Nye tiltag for sammenligning
Af omkostninger ved dels at producere, opbevare og tilgængeliggøre historisk digital information. Meget forenklet kan man bruge de økonomiske ressourcer i arkiveringsøjeblikket eller ved tilgængeliggørelsen. Og i europæisk sammenhæng er man ikke enige om hvilke metode, der er bedst eller økonomisk mest fordelagtig. Se bl.a. i EU projektet 4c (Collaboration to Clarify the Costs of Curation) som Statens Arkiver deltager i. http://4cproject.eu/
Digital data eksplosion i det offentlige
Systemerne bliver større og større, men data er ikke nødvendigvis mere unikke end da de var på papir. Dyrt for myndigheden at gennemføre periodeskift og aflevering pga. mængden af data – særligt de filer som nu skal renderes til TIFF og afleveres, hvor disse tidligere blot kunne kasseres i papirform. Reelt set er mediet i sig selv medvirkede til en bevaringsbeslutning (kasseres hvis der ligger i papirform) – min anke mod digital bevaring konkret vurdering.
Definition af arkiveringsversion i dag Meget overordnet består en arkiveringsversion af fire dele: • • • •
Dokumenter (leverandør) Registeroplysninger (leverandør) Kontekstdokumentation (myndighed) Metadata om arkiveringsversionen (myndighed) og Statens Arkiver
Ad 1) Alle dokumenter/filer skal – uanset produktionsformat – renderes til arkiveringsformat. For de meste almindelige filtyper, er dette så godt som altid TIFF. Ad 2) Aflevering foretages i form af en XML fil pr. tabel udvalgt til aflevering af Statens Arkiver. Til XML filerne høre et XML skema, der dels beskriver og dels validere dataindhold. Indsamling af såkaldte paradigmesags oplysninger pr. myndighed/ arkiveringsversion. Efterfølgende afgør Statens Arkiver hvilke tabeller/views der skal indgå i pågældende arkiveringsversion. Ad 3) Kontekstinformation er dokumenter, der beskriver myndighedens anvendelse af systemet, f.eks. journalvejledning, eLearning guides, procedurer for anvendelse af systemet etc. Ad 4) Indexfiler med oplysninger om arkivskaber, periode, formål, indhold m.v.
Grafisk illustration fra SA:
Dataformater
Eksempel på dataformater - med SA forklaring
Fil formater i arkiveringsversion 5.E. Digitale dokumenter
5.E.1.a Et digitalt dokument, jf. dog 5.F og 5.G, skal lagres i ét af følgende formater: •
det grafiske bitmapformat TIFF, version 6.0 baseline.
•
JPEGJPEG-2000 efter standarden ISO/IEC 1544415444-1:2004. Information technology - JPEG 2000 image coding system Part 1: Core coding
5.E.1.b Det er tilladt at benytte begge formater inden for samme arkiveringsversion. 5.E.2 Dokumenter i TIFF skal komprimeres efter følgende kompressionsregler: 5.E.2.a Sort/hvide dokumenter skal komprimeres med CCITT/TSS grp. 3, grp. 4, PackBit eller LZW. 5.E.2.b Dokumenter med gråtoner eller farver skal komprimeres med PackBit eller LZW. LZW.
Omkring gengivelse og
Autenticitet Definition: Egenskab, der sikrer, at en ressource eller person er den hævdede [DS 484:2005] Statens Arkiver benytter typisk begrebet i en bredere forstand. Autenticitet går både på dataindhold og udseende, hvor TIFF bl.a. valgt fordi man ser et autentisk billede som fil/brev fremtræder som den i produktionssystemet.
Tilgængeliggørelse af historiske data Statens Arkivers program SOFIA kan læse (eller skal kunne på sigt) alle de systemuafhængige arkiveringsversioner, der er afleveret til offentligt arkiv. • Pt. kun adgang for myndigheden selv til udvalgte arkiveringsversioner på læsesal. • SA har de senere år kørt pilot omkring online adgang. • I forhandling med Datatilsynet om det acceptable i ”egen acces” til myndighedens historiske data (i DT optik er data slettet) • Plus det praktiske – Sikkerheden fra produktions systemet er udeladt i arkiveringsversionen, da adgang efter aflevering til arkiv er baseret på arkivlovens tilgængeligheds bestemmelser.
(op)bevaring ved digitalisering
Statens Arkiver har en selvstændig strategi for digitaliserede arkivalier, der skabes som en del af en bevarings- og anvendelsesproces – i modsætning til digitalt skabte arkivalier fra ESDH/CRM systemerne. • Se eventuelt mere på http://digitalbevaring.dk/ Offentligt tilsnit: Min påstand at nogle overvejelser i forhold til bevaringsplanlægning, strategisk valg af metode samt benyttelse af standarder Også en sektion omkring det private-private (mere til hjemmebrug, end egentlig privatretsligt kommercielt) http://digitalbevaring.dk/bevaring-af-private-samlinger/
Digital bevaring – også for private aktører Sikre standarder for langtidsopbevaring af digital information er ikke kun relevant for digitalt fødte medier. Digital bevaring –forstået som digitalisering af analoge samlinger – forventes i stigning af de kommende år. Bl.a. på grund af • De tekniske muligheder og faldende pris. • Oplagt som bevarings- og formidlingsstrategi, da ens publikum ikke længere behøver at komme til udstillingen – nu kan udstillingen komme til publikum. Undgå derudover slid på originalmateriale. • Dokumentation af større samlinger mhp. hurtigere genfinding af eksempelvis teknisk materiale, bygningstegninger mv.
Imens – udenfor Danmark
Sideløbende - og primært efter Statens Arkiver i 1997 de facto havde skabt en lovgivningsorienteret dansk arkiveringsstandard – arbejdede man ved mange nationale arkiver med tilsvarende problemstillinger. Det bemærkelsesværdige er, at man stort set aldrig var helt enige om detaljerne. Resultatet er, at der internationalt findes mange andre arkivstandarder – og at hvert land reelt benytter sin egen udgave. Rejser spørgsmålet om hvordan man definere og identificere en ”standard”?
Arkiv Standarder – et nedslag
Software Innovations produkter er baseret på den norske standard Noark5. De nuværende danske regler for metadata hviler på den schweiziske SIARD standard (med tilføjelse af TIFF). OAIS (Open Archival Information System) er umiddelbart den bredest accepterede og mest anvendelige model for opbygning og vedligeholdelse af et arkivsystem.
OAIS og Statens Arkiver Kan sammenligne ”arkiveringsversion” med i en ”SIP” (Submission Information Package) i OAIS. Tilgængeliggørelsen kan opfattes som en ”DIP” (Dissemination Information Package) i form af Statens Arkivers SOFIA program. Og det løbende SA migrerings arbejde, og den bevaringsversion af data der opbevares ved arkivet kaldes i OAIS en AIP (Archival Information Package) ISO standard hvor etablering af såkaldt TRAC (Trustworthy Repositories Audit & Certification) er underlagt certificering med selvstændige værktøjer og metoder.
OAIS og Statens Arkiver II
OAIS kan ”oversættes” til Statens Arkivers model og krav. Vil dog ikke på sigt erstatte dansk lovgivning. Dels fordi moddellen ikke er detaljeret tilstrækkeligt på formater. Og dels fordi SA fastholder de danske formatkrav som TIFF og repræsentation – hvor OAIS acceptere eksempelvis bit bevaring. Nyeste skud på stammen i EU regi E-Ark, som Statens Arkiver også deltager i, er E-ARK - European Archival Records and Knowledge Preservation
Er E-Ark så sidste digitale arkivstandard? Som leverandør synes man det er en overvejelser værd, hvorfor der konstant udvikles nye standarder, når der findes mange (velegnede) i forvejen? Fra et leverandør synspunkt er noget af udfordringen standarderne er vanskelig at konkretisere i systemerne – og muligvis ikke efterspørges af kunderne. Internationalt samarbejde må være vejen frem: Tidligere tendens til kun at acceptere og benytte ”standarder” som pågældende arkiv har været direkte involveret i frembringelsen af. Desuden har det tidligere været tendenser til ”genopfinde” standarder nationalt (eller regionalt), og introducere ”nationale” ændringer.
Leverandørens syn på standardisering
Først rigtigt interessant: • Når standard implementeres i lovgivning, og bliver en del af compliance for salg i det pågældende marked. • Når kunde krav bevirker at given standard overholdes – eksempelvis ved udbud. • Når produkt kan få en positiv særstatus på et givet marked ved som de eneste at opfylde en given standard.
Nutidens ESDH systemer er belastede af deres offentlige tilsnit. Er i vidt udstrækning opstået ud fra forgænger systemer. Disse var delvist digitale systemer – såkaldte E-journaler – der styrede digitale oplysninger/tabeldata om papirsager. Denne arv er til tider synlig i systemerne i dag. En del felter på applikationsniveau i DK systemer er opstået direkte af krav fra Statens Arkiver (eksempelvis ”lagringsform” eller ”medie”).
Hvad er god datakvalitet over tid? (en ikke teoretisk definition) Definition: Ens datakvalitet er god, når den understøtter ens ”forretning”. Dvs. når det registreres tilstrækkeligt til at dokumentere beslutninger/afgørelser nu og over tid, og viden om afgørelser kan spredes/genbruges i organisationen. God datakvalitet er baseret på bevidst brug af data, på kontrol, integritet, konsistens samt relevans. Definitionsmæssigt er der tale om strukturerede data, når de findes i et ESDH/CRM system. Hertil kommer mange ustrukturerede data i mails, på fællesdrev, hjemmesider mv. Grundlag for al arkivering og genfinding er datakvalitet i produktion – en arkiveringsstruktur medføre ikke i sig selv bedre kvalitet.
Software Innovation har en mission med data – også på længere sigt.
SI produktion af arkiveringsversion Er baseret på håndtering af Statens Arkivers regler ved benyttes af 3 standardiserede produkter: • Software Innovation Arkiv Check • (kontrol af strukturelt dataindhold/udvælgelse af tabeller, views mv. til SA afleveringsbestemmelse)
• Software Innovation Arkiv Service • (validering af fil og filindhold)
• Software Innovation Arkiv Aflevering • (udtræk af relevante tabeller/felter og etablering af nye relationer).
Arkiv Check - med supplerende analyser Arkiv Check ud af boksen: • Tabeller i løsning med angivelse af rækker/indhold samt forslag til bevaring/kassation. • Views med angivelse af relevans i forhold til arkiveringsversion. • Uafsluttede eller åbne sager. • Mulige ikke journaliserede dokumenter. • Dokumenter, som ikke har forbindelse til sager/registreringssystematik (skrivebordssager mv.) • Antal dokumenter fordelt pr. filtype. • Dokumenter, som ud fra deres filformat ikke umiddelbart kan renderes til arkivformatet TIFF. • Verifikation/dokumentation af tilretninger NB: Vigtigt at understrege, at det initialt med Arkiv Check kun undersøges datastrukturer – og ikke dataindhold.
Arkiv Check - II
Oprindeligt beregnet til udtræk af tabeller, felter og views til Statens Arkivers udvælgelse for af data til arkiveringsversion/afleveringsbestemmelse. Yderligere oplysninger om tilsyneladende problematiske formater samt fordeling sager/akter, åbne/lukkede og muligvis ujournaliserede. Dertil en oversigt over hvilke filformater der rent faktisk er registreret som arkiveret i systemet. - Og der er altid nogle overraskende resultater….
Arkiv Check III
Eventuelle egne supplerende undersøgelser af datakvalitet via eksisterende rapporteringsværktøjer. Kombineret med tilkøb af SI analyser som en udvidelse til standard Arkiv Check. Der kan tilkøbes ekstra kørsler, hvis specifikke resultater ønskes undersøgt nærmere. Endelig kan man også gemmeføre en egentlig audit, der typisk involverer alle forretningsgange (ikke kun de digitaliserede, og ikke begrænset til ESDH systemet).
Arkiv Service – maskinel kontrol af indholdsmæssig datakvalitet Arkiv Service er den mest omfattede kontrol af datakvalitet idet der også kontrolleres for indhold, læsbarhed, layout, margener, aktive links mv. Formålet er at sikre der kan produceres en nøjagtig grafisk kopi uden at dataindhold ændres overhovedet. Og eneste metoder til at sikre dette, er rent faktisk at rendere til et grafisk format. Omkring 1-3 % af filerne skal normalt håndteres for features i produktionsformater, der ikke kan understøttes i det grafiske format.
Arkiv Service - kontrol er bedre end (blind) tillid. 360° Arkiv Service sørger for løbende at kontrollere at alle dokument-filer indlagt i arkivet kan læses og udskrives samt at validere tilhørende metadata. 360° Arkiv Service er dermed med til sikre at arkivet altid indeholder tilgængelig information.
Arkiv Service påvirker ikke produktionsmiljøet, da rendering foregår på selvstændige servere. Belastning på organisationen er bl.a. afhængig af valgte notifikationer, og dermed hvordan organisationen opsamler læring omkring fejlsituationer.
Software Innovation Arkiv Aflevering (SISA)
Ud fra Statens Arkiver afleveringsbestemmelse udvælgelse tabeller og felter til arkiveringsversioner, og der etableres nye relationer til arkiveringsversion. En ”valideringsmotor” bearbejder data gennem en række iterationer, og sluttelig testes med egne værktøjer og ADA. Generelt for produktion af arkiveringsversion: Udfordringen består i at få et dynamiske og fleksibelt system ned i en endimensionel struktur, sådan at denne kan opbevares.
Software Innovation Arkiv Aflevering (SISA) Faser ved produktion af arkiveringsversion
Virksomheder (på private retslig grundlag)
Overkill med produktion af arkiveringsversioner for langt de fleste private aktører og systemer. Ved en DK arkiveringsversionen er genanvendelse af data vanskelig (kræver SA’s læseprogram SOFIA) Hvis der i privat regi produceres en arkiveringsversion vil jeg anbefale (betalt) test og opbevaring ved Statens Arkiver. Deponering benyttes bl.a. af Folketinget. Virksomheder kan tillade sig udelukkende at fokusere på egne dokumentationsbehov – også på lang sigt.
eArchive 360° - A Records Management Server
eArchive 360° - a stand alone records management server eArchive 360° is a stand-alone records management solution for medium or long-term storage of your organization’s digital information FGS / Noark cases + documents P360 / B360 / Other systems Files and folders as records File system drive (H: drive) Meta data and files SharePoint lists Invoices and records Financial application HR Records / other records HR application
eArchive 360° - overview
eArchive 360 –usage scenarios • «Black box» records server • Archive server for business systems
• «Historical archive» server for 360 • Transfer closed subarchives from Public 360
• Data migration tool • Import to eArchive in stead of data conversion …. and combinations…..
eArchive 360° - User Interface • Focus on search and retrieval • Vertical archive navigation • Drilling down into archives
• Cross-archive search • Advanced search
• Admin functions for archivists • Import / Export • Classification, Disposal, Access
Spørgsmål ? Henrik Højlund Olsen Teamlead Archiving
[email protected] 6023 0135
Software Innovation A/S | DK-2840 Holte | +45 45 58 88 88 | www.software-innovation.dk