Nach einer kürzlich im Auftrag des Digitalverbands Bitkom durchgeführten Befragung gehen täglich durchschnittlich 26 E-Mails in jedem beruflichen Postfach in Deutschland ein. Deren Bearbeitung nimmt einen großen Teil der Arbeitszeit in Anspruch. [...]
Darüber hinaus sind E-Mails integraler Bestandteil von Prozessen. Einige von ihnen müssen nach dem Steuerrecht aufbewahrt werden, unter anderem Bestellungen oder Rechnungen, aber auch alle Dokumente, die im Zusammenhang mit einem Geschäftsvorfall relevant sein können. Außerdem beinhalten elektronische Nachrichten oft wertvolles Wissen, das es aufzubewahren gilt. Aber wie lassen sich E-Mails elegant archivieren? Eine ultimative Lösung existiert bis dato nicht. Allerdings scheint derzeit der Weg über PDF aus vielerlei Gründen der praktikabelste zu sein.
Die gute Nachricht vorweg: E-Mails sind per se digital und beinhalten bereits Metadaten. So ist es gegenüber papierbasierter Kommunikation grundsätzlich einfacher, sie zu archivieren. Jedoch gibt es in vielen Fällen von Unternehmensseite keine diesbezüglichen Vorgaben, sodass Anwender individuell entscheiden, wie sie mit ihren E-Mails umgehen. Deshalb besteht ein hohes Risiko, dass geschäftsrelevante Nachrichten verloren gehen.
E-Mails – mehr als nur eine Datei
Dem Handling von E-Mails dienen unterschiedliche, spezialisierte Systeme, welche die Erstellung, den Transport, die Betrachtung und Speicherung dieser elektronischen Nachrichten ermöglichen (Lifecycle: Client, Server, Relay, Archivsystem). E-Mails bestehen aus drei Komponenten:
- Der Header ist im Grunde das Pendant zum Briefkopf und beinhaltet die Absender- und Empfängerangabe, das Erstellungsdatum und einige optionale Angaben wie den Betreff in Form von Metadaten. Häufig ist hier auch eine ID enthalten, die dem E-Mail–Client die Zuordnung zu anderen E-Mails erleichtert, wenn eine E-Mail-Abfolge aus Antworten und Weiterleitungen besteht. Um E-Mails und die Zuverlässigkeit der Header-Informationen richtig einschätzen zu können, ist es wichtig zu verstehen, dass das eigentliche Routing unabhängig von den Header-Daten ist und über das Simple Mail Transfer Protocol (SMTP) erfolgt. Das SMTP fungiert quasi als Briefumschlag und kontrolliert das Routing der elektronischen Nachricht. Der versendende E-Mail-Client schickt also gleichzeitig mit den Nutzdaten der E-Mail (inklusive Header) einen SMTP-Aufruf an den E-Mail-Server, in dem die Adresse des Empfängers steht und der für das Routing ausschlaggebend ist.
- Der Body, also der eigentliche Mail-Inhalt, wird abhängig von den benutzerdefinierten Einstellungen in der E-Mail-Software sowie dessen Möglichkeiten unterschiedlich dargestellt. Möglich sind reiner Text (ASCII) ohne Umlaute, einfach formatierter Text (wie Fett- oder Kursivschreibung) mit Unterstützung länderspezifischer Kodierungen (Umlaute) sowie umfassende HTML-Formatierungen mit eingebetteten Bildern usw. Eine E-Mail-Datei kann mehrere Varianten gleichzeitig enthalten und es gibt keine Garantie für kongruente Inhalte: Es ist ohne Weiteres möglich, unterschiedliche Texte zu platzieren. Häufig ist im ASCII-Textteil z. B. nur der Hinweis zu finden, dass für die Anzeige ein HTML-fähiger E-Mail-Client erforderlich ist. Das ist ein für mögliche Formatumwandlungen bei der Archivierung entscheidender Aspekt.
- Der dritte, optionale Teil besteht aus Anhängen. Hier öffnet sich das von jedem Archivar gefürchtete unendliche Feld der Dateiformate: Häufig sind es Dokumente oder Bilder, die gegebenenfalls in einer ZIP-Datei zusammengefasst sind, aber auch exotische Dateiformate oder ausführbare Programme bzw. Skripte können enthalten sein.
Das ideale E-Mail-Archiv
Der Transport der E-Mail erfolgt, wie bereits beschrieben, über das SMTP-Protokoll, und zwar vom Client an den Server beim Absender, dann über die Mail-Relays zum Server beim Empfänger und von dort an dessen Client. Da E-Mails häufig in „Konversationen“ als Antworten versandt werden und die komplette Historie nicht immer enthalten ist, wäre es ideal, das gesamte Mail-System zu archivieren, um später die E-Mail-Kommunikation mit sämtlichen Schritten vollständig nachzuvollziehen.
Dies ist in der Praxis offensichtlich in der Regel eher nicht umsetzbar. Alternativ wäre es gut, wenn wenigstens die Empfangs- oder Versand-Mailbox komplett mit allen Bezügen der E-Mails zueinander zu archivieren wäre. Bis heute gibt es dafür jedoch keine standardisierte, interoperable Vorgehensweise, allerdings durchaus interessante Initiativen und Ansätze (z. B. ein Report, der kürzlich von der Universität von Illinois mit Unterstützung der PDF Association erstellt wurde: https://www.pdfa.org/packaging-email-archives-using-pdf/).
Kein Originalformat für E-Mails
E-Mails sind zunächst nur als Kommunikationsprotokoll vorgesehen. Es existiert kein Standard für das Format, im Kommunikationsprotokoll RFC #833 ist lediglich die Übertragung von E-Mails standardisiert. Das E-Mail-Format, das den Vorgaben des Protokolls am ehesten entspricht, ist das EML-Format. Dieses ist zwar eine praktikable Lösung, um E-Mails einfach auf der Festplatte oder anderen Speichermedien abzulegen und dann mit dem eingesetzten E-Mail-Programm zu öffnen. Allerdings ist damit die langfristige Verfügbarkeit der E-Mails nicht unbedingt gewährleistet, da keine standardisierte Dokumentation zum EML-Format existiert und für die Anzeige spezielle Software erforderlich ist.
Problematisch ist eine solche Vorgehensweise darüber hinaus, da die in Business-Prozessen am häufigsten eingesetzte Technologie von Microsoft ein eigenes, proprietäres Format (MSG) verwendet. Es ist zwar dokumentiert, jedoch häufigen Wechseln unterworfen. Inhalte werden von den Programmen dabei mitunter noch nicht einmal in den Body der E-Mail eingefügt, sondern als „Winmail.dat“-Anhänge versandt, die dann nur von entsprechend vorbereiteten Clients auf der Empfängerseite interpretiert und angezeigt werden können.
Bereits aus diesen Gründen scheint eine Konvertierung der E-Mails in ein archivtaugliches Standardformat unerlässlich. Noch zwingender wird dies, wenn Anhänge in die Überlegung einbezogen werden. Hier sind der Fantasie keine Grenzen gesetzt, welches Dateiformat in den Attachments zum Einsatz kommt. Es kann daher nicht sichergestellt werden, dass über Jahre oder gar Jahrzehnte eine Applikation verfügbar ist, mit der sich die Anhänge darstellen lassen – einer der Gründe, warum PDF/A entwickelt wurde und sich so schnell durchgesetzt hat.
PDF/A zur sicheren Archivierung
Um sich von dieser Abhängigkeit zu lösen, ist eine systemunabhängige Archivierung aller E-Mails und Attachments in PDF/A zu empfehlen. Das Format hat sich für allgemeines Archivgut seit Langem etabliert. Seit Kurzem ist die Konformitätsstufe PDF/A-4f als Nachfolger von PDF/A-3 verfügbar, in die sich beliebige Dateien einbetten lassen. Auf dieser Basis lässt sich zu mindestens die Formatfrage bei der E-Mail-Archivierung befriedigend beantworten.
Die meisten E-Mail-Systeme bieten eine Export-Funktion nach PDF an. Doch leider greift dieser Ansatz häufig zu kurz, denn meistens wird lediglich der E-Mail-Body berücksichtigt und nicht der Header sowie die möglichen Attachments.
Bei einer vollständigen Archivierung von E-Mails im PDF sollten die Headerdaten als XMP-Metadaten in der PDF-Datei abgespeichert werden. Auf dieser Basis lässt sich dann gezielt nach E-Mails suchen. Der E-Mail-Body wird idealerweise auf Basis desjenigen Body-Zweiges (einfaches ASCII, formatierter Text, HTML) konvertiert, der den Inhalt am umfangreichsten wiedergibt. Verlinkungen bzw. referenzierte Bilder in HTML müssen dann ebenfalls integriert werden.
Die größte Flexibilität bei der Verwendung der archivierten E-Mails ist vorhanden, wenn zusätzlich die originäre E-Mail-Datei im EML- oder MSG-Format sowie die Anhänge in das PDF eingebettet werden, was mit PDF/A-3 bzw. PDF/A-4f möglich ist.
Aber nicht nur dann sind erfahrungsgemäß die als PDF/A archivierten E-Mails fast immer größer als die ursprünglichen Dateien. Ein weiterer Faktor ist, dass der PDF/A-Standard die Einbettung von Schriften bzw. ICC-Profilen für Farben verlangt, um die Reproduzierbarkeit von E-Mails über Jahre hinweg sicherzustellen. Andererseits kann die Dateigröße über in das PDF integrierte Komprimierungsverfahren minimiert werden, eine Möglichkeit, die in den „E-Mail-Formaten“ nicht besteht.
Um möglichst viele Informationen bei der E-Mail–Archivierung einzubeziehen und diese auch in Zukunft wiederzufinden und zu nutzen, sind zusammenfassend folgende Schritte empfehlenswert:
- Konvertierung der E-Mails mit dem „Look-and-Feel“ des E-Mail-Clients nach PDF/A-3 oder PDF/A-4f
- Hinzufügen aller Header-Informationen als Metadaten
- Konvertierung der Attachments ebenfalls nach PDF/A, wenn möglich
- Attachments zusätzlich im Ursprungsformat einbetten
- Einbetten der Original-Dateien (E-Mails im EML- oder MSG-Format)
Diese Vorgehensweise lässt sich bereits heute mit Standardsoftware gut lösen. Noch nicht in interoperabler, standardisierter Weise abgedeckt werden Anforderungen zur Archivierung und Wiederherstellung von E-Mails in Konversationen (Antworten und Weiterleitungen) z. B. mit Funktionalität zu deren Suche.
*Dietrich von Seggern, Geschäftsführer der callas software GmbH, ist seit 1991 im Bereich der Druckvorstufe tätig. Der Diplom-Ingenieur ist Experte für Publishing und PDF. callas software entwickelt PDF-Technologien für Publishing, Prepress, Dokumentenaustausch und -archivierung sowie zur Optimierung von PDF-basierten Prozessen. Das Unternehmen ist Gründungsmitglied der PDF Association und engagiert sich von Anfang an im Vorstand des internationalen Verbandes. www.callassoftware.com
Be the first to comment