Entwürfe, Arbeitskopien, Altversionen. Mit der Zeit können sich viele Varianten eines Dokuments ansammeln. Zum Beispiel steht im Marketing derselbe Text in einem Flyer, einem Prospekt und einem Newsletter. Auch in der Doku kommen Duplikate vor, etwa wenn Inhalt für sehr ähnliche Produkte getrennt gepflegt wird. Manchmal wird auch Information aus einem Wissens-Silo in ein anderes kopiert, damit mehr Nutzer Zugang dazu haben.

Warum sind doppelte Inhalte schlecht?

Auf den ersten Blick scheinen all diese Kopien berechtigt. Schließlich dienen sie einem bestimmten Zweck. Mit der Zeit führen doppelte Inhalte aber zu Problemen: Ändert sich etwas, muss die Info an mehreren Stellen aktualisiert werden. Übersieht man dabei eine Kopie oder macht einen kleinen Fehler, entstehen Widersprüche. Wird dann noch an mehreren Versionen weitergearbeitet, können Nutzer kaum noch feststellen, welche Variante aktuell ist. Oder ist überhaupt eine ganz korrekt? Das verwirrt die Nutzer, die sich fragen, was denn nun für ihren Fall gilt.

Anders ausgedrückt, doppelte (oder auch drei- und vierfache) Inhalte

  • Verdoppeln den Pflege-Aufwand
  • Führen zu Fehlern und Folgekosten, weil sie die Verlässlichkeit der Info verringern
  • Verschlechtern die User Experience, indem sie Nutzer verunsichern

Was kann ich gegen doppelte Inhalte tun?

Content Management beugt Problemen mit doppelten Inhalten vor. Es stellt sicher, dass alles, was zusammengehört, leicht gefunden werden kann. Dazu werden die Infos zentral gespeichert und mit den nötigen Metadaten versehen. Auch ein überwachter Prozess mit regelmäßigen Kontrollen nach 4-Augen-Prinzip gehören dazu.

Aber was tun, wenn die Duplikate schon da sind? Große Sammlungen von Dokumenten händisch zu durchsuchen, dauert lange und bringt wenig. Schneller und einfacher ist es, doppelte Inhalte automatisch zu erkennen. Dazu misst man die Ähnlichkeit zweier Dokumente. Das Ergebnis ist eine Liste von Duplikaten. Danach kann je eine Version verworfen oder aus zwei Dokumenten eines gemacht werden.

Wie kann ich doppelte Inhalte automatisch erkennen?

Dazu braucht es die folgenden 4 Schritte:

Schritt 1: Dokumente sammeln

Zuerst müssen Sie wissen, wo überall Infos liegen und in welchem Format. Wikis, gemeinsame Laufwerke und Data Shares sind typische Verdächtige. Bei den Formaten werden Sie es vor allem mit Word, PDF, HTML und im Marketing auch mit InDesign zu tun bekommen. Achten Sie darauf, wie häufig welche Formate genutzt werden. Damit sparen Sie sich im nächsten Schritt Arbeit.

Schritt 2: Inhalt erfassen

Das ist der technisch aufwändigste Schritt. Der Text aller Dokumente muss in eine einheitliche Form gebracht werden. Am besten eignet sich reiner Text ohne Markup oder Layout. Das kann automatisiert passieren. Es gibt Tools, die dabei unterstützen. Gibt es für eines Ihrer Formate keine fertige Lösung, müssen Sie entscheiden: Entweder Sie (oder der Entwickler Ihres Vertrauens) schreiben ein kleines Programm, das den Text extrahiert; oder Sie ignorieren das Format. Was besser ist, hängt davon ab

  • wie oft das Format vorkommt
  • wie wahrscheinlich es ist, dass es Duplikate in diesem Format gibt

Schritt 3: Vektorisieren

In diesem Schritt steckt die Magie, aber nur wenig Arbeit. Computer tun sich zwar schwer, Text zu verarbeiten. Es gibt aber fertige Lösungen für dieses Hindernis. In Python z.B. bringen Pakete wie scikit-learn  oder gensim alles mit, was Sie brauchen. Sie ermöglichen es, mit wenigen Zeilen Code aus Ihren Dokumenten Vektoren zu machen. Und mit Vektoren können Computer sehr gut arbeiten.

Was hier passiert, ist, vereinfacht gesagt: Es wird eine Liste aller Wörter erstellt, die in Ihren Dokumenten vorkommen. Dann wird gezählt, wie häufig jedes Wort im jeweiligen Dokument vorkommt. So wird aus dem Dokument eine Reihe von Zahlen. Diese Zahlen können Sie als Punkt oder Vektor in einem Koordinatensystem verstehen. Ähnliche Dokumente (also solche, in denen dieselben Wörter ähnlich oft vorkommen) liegen nah beieinander.

Tipp: Bevor Sie die Dokumente umwandeln, sollten Sie

  1. Stopwords entfernen. Das sind Wörter, die oft vorkommen aber wenig Bedeutung haben. Dazu gehören etwa Artikel, Bindewörter und Hilfsverben. Es gibt für die meisten Sprachen fertige Listen, mit denen Sie die Stopwords automatisch herausfiltern können.
  2. Zahlen entfernen. Wenn zwei Dokumente bis auf das Datum, eine Telefonnummer oder die Produktversion gleich sind, handelt es sich noch immer um doppelte Inhalte. Ersetzen Sie Zahlen deshalb mit einem Platzhalter.

Schritt 4: Ähnlichkeit messen

Jetzt müssen Sie nur noch den Abstand messen zwischen Ihren Dokumenten. Es gibt verschiedene Messmethoden. Gängig sind:

Unabhängig davon, wie Sie messen, bekommen Sie für jedes Paar von Dokumenten einen Wert. Über Stichproben können Sie leicht herausfinden, ab welchem Wert es sich um Duplikate handelt.

In unseren Projekten verwenden wir die Cosinus-Distanz. Sie liegt zwischen 0 (Dokumente ohne Gemeinsamkeit) und 1 (gleiche Dokumente). Die Erfahrung zeigt, dass es sich ab einer Ähnlichkeit von 0,95 um Duplikate handelt. Meistens fehlen in einer Version zwei kurze Sätze oder einzelne Namen wurden ausgetauscht. Bei Werten zwischen 0,9 und 0,95 sind die Dokumente noch immer sehr ähnlich, aber mit wichtigen Unterschieden, etwa einem zusätzlichen Arbeitsschritt.

Lassen Sie sich von dem Programm, mit dem Sie messen, für jedes Dokument eine Liste der besonders ähnlichen Dokumente geben. So erhalten Sie eine Übersicht über alle Duplikate in Ihrer Sammlung.

Was mache ich jetzt mit den doppelten Inhalten?

Das hängt vom Fall ab:

  • Handelt es sich um unterschiedliche Medien (z.B. Flyer und Prospekt), brauchen Sie vermutlich beide Varianten noch. Sorgen Sie dafür, dass alle Nutzer wissen, dass es mehrere Kopien gibt. Legen Sie z.B. alle Varianten an einem Ort ab oder nutzen Sie Verknüpfungen. Tipp: Die automatische Erkennung von Duplikaten Sie hier darauf hinweisen, falls die Kopien ungewollt voneinander abweichen.
  • Altversionen sollten Sie archivieren oder entfernen. So verhindern Sie, dass jemand versehentlich veraltete Infos nutzt.
  • Entwürfe sollten Sie klar als solche kennzeichnen und evtl. separat ablegen. Endnutzer (egal ob interne oder externe) sollten nur auf final freigegebene Versionen Zugriff haben. So kommt nur geprüfte Info in Umlauf.
  • Ähnliche Dokumente können Sie zu einem einzigen zusammenführen. Das betrifft sowohl Dokumente, die ähnliche Dinge oder Vorgänge beschreiben; als auch Fälle, in denen an mehreren Kopien eines Dokuments weitergearbeitet wurde. Das bringt gleich mehrere Vorteile:
    • Sollten sich etwas ändern, müssen Sie die Inhalte nur an einer Stelle ändern. Sie sparen Zeit und es können keine Widersprüche
    • Es besteht keine Gefahr, dass jemand die Fälle verwechselt, da die Unterschiede klar ersichtlich beieinanderstehen. Das beugt Fehler vor.
    • Da Sie die Zahl an Dokumenten verringern, wird es leichter, das Dokument zu finden, das Sie gerade brauchen. Das spart Zeit.

Fazit

Doppelte Inhalte kosten Zeit und führen zu Fehlern. Sie erzeugen zusätzlichen Aufwand und können verwirren. Nur automatisch können sie zuverlässig und effizient identifiziert werden. Dabei liegt der größte Aufwand darin, den Text aus den Dokumenten auszulesen. Ist das erst geschafft, können Sie in kürzester Zeit unkompliziert eine Übersicht aller Duplikate erstellen. Mit dieser Liste ist es dann leicht, Probleme und Risiken zu erkennen und zu beseitigen.

Haben Sie weitere Fragen? Wir beraten Sie gerne: marketing@avato.net

Impressum: 
Datum: Januar 2022
Autor: Isabell Bachmann
Kontakt: marketing@avato.net
www.avato-consulting.com
© 2022 avato consulting ag
All Rights Reserved.

Share This

Share this post with your friends!