Überprüft ihr, ob euer Scanner Zahlen und Buchstaben verändert? Nein? Solltet ihr aber...
Wow, das was ich euch jetzt zeigen werde, konnte ich zuerst auch nicht glauben!
Xerox-Scanner sollen Zahlen und Buchstaben mit anderen Zahlen und Buchstaben ersetzen? Glaubt ihr nicht?
Hier sind ein paar Beispiel-Scans:
Quelle: http://www.dkriesel.com/blog/2013/0802_xerox-workcentres_are_switching_written_numbers_when_scanning
Überprüft ihr, ob euer Scanner Zahlen und Buchstaben verändert? Nein? Solltet ihr aber, wenn ihr zum Scannen einen Xerox-Scankopierer der Workcentre-Familie verwendet!
David Kriesel, ein Informatiker aus Bonn hat dieses Phänomen das erste Mal öffentlich gemacht. Es gibt dazu einen sehr unterhaltsamen und wirklich gut gemachten Vortrag, den ihr euch auf jeden Fall anschauen solltet:
Die betroffenen Scankopierer sind größere Geräte und werden meist nicht im Privathaushalten verwendet. Solltet ihr aber in einem Büro arbeiten, ist die Chance schon größer, dass ihr mit so einem Gerät arbeitet.
Und nein, hier sind nicht Fehler bei der OCR-Texterkennung gemeint, sondern sinnveränderndes Vertauschen von Zahlen und Buchstaben, die "hart" in den Pixeldaten auftauchen.
Zuerst findet man solche Fehler vielleicht noch witzig, aber sobald man sich mit den potentiell ernsten Konsequenzen auseinandersetzt, wird einem ganz anders zumute.
Es wird ja alles mögliche eingescannt, wie zum Beispiel Baupläne für Gebäude und Brücken, Dosierungsangaben für Medikamente, Finanzbudgetdaten von staatlichen Einrichtungen, militärische Strategiepapiere, etc.
Ich möchte mir gar nicht ausmalen, welche krassen Konsequenzen hier falsche Daten haben könnten. Es könnten viele Menschen das Leben kosten.
In den letzten Jahren gab es vonseiten vieler wissenschaftlicher Einrichtungen und Bibliotheken große Bemühungen, Buchbestände zu digitalisieren. All diese Daten könnten fehlerhaft sein. Alles zu überprüfen wäre ein enormer Aufwand, der unbewältigbar ist...
Es wurde von Unternehmen berichtet, die ihre Archivdaten digitalisiert und daraufhin die Originale entsorgt haben, um Platz zu sparen. Diese Unternehmen können nun auf die Archivdaten nicht mehr vertrauen, die Originaldaten sind unwiderbringlich verloren...
Es macht es auch nicht besser, dass dieser Fehler über viele Jahre hinweg nicht bemerkt wurde. Laut dieser Quelle (https://de.wikipedia.org/wiki/JBIG2) wird die Zahl der betroffenen Geräte auf bis zu 300.000 geschätzt.
Der Bug ist somit sehr weit verbreitet, und die Auswirkungen potentiell gefährlich.
Nun muss man wissen, dass Xerox mittlerweile einen Patch herausgegeben hat. Das Problem daran ist, dass wohl sehr viele Geräte nicht gepatcht werden. Warum auch, wenn das Gerät scheinbar keine Probleme macht? Die meisten Leute haben auch noch nie von diesem Problem gehört...
Also muss man davon ausgehen, dass auch im Jahre 2018 noch viele Xerox-Kopierer im Umlauf sind, die ganz munter und Spontan Zahlen und Buchstaben in eingescannten Dokumenten einfach so durch andere ersetzen.
Das Heimtükische an der Sache ist, dass sich die meisten Personen und Institutionen dieser Gefahr nicht bewusst sind.
David Kriesel konnte während des oben genannten Vortrages auch zeigen, dass Unstimmigkeiten im Scan von Obamas Geburtsurkunde - die Ursprung mehrere Verschwörungstheorien waren - mit höchter Wahrscheinlichkeit auch durch eben diesen Bug entstanden sind.
Ihr werdet euch fragen: Wie kommt so ein Fehler überhaupt zustande?
Nun, es hat mit einem Bug mit einem Kompressionsverfahren zu tun, nämlich mit dem Kompressionsverfahren JBig2. https://de.wikipedia.org/wiki/JBIG2
Dieses Kompressionsverfahren wendet das sogenannte Pattern matching an. Was ist das? Nun Pattern matching sucht im eingescannten Material nach Gruppen von sehr änlichen Mustern, die sich nur durch wenige Pixel unterscheiden. Für diese Gruppen wird nur ein Bild abgespeichert, das dann für alle anderen eingesetzt wird.
So kommt es vor, dass die Software ähnliche Buchstaben wie das kleine i und die Zahl 1, oder die Zahlen 6 und 8 als das gleiche Muster erkennt, und nur mehr eines der beiden Muster verwendet.
Hier könnt ihr noch einige Details nachlesen: https://abbyy.technology/en:kb:tip:jbig2_compression_and_ocr
Das tolle an dem Kompressionsverfahren ist eine sehr hohe Kompression, das heißt viel kleinere Dateien. Optisch sind die Scans auch sehr ansprechend, es entstehen keine Pixelartefakte wie bei JPEG.
Das macht das ganze jedoch besonders heimtückisch: Die Zahlendreher und ersetzten Buchstaben werden in das bestehende Dokument perfekt einlayoutiert und sind somit auf den ersten Blick kaum zu erkennen.
Wenn man nicht alles genau nach Plausibilität durchliest, hat man keine Chance, solche Fehler zu erkennen. Naja, das Problem ist auch, dass nicht alle Fehler per se unplausibel sind.
Gerade bei sensiblen Daten kann dies katastrophal enden!
Wie reagierte eigentlich Xerox auf die Öffentlichmachung dieses Problems?
Naja, zuerst zeigte Xerox über mehrere Tage keine Reaktion (abwarten und Tee trinken?), dann meinte Xerox, es wäre ein bekanntes Feature, das nur einzelne Einstellungen betreffe, bis Xerox später die Ernsthaftigkeit des Problems erkannte und einen Patch veröffentlichte. Es ist aber weiterhin davon auszugehen, dass viele Xerox-Kopiergeräte noch im Einsatz sind, die noch ungepatcht sind.
Also, seid auf der Hut!
Ich hoffe, ihr findet diese Story genauso faszinierend wie ich!
Bis bald!
Alter Hut, oder ?
Schon länger her das es der CCC präsentiert hat.
Beim Chaos Computer Club lässt sich das Thema doch ausführlich abrufen.
Hey Neffi, vielen Dank für deinen Kommentar! Mein erster Kommentar! :)
Naja, erstmalig wurde es 2013 öffentlich bekannt. Es ist insofern kein alter Hut, weil auch heutzutage noch viele Xerox-Geräte in Büros stehen, die ungepatched sind. Ich denke, dass hier Aufklärung wichtig ist.
Ich habe von dem Thema erst heute erfahren, besonders das Video von David Kriesel fand ich total gut und auch sehr unterhaltsam. Wollte es euch nicht vorenthalten.
Mein Ziel war es, das Thema mal vorzustellen. Wenn du ausführlichere Infos haben möchtest, habe ich einige Links im Text verlinkt.
Danke jedenfalls fürs Lesen! :)
Your Post Has Been Featured on @Resteemable!
Feature any Steemit post using resteemit.com!
How It Works:
1. Take Any Steemit URL
2. Erase
https://
3. Type
re
Get Featured Instantly � Featured Posts are voted every 2.4hrs
Join the Curation Team Here | Vote Resteemable for Witness