Ein entspannter Abend, lockere Gespräche und leckere Knabbereien –Momente wie diese könnten künftig gefährlich werden. Forscher haben eine Technik entwickelt, mit der sie aus Videos von Gegenständen rekonstruieren können, was in deren Nähe gesprochen wurde. Das Video von einer Chipstüte beispielsweise, die in der Nähe einer Unterhaltung stand, gibt dann auf einmal pikante Details preis.
«Wenn Tonwellen auf Gegenstände treffen, entstehen Vibrationen», erklärt Abe Davis vom Massachusetts Institute of Technology (MIT) in Cambridge, US-Bundesstaat Massachusetts. «Die Bewegung erzeugt ein winziges Bildsignal, das für das blosse Auge unsichtbar ist.» Eine Software kann es aber erkennen.
Die Anwendungsbereiche bleiben allerdings nicht auf Partygeplauder beschränkt. Ebenso liesse sich diese Technik bei der Polizeiarbeit nutzen oder, um sich in Wirtschaft oder Politik Informationen zu beschaffen – unter Umständen mit weitreichenden Folgen.
Vorerst testeten die Forscher ihre Entwicklung aber an unverfänglichen Worten. So beschallten sie etwa eine Chipstüte mit dem Text des englischen Kinderreims «Mary had a Little Lamb» und zeichneten sie aus etwa viereinhalb Metern Entfernung durch eine schalldichte Scheibe mit einer Kamera auf. In anderen Versuchen spielten sie den Reim oder den Hit «Under Pressure» von Queen Pflanzen vor oder beschallten Alufolie, Glasoberflächen und Wasser.
Möglich macht die unauffällige Spionage ein Algorithmus, der die winzigen Vibrationen der Gegenstände in Tonsignale transkribiert und gleichzeitig Unwichtiges herausfiltert. Im Versuch konnte das Programm die Schwingungen der Gegenstände so treffsicher einzelnen Tonfrequenzen zuordnen, dass eine Erkennungssoftware für Musik die dekodierten Videos den richtigen Songs zuordnen konnte.
Sicher lässt sich das bislang allerdings nur mit Hochgeschwindigkeitskameras umsetzen, die 2000 bis 6000 Bilder pro Sekunde aufnehmen. Das hat einen einfachen Grund: Die Anzahl der Bilder, die pro Sekunde aufgenommen werden, muss grösser sein als die Frequenz des Audiosignals. Sonst werden Frequenzen übersehen.
Einige Informationen aus Gesprächen lassen sich mithilfe der neuen Technik aber auch aus schlechteren Aufnahmen herauslesen. Selbst Bilder von Smartphone-Kameras, die nur etwa 60 Bilder pro Sekunde machen, könnten zumindest verraten, ob ein Mann oder eine Frau spricht, wie viele Personen überhaupt reden und ob es Besonderheiten in der Sprache gibt.
Möglich macht das ein Belichtungsfehler, den viele Kameras haben, der sogenannte Rolling-Shutter-Effekt. Beim Fotografieren von bewegten Objekten verzerrt er die Aufnahmen, weil Bildpunkte, die eigentlich zusammengehören, zu leicht unterschiedlichen Zeitpunkten aufgenommen werden. Dabei wertet die Kamera mehr Informationen aus, als eigentlich vorgesehen. «So können wir Tonfrequenzen auswerten, die deutlich höher liegen als die Aufnahmerate der Kamera», erklärt Davis in der «Washington Post».
Bessere Tonrekonstruktion als bisher seien mit der neuen Technik nicht möglich, berichten die Forscher. Neu sei aber, dass man Gespräche in Situationen verfolgen könne, in denen es bislang sehr schwer war. Eigentlich interessieren sich Davis und Kollegen aber stärker für die wissenschaftlichen Aspekte ihrer Technologie: «Wir können Geräusche aus Bewegungen von Gegenständen ableiten», sagt Davis. «Das gibt uns auch Informationen über die Materialien.» Im nächsten Schritt wollen die Forscher untersuchen, ob sich aus der Reaktion der Gegenstände auf Schall auf die Materialeigenschaften schliessen lässt.