KI erkennt Gefühle in Stimmen von MenschenZoom Button

Tonspuren: Maschinenlernen erkennt Gefühle richtig. Foto: Luis Jose Rengel, Informationen zu Creative Commons (CC) Lizenzen, für Pressemeldungen ist der Herausgeber verantwortlich, die Quelle ist der Herausgeber

KI erkennt Gefühle in Stimmen von Menschen

#KI erkennt #Gefühle in Stimmen von Menschen [Emotionen, nicht »Gefühle«, Anm. d. Red.]

  • Einsatz laut Max Planck Institut für Bildungsforschung beispielsweise bei Therapiesitzungen

Berlin, PTE, 20. März 2024

Entwicklungspsychologen des Max Planck Instituts für Bildungsforschung nutzen technische Tools auf Basis Künstlicher Intelligenz (KI), um emotionale Untertöne in Fragmenten von Aufzeichnungen von Stimmen zu erkennen. Dafür hat das Team um Forschungsleiter Hannes Diemerling die Genauigkeit der Arbeitsweise von drei Modellen maschinellen Lernens miteinander verglichen.

1,5 Sekunden reichen aus

Laut Diemerling kann maschinelles Lernen dafür eingesetzt werden, Gefühle in Audioaufzeichnungen zu erkennen, die nur 1,5 Sekunden lang sind. »Unsere Modelle erzielten dabei eine ähnliche Genauigkeit wie Menschen.« Für die Studie wurden Schauspieler eingesetzt, die bedeutungslose Sätze mit einer emotionalen Färbung versahen. Die Forscher entnahmen diese Sätze aus 2 Datensätzen. Einer stammte aus #Kanada, der andere aus #Deutschland.

Damit konnte überprüft werden, ob das maschinelle Lernen Gefühle richtig erkennen kann und das unabhängig von der Sprache, kulturellen Nuancen und dem semantischen Inhalt. Jeder Clip wurde auf eine Länge von 1,5 Sekunden gekürzt. So lange brauchen nämlich auch Menschen, um das Gefühl beim Sprechen zu erkennen. Dabei handelt es sich zudem auch um die kürzeste mögliche Länge, bei der das Überlappen von Gefühlen vermieden werden kann.

Drei Modelle ausgetestet

Basierend auf den Trainingsdaten haben die Experten KI Modelle, die auf jeweils eine von drei Arten arbeiten, untersucht. Bei tiefen neuronalen Netzen (DNNs) handelt es sich um komplexe Filter, die Komponenten von Klang wie die Frequenz oder die Tonhöhe analysieren. Das ist zum Beispiel der Fall, wenn eine Stimme lauter ist, weil die sprechende Person wütend ist. Ziel dieser tiefen neuronalen Netze war es, die zugrundeliegenden Emotionen zu identifizieren.

Konvolutionale neuronale Netze (CNNs) wiederum suchen nach Mustern in der bildlichen Darstellung von Tonspuren. Das entspricht in etwa der Erkennung von Gefühlen mittels des Rhythmus und der Beschaffenheit einer Stimme. Das hybride Modell (C DNN) verbindet beide Verfahren und nutzt sowohl den Ton als auch sein visuelles Spektrogramm zur Vorhersage von Gefühlen. Diese Modelle wurden dann anhand beider Datensätze auf ihre Leistungsfähigkeit getestet.

Ähnliche Muster erkannt

DNNs und C DNNs erzielten eine bessere Genauigkeit, als wenn nur die Spektrogramme der CNNs ausgewertet wurden. Unabhängig vom jeweiligen Modell war die Erkennung der Gefühle mit einer größeren Wahrscheinlichkeit richtig, als sie durch ein Raten möglich ist und damit durchaus mit der Genauigkeit beim Menschen vergleichbar. Dabei war es den Forschern wichtig, ihre Modelle in einem realistischen Kontext anzusiedeln und die Fähigkeiten der Menschen zur Vorhersage als Maßstab heranzuziehen. »Hätten die Modelle besser abgeschnitten als die Menschen, hätte das bedeuten können, dass es Muster gibt, die wir nicht erkennen können«, so Diemerling.

Die Tatsache allerdings, dass nicht trainierte Menschen und Modelle eine ähnliche Leistung erbringen, dürfte bedeuten, dass beide sich auf ähnliche Erkennungsmuster verlassen. Die in »Frontiers in Psychology« veröffentlichte Studie zeigt aber auch, dass es möglich ist, Systeme zu entwickeln, die sofort emotionale Signale interpretieren können und so in einer Vielzahl von Situationen live ein intuitives Feedback geben. Denkbar ist das zum Beispiel im Bereich der Therapie oder Kommunikationstechnologien in anderen zwischenmenschlichen Zusammenhängen.

 
Gütsel
Termine und Events

Veranstaltungen
nicht nur in Gütersloh und Umgebung

September 2024
So Mo Di Mi Do Fr Sa
1234567
891011121314
15161718192021
22232425262728
2930
November 2024
So Mo Di Mi Do Fr Sa
12
3456789
10111213141516
17181920212223
24252627282930
Dezember 2024
So Mo Di Mi Do Fr Sa
1234567
891011121314
15161718192021
22232425262728
293031
Februar 2025
So Mo Di Mi Do Fr Sa
1
2345678
9101112131415
16171819202122
232425262728
September 2025
So Mo Di Mi Do Fr Sa
123456
78910111213
14151617181920
21222324252627
282930
Oktober 2025
So Mo Di Mi Do Fr Sa
1234
567891011
12131415161718
19202122232425
262728293031
Juli 2042
So Mo Di Mi Do Fr Sa
12345
6789101112
13141516171819
20212223242526
2728293031
August 3024
So Mo Di Mi Do Fr Sa
1234567
891011121314
15161718192021
22232425262728
293031

Für die Suche nach Inhalten geben Sie »Content:« vor den Suchbegriffen ein, für die Suche nach Orten geben Sie »Orte:« oder »Ort:« vor den Suchbegriffen ein. Wenn Sie nichts eingeben, wird in beiden Bereichen gesucht.