Deutschland - Kennzeichen Deutschland

Incoterms:DDP
Alle Preise sind inklusive Zoll und Gebühren bei der Auswahl der Versandart.

Bitte bestätigen Sie Ihre Währungsauswahl:

Euro
Versand ist kostenfrei bei den meisten Bestellungen über 50 € (EUR)

US Dollar
Versand ist kostenfrei bei den meisten Bestellungen über $60 (USD)

Bench Talk for Design Engineers

Mouser German Blog

rss

Mouser Electronics, Inc german language blogs


Übertragung von menschlichem Wissen auf künstliche Intelligenz Michael Matuschek

Sentimentanalyse: Ein Plädoyer für kontext- und kultursensitive künstliche Intelligenz

(Quelle: hoelixDE/Shutterstock.com)

Im Jahr 2020 produzieren mehr als 4,4 Milliarden Internetnutzer eine schwindelerregende Menge an Daten durch Beiträge in sozialen Medien, Bewertungen, Empfehlungen und ähnliche Interaktionen. Die aus diesen Daten gewonnenen Erkenntnisse sind von unschätzbarem Wert, um Unternehmen und innovative Entwickler bei der Produktentwicklung, dem Marketing und der Kundenbetreuung zu unterstützen. Die Gewinnung dieser Erkenntnisse ist jedoch eine Herausforderung, da meinungsorientierte, vom Kunden zur Verfügung gestellte Daten aufgrund der Komplexität der menschlichen Sprache und des kulturellen Kontexts für Maschinen schwer zu verstehen und zu interpretieren sind. Instrumente wie die Computerlinguistik (CL) und das maschinelle Lernen (ML) versetzen Computer in die Lage, menschliche Sprache zu verstehen und aus ihr eine Bedeutung abzuleiten. Darüber hinaus hilft ein fortschreitendes Forschungsgebiet der künstlichen Intelligenz (KI), die sogenannte Sentimentanalyse, Maschinen dabei, unstrukturierte, von Kunden bereitgestellte Daten zu verstehen und Meinungen als positiv, negativ oder neutral zu interpretieren.

Sprachkomplexität bei der semantischen Analyse

Um die Sentimentanalyse in der Computerlinguistik zu verstehen, schauen wir uns diese einfache Aussage aus einer Restaurantkritik an: „Die Suppe war gut.“ Eine Analyse des Sentiments erfordert drei Aktionen:

  • Erkennen, ob eine Aussage, ein Satz oder der gesamte Text eine Meinung enthält.
  • Verstehen, ob die Meinung positiv, negativ oder neutral ist (was als Polarität bezeichnet wird).
  • Bestimmen des Ziels der Meinungsäußerung.

 

In diesem Fall ist die Sentimentanalyse eindeutig positiv in Bezug auf ein bestimmtes Essen, das im Restaurant serviert wird. Andere Beispiele sind jedoch nicht so eindeutig, wie in einem scheinbar ähnlichen Satz: „Das Bier ist kalt.“ Viele würden diese Meinung als positiv betrachten, weil sie Bier auf diese Weise mögen, aber kalt kann in anderen Zusammenhängen eine negative Polarität haben. Zum Beispiel: „Der Kaffee ist kalt“ verwendet eine identische Satzstruktur und ein identisches Adjektiv, aber viele Menschen würden kalten Kaffee als negativ betrachten.

 

Andere sprachliche Komplexitäten schaffen zusätzliche Herausforderungen, wie z. B. Sätze, die mehrere Empfindungen enthalten, z. B: „Das Essen war gut, aber die Suppe war kalt.“ Hier gibt es ein positives, ein negatives und ein mehrdeutiges Sentiment, je nachdem, welche Suppentemperatur der Kunde bevorzugt. Der ähnliche Satz „Die Suppe war heiß, aber das Bier war kalt“ wäre für die meisten Menschen ein positives Sentiment, ist aber im Hinblick auf den potenziellen Kundenkontext mehrdeutig.

 

Modifikatoren verwischen die Grenze zwischen den Polaritäten weiter. Betrachten wir beispielsweise die Meinungsäußerung: „Das Personal war fast zu freundlich.“ Hier müssen wir auch an Ironie, Sarkasmus oder Redewendungen denken, was es schwierig macht, das Sentiment richtig zu identifizieren. Beispiele wie „Wir haben mehr als eine Stunde gewartet, wirklich toller Service!“ sind in den Trainingsdaten eher selten und es ist extrem schwer, sie manuell auf systematische Weise zu kodieren.

Kulturelle Variablen bei der semantischen Analyse

Die Zuordnung von Polarität zu Meinungen wird noch schwieriger, wenn persönliche, kulturelle oder umständebedingte Präferenzen berücksichtigt werden. Analysieren Sie zum Beispiel Kundenbewertungen für ein Ryokan, ein traditionelles japanisches Gästehaus, das typischerweise schick und teuer ist, aber einen gemeinsamen Badebereich anstelle von privaten Badezimmern bietet. Das Fehlen oder Vorhandensein von etwas als positiv oder negativ zu kategorisieren, scheint einfach zu sein – zum Beispiel: „In der Dusche war Schmutz“ oder „Es gab einen Pool für die Kinder“. Das Beispiel Ryokan zeigt jedoch, wie wichtig die Berücksichtigung kultureller Variablen und persönlicher Präferenzen ist, um verwertbare Erkenntnisse für Daten zu erhalten. In Japan empfinden die Gäste gemeinsame Badebereiche als positives Attribut. Im Gegensatz dazu würden die meisten europäischen Reisenden dies negativ sehen, besonders in einem teuren Hotel. Und bei diesem Beispiel haben wir nur ein Merkmal und zwei Kulturen.

Umgang mit sprachlichen und kulturellen Variablen in der Computerlinguistik

In der Computerlinguistik können Sentiments sowohl auf der Ebene des gesamten Dokuments als auch auf Absatz- und Satzebene analysiert werden, wobei die Ergebnisse dann oft aggregiert werden. Während die Analyse des gesamten Dokuments nützlich ist, kann die Analyse auf Absatz- und Satzebene granularere und entsprechend genauere Ergebnisse liefern (z. B. die Identifizierung von Sentiments über ein bestimmtes Produktmerkmal zusätzlich zu dem gesamten Produkt). Die Herausforderung besteht in der Entwicklung eines Lexikons – einer Reihe von Regeln, die Maschinen zur Klassifizierung von Sentiments als positiv, negativ oder neutral verwenden. Als Ausgangspunkt gibt es viele kostenlose Tools und Ressourcen, die auf öffentliche Daten trainiert sind. Zum Beispiel enthalten Software-Bibliotheken wie Natural Language Toolkit, spaCy und TextBlob Sentiment-Modelle, erlauben aber das Nachtrainieren mit Benutzerdaten. Wenn Sie lieber nicht programmieren möchten, ermöglichen Ihnen Cloud-Angebote wie Google Cloud Platform oder Microsoft Azure den sofortigen Einstieg in die Sentimentanalyse: Fügen Sie den zu analysierenden Text einfach in einen Browser ein und bauen Sie Ihre Anwendung von dort aus auf.

 

Über das Prototyping hinaus sollten die Datensätze und ML-Modelle die Komplexität von Sprache und Kultur berücksichtigen. Das bedeutet:

  • Für die Planung. Finden Sie strukturierte Ansätze zur Entdeckung von Variablen und nützlichen Erkenntnissen. Analysieren Sie zum Beispiel Ihre Daten auf zugrundeliegende Sprachen und Kulturen, Tonfall, Quellen, Autorendemografie und ziehen Sie dann Linguisten zur Interpretation dieser Elemente hinzu. Verbessern Sie Ihre Herangehensweise weiter, indem Sie Personen befragen, die der Autorengruppe angehören, um ein genaues Verständnis für Nuancen und Zusammenhänge zu erhalten.
  • Für die Trainingsdaten. Identifizieren Sie Beispiele, die benötigt werden, um Variablen anzusprechen, und fügen Sie von Menschen erstellte Anmerkungen hinzu. Es kann auch bedeuten, Wissensdatenbanken wie Wörterbücher zu überarbeiten, mehr Trainingsdaten für das jeweilige Problem hinzuzufügen oder in einigen Fällen problematische oder irreführende Beispiele aus Ihren Daten zu entfernen, wenn sie mehr schaden als nutzen.
  • Für die Modellierung. Finden Sie eine Methode, um Sätze auf eine mathematisch verarbeitbare Weise darzustellen. Beispielsweise sind Worteinbettungen, die beliebigen Text als numerische Vektoren darstellen, nützlich, um Wörter, wie sie im Kontext verwendet werden, entsprechenden positiven, negativen oder neutralen Sentiments zuzuordnen. Idealerweise würde die Datenanalyse explizit oder implizit auf den Präferenzen der einzelnen Kunden basieren; diese Analyse ist jedoch umständlich und in vielen Fällen nicht möglich, wenn die Benutzer nicht identifizierbar sind. Ein einfacherer Ansatz besteht darin, die Daten nach Region und Sprache zu analysieren und dann kulturelle Unterschiede mit separaten Trainingsbeispielen zu modellieren.

Fazit

Von Kunden bereitgestellte Daten aus Social-Media-Beiträgen, Bewertungen, Empfehlungen und Ähnlichem bieten Unternehmen und Innovatoren unschätzbare Einblicke. Die Komplexität natürlicher Sprache und Kulturen macht es KI-gesteuerten Maschinen schwer, Kundenmeinungen zu verstehen. Die Sentimentanalyse kann jedoch dazu beitragen, dass diese Aspekte erfasst werden und sich in den Erkenntnissen widerspiegeln. Für den Anfang können Sie frei verfügbare Tools und Ressourcen verwenden, aber die Bewältigung komplexer sprachlicher und kultureller Gegebenheiten ist eine Herausforderung, die umfangreiche Planung, Datenvorbereitung und Modellierung erfordert. Das Bewusstsein für die Komplexität von Sprache und Kultur zu schärfen, ist ein hervorragender Ansatz, um nützliche Erkenntnisse zu gewinnen, und eine äußerst wertvolle Methode, um Ihr Verständnis für Ihre Kunden und deren Bedürfnisse zu fördern.



« Zurück


Michael Matuschek ist Senior Data Scientist und lebt in Düsseldorf. Er hat einen Master-Abschluss in Informatik und einen Doktortitel in Computerlinguistik. Herr Matuschek hat an unterschiedlichen Projekten zur Verarbeitung der natürlichen Sprache in verschiedenen Branchen sowie im akademischen Bereich gearbeitet. Zu den von ihm behandelten Themen gehören die Stimmungsanalyse für Rezensionen, die Klassifizierung von Kunden-E-Mails sowie die Anreicherung fachspezifischer Ontologien. 


Alle Autoren

Alle anzeigen Alle anzeigen
Blog nach Datum anzeigen