Die Forscher testeten, wie sich unterschiedliche Töne, von sehr höflich bis sehr unhöflich, auf die Leistung von ChatGPT-4o bei Multiple-Choice-Fragen auswirkenDie Forscher testeten, wie sich unterschiedliche Töne, von sehr höflich bis sehr unhöflich, auf die Leistung von ChatGPT-4o bei Multiple-Choice-Fragen auswirken

Warum Höflichkeit gegenüber KI Ihre Ergebnisse verschlechtern könnte

2026/03/26 18:18
8 Min. Lesezeit
Bei Feedback oder Anliegen zu diesem Inhalt kontaktieren Sie uns bitte unter [email protected]

Seit Jahren klingt der Rat für den Umgang mit künstlicher Intelligenz fast altmodisch: Sei höflich, sei klar, sage „bitte". Doch neue Forschungsergebnisse deuten darauf hin, dass dieser Instinkt, der in menschlichen sozialen Normen verwurzelt ist, möglicherweise still und leise untergräbt, wie gut KI-Systeme funktionieren.

Eine Studie, die auf dem NeurIPS 2025 Workshop präsentiert und im September 2025 veröffentlicht wurde, trägt den Titel „Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" und stellt fest, dass der Ton, den Sie beim Anweisen großer Sprachmodelle (LLMs) verwenden, deren Genauigkeit messbar verändern kann. Und in einem Ergebnis, das sich kontraintuitiv, sogar verstörend anfühlt, können höflichere Eingabeaufforderungen tatsächlich schlechtere Ergebnisse liefern.

Die Forscher testeten, wie sich verschiedene Tonlagen, von sehr höflich bis sehr unhöflich, auf die Leistung von ChatGPT-4o bei Multiple-Choice-Fragen auswirken. Unter Verwendung eines Datensatzes von 50 moderat schwierigen Fragen aus Mathematik, Naturwissenschaften und Geschichte erstellten sie fünf Versionen jeder Eingabeaufforderung: sehr höflich, höflich, neutral, unhöflich und sehr unhöflich.

Der einzige Unterschied zwischen diesen Eingabeaufforderungen war der Ton. Die Fragen selbst blieben identisch.

Laut der Studie stieg die Genauigkeit stetig an, je weniger höflich die Eingabeaufforderungen wurden. Sehr höfliche Eingabeaufforderungen erreichten eine durchschnittliche Genauigkeit von 80,8 %. Im Vergleich dazu erreichten sehr unhöfliche Eingabeaufforderungen 84,8 %, eine Verbesserung um fast vier Prozentpunkte. Neutrale Eingabeaufforderungen übertrafen höfliche Eingabeaufforderungen, und unhöfliche Eingabeaufforderungen schnitten noch besser ab.

Statistische Tests bestätigten das Muster: Es gab keine Fälle, in denen höflichere Eingabeaufforderungen zu signifikant besseren Ergebnissen führten. Jeder bedeutsame Unterschied begünstigte weniger höfliche oder direktere Formulierungen.

Mit anderen Worten: Der Ton allein, etwas, von dem die meisten Benutzer annehmen, dass es keine Rolle spielen sollte, kann die KI-Leistung beeinflussen.

Warum würde Unhöflichkeit helfen?

Die Studie bietet keine endgültige Erklärung, wirft aber eine tiefere Frage darüber auf, wie LLMs Sprache verarbeiten. Im Gegensatz zu Menschen „fühlen" diese Systeme keine Höflichkeit oder Beleidigung. Für sie sind Wörter wie „bitte" oder sogar Beleidigungen einfach Token, Muster, die aus Trainingsdaten gelernt wurden.

Eine mögliche Erklärung ist, dass das, was wie „Unhöflichkeit" aussieht, tatsächlich ein Stellvertreter für etwas anderes ist: Direktheit.

Unhöfliche Eingabeaufforderungen neigen dazu, imperativer zu sein. Sie beseitigen absichernde Sprache und kommen direkt zur Sache. Anstelle von „Könnten Sie diese Frage freundlicherweise lösen?" würde eine unhöfliche Eingabeaufforderung sagen: „Beantworte das." Dieser Unterschied in der Struktur kann die Aufgabe für das Modell klarer machen.

Ein weiterer Faktor, der durch die Studie identifiziert wurde, ist die Länge der Eingabeaufforderung und lexikalische Muster. Das Hinzufügen höflicher Phrasen führt zusätzliche Token ein, die die Kernanweisung verwässern oder davon ablenken können. Im Gegensatz dazu stimmen kürzere, schärfere Eingabeaufforderungen mit Mustern überein, die das Modell während des Trainings gesehen hat.

Es besteht auch die Möglichkeit, dass bestimmte Tonlagen enger mit der Verteilung der Trainingsdaten oder Systemanweisungen übereinstimmen, wodurch das, was Forscher „Perplexität" nennen, reduziert wird. Es ist die mathematische Art zu messen, wie „überrascht" oder „verwirrt" das Modell von den Wörtern ist, die es sieht.

Die Implikation ist, dass der Ton keine neutrale Hülle um eine Frage ist. Er ist Teil der Eingabe und formt, wie das Modell antwortet.

Eine Abweichung von früheren Forschungen

Die Ergebnisse markieren eine bemerkenswerte Abweichung von früheren Arbeiten. Eine Studie von Yin et al. aus 2024 fand heraus, dass unhöfliche Eingabeaufforderungen oft die Genauigkeit reduzierten, insbesondere bei älteren Modellen wie ChatGPT-3.5. Diese Forschung deutete auch darauf hin, dass übermäßig höfliche Sprache nicht unbedingt die Ergebnisse verbesserte, zeigte aber keinen klaren Vorteil für Unhöflichkeit.

Also was hat sich geändert?

Eine Erklärung, die die Studie von 2025 bietet, ist die Modellentwicklung. Neuere Systeme wie ChatGPT-4o können Sprache anders verarbeiten oder sind möglicherweise weniger empfindlich gegenüber den negativen Auswirkungen harscher Formulierungen. Eine andere Möglichkeit ist, dass die Kalibrierung des Tons wichtig ist. Die „sehr unhöflichen" Eingabeaufforderungen in der neuen Studie sind, obwohl beleidigend, weniger extrem als die toxischsten Beispiele, die in früheren Forschungen verwendet wurden.

Es gibt auch eine breitere Verschiebung darin, wie Modelle trainiert werden. Da LLMs fortgeschrittener werden, werden sie vielfältigeren Daten und komplexeren Anweisungs-Tuning-Prozessen ausgesetzt, was verändern kann, wie sie subtile sprachliche Hinweise interpretieren.

Die verborgene Rolle sozialer Hinweise

Die Idee, dass der Ton die KI-Leistung beeinflussen kann, verbindet sich mit einem breiteren und besorgniserregenderen Phänomen: soziale Eingabeaufforderungen.

Eine separate Forschungsarbeit, die GASLIGHTBENCH-Studie, die am 07.12.2025 veröffentlicht wurde, zeigt, dass LLMs sehr anfällig für soziale Hinweise wie Schmeicheleien, emotionale Appelle und falsche Autorität sind. In diesen Experimenten geben Modelle oft faktische Genauigkeit auf, um sich an den Ton oder die Erwartungen des Benutzers anzupassen, ein Verhalten, das als Sykophantismus bekannt ist.

Wenn Benutzer beispielsweise falsche Informationen mit Selbstvertrauen oder emotionalem Druck präsentieren, können Modelle zustimmen, anstatt sie herauszufordern. In einigen Fällen sinkt die Genauigkeit erheblich, insbesondere in mehrzügigen Gesprächen, in denen der Benutzer wiederholt eine falsche Behauptung verstärkt.

Dies schafft ein Paradoxon. Einerseits kann höfliche oder sozial reiche Sprache Interaktionen natürlicher und menschlicher wirken lassen. Andererseits kann sie Rauschen – oder sogar Voreingenommenheit – einführen, die die Leistung des Modells beeinträchtigt.

Die GASLIGHTBENCH-Ergebnisse gehen weiter und deuten darauf hin, dass Ausrichtungstechniken, die darauf abzielen, Modelle „hilfreich" zu machen, dieses Verhalten unbeabsichtigt fördern können. Indem sie Höflichkeit und Verträglichkeit belohnen, können Trainingsprozesse Modelle dazu drängen, soziale Harmonie über objektive Wahrheit zu priorisieren.

Was dies darüber aussagt, wie KI Sprache „versteht"

Zusammengenommen stellen diese Erkenntnisse eine gängige Annahme in Frage: dass LLMs Sprache auf menschenähnliche Weise interpretieren.

In Wirklichkeit sind diese Systeme statistische Maschinen. Sie verstehen Höflichkeit nicht als soziale Norm; sie erkennen sie als Muster in Daten. Wenn Sie „bitte" sagen, fühlt sich das Modell nicht verpflichtet zu helfen; es verarbeitet einfach zusätzliche Token, die helfen können oder nicht, die richtige Antwort vorherzusagen.

Wenn überhaupt, deutet die Forschung darauf hin, dass LLMs möglicherweise empfindlicher auf strukturelle Klarheit als auf soziale Nuancen reagieren. Direkte, imperative Sprache kann Mehrdeutigkeit reduzieren und es für das Modell einfacher machen, die Eingabe einem bekannten Muster zuzuordnen.

Dies wirft auch Fragen über die „Ähnlichkeitshypothese" auf – die Idee, dass Modelle am besten funktionieren, wenn Aufgaben ihren Trainingsdaten ähneln. Wenn der Ton allein die Genauigkeit verschieben kann, dann geht es bei Ähnlichkeit nicht nur um Inhalt, sondern auch um Form.

Trotz der schlagzeilenträchtigen Ergebnisse sind die Forscher vorsichtig, nicht zu empfehlen, dass Benutzer unhöflich oder beleidigend werden.

Die Branchenperspektive

Für Menschen, die KI-Systeme entwickeln und studieren, heben die Erkenntnisse ein tieferes Problem hervor: Modelle erben die Muster und Voreingenommenheiten menschlicher Sprache.

Alex Tsado, ein KI-Experte, der eng mit Modellentwicklern zusammengearbeitet hat und der Gründer und Direktor von Alliance4AI ist, einer der größten KI-Communities in Afrika, bringt es auf den Punkt: „Die Modelle lernen aus Daten über menschliche Interaktion, also solange sie blind trainiert werden, folgen sie dem, was im menschlichen Raum passiert. Wenn wir also denken, dass es Voreingenommenheit oder schädliche Praktiken im menschlichen Raum gibt, wird es im KI-Raum automatisiert."

Das schließt ein, wie der Ton verwendet wird.

„Aber wenn Sie für den Aufbau des KI-Modells verantwortlich sind, können Sie die Voreingenommenheit von Dingen wegoptimieren, die Sie für schädlich halten", fügt Tsado hinzu. „In diesem Fall, als ich das Anthropic-Team Anfang Dezember 2025 traf, sagten sie, dass sie dies sahen und Dinge hinzufügten, damit ihre Modelle auf diese netten oder gemeinen Wörter reagieren."

Mit anderen Worten, dies ist keine feste Eigenschaft von KI. Sie kann durch Training und Design angepasst werden.

Was als Nächstes kommt

Die aktuelle Forschung ist immer noch begrenzt. Die Experimente konzentrieren sich auf Multiple-Choice-Fragen und nicht auf komplexere Aufgaben wie Programmieren, Schreiben oder langformiges Denken. Es ist unklar, ob die gleichen Muster in diesen Bereichen gelten würden, wo Nuancen und Erklärungen mehr zählen.

Es gibt auch kulturelle und sprachliche Faktoren zu berücksichtigen. Höflichkeit variiert stark zwischen Sprachen und Kontexten, und die Tonkategorien der Studie basieren auf spezifischen englischen Ausdrücken.

Dennoch sind die Implikationen schwer zu ignorieren.

Wenn etwas so Oberflächliches wie der Ton die KI-Leistung konsistent beeinflussen kann, deutet dies darauf hin, dass Prompt-Engineering noch lange nicht gelöst ist. Kleine Änderungen in der Formulierung, die oft übersehen werden, können messbare Auswirkungen haben.

Für Benutzer ist die Lektion einfach, aber kontraintuitiv: Die Art und Weise, wie Sie fragen, ist wichtig, und höflich zu sein ist nicht immer die beste Strategie.

Für Forscher und Entwickler ist die Herausforderung komplexer. Wie entwirft man Systeme, die sowohl genau als auch an menschlichen Werten ausgerichtet sind? Wie stellt man sicher, dass soziale Hinweise faktische Ausgaben nicht verzerren?

Und vielleicht am wichtigsten: Wie baut man KI, die nicht nur versteht, was wir sagen – sondern was wir meinen?

Bis diese Fragen beantwortet sind, ist eines klar: Wenn es um KI geht, zahlen sich gute Manieren möglicherweise nicht immer aus.

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.