KI-Roboter verlieren ihre Effektivität bei langen Gesprächen mit Menschen – eine umfangreiche Studie von Microsoft hat dies bestätigt.
Microsoft Research und Salesforce untersuchen: Wie große KI‑Modelle in Dialogen den Fokus verlieren
Was wurde untersucht
Welche Modelle 200 000+ mehrstufige Gespräche mit führenden LLMs GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4
Schlüsselerkenntnisse
Kennzahl Ergebnis Genauigkeit bei Einzelanfragen 90 % korrekte Antworten (GPT‑4.1, Gemini 2.5 Pro) Genauigkeit in langen Dialogen ~65 % – die Effizienz sinkt um fast ein Drittel Verhalten des Modells Häufig „wiederverwendet“ seine erste falsche Antwort als Grundlage für nachfolgende Replikationen Länge der Antworten Erhöht sich um 20‑300 % bei mehrstufigen Gesprächen, was zu mehr Halluzinationen und Vermutungen führt Zuverlässigkeit Sinkt auf 112 % (Modelle generieren „vorzeitig“ eine Antwort, ohne die Anfrage vollständig zu lesen)
Warum passiert das?
1. Wiederverwendung einer falschen Grundlage
Das Modell hält an seinem ersten Ergebnis fest und baut darauf nachfolgende Antworten auf, auch wenn es falsch ist.
2. Kontextaufblähung
Bei jeder neuen Frage wird mehr Text hinzugefügt – dies erhöht die Anzahl der „erfundenen“ Fakten, die das Modell als Tatsache akzeptiert.
3. Problem mit Denk‑Tokens
Selbst Modelle mit zusätzlichen “Tokens” (o3, DeepSeek R1) konnten diese Falle nicht überwinden – sie generieren immer noch zu früh und ohne ausreichende Analyse Antworten.
Was bedeutet das für Nutzer?
- Geringe Zuverlässigkeit in realen Gesprächen
KI kann den Fokus verlieren und über nicht existierende Dinge sprechen.
- Risiko falscher Informationen
Der Verzicht auf traditionelle Suchmaschinen zugunsten von generativen Werkzeugen (z. B. Google‑KI‑Reviews) erhöht die Wahrscheinlichkeit, unzuverlässige Daten zu erhalten.
- Wichtigkeit qualitativ hochwertiger Prompts
Microsoft hat zuvor den niedrigen Ingenieurstandard bei der Erstellung von Anfragen bemerkt. Mangelhafte Fragen und „schlechte“ Prompts können dazu führen, dass KI ihr Potenzial nicht entfaltet.
Fazit
Die Technologie großer Sprachmodelle befindet sich noch in der Entwicklungsphase. Obwohl sie bei Einzelanfragen hohe Genauigkeit zeigen, bleibt ihre Zuverlässigkeit in mehrstufigen Dialogen ein Problem. Für einen sicheren und effektiven Einsatz von KI ist es wichtig:
1. Klare, konkrete Fragen zu formulieren.
2. Bereit zu sein, die Antworten des Modells zu korrigieren.
3. Nicht vollständig auf generativen Inhalt ohne Faktenprüfung zu vertrauen.
Letztlich ist die Verbesserung der Modelle und ihre Widerstandsfähigkeit in langen Gesprächen entscheidend dafür, dass KI ein zuverlässiger Partner für Nutzer wird.
Kommentare (0)
Teile deine Meinung — bitte bleib höflich und beim Thema.
Zum Kommentieren anmelden