KI-Roboter verlieren ihre Effektivität bei langen Gesprächen mit Menschen – eine umfangreiche Studie von Microsoft hat dies bestätigt.

KI-Roboter verlieren ihre Effektivität bei langen Gesprächen mit Menschen – eine umfangreiche Studie von Microsoft hat dies bestätigt.

9 hardware

Microsoft Research und Salesforce untersuchen: Wie große KI‑Modelle in Dialogen den Fokus verlieren

Was wurde untersucht
Welche Modelle 200 000+ mehrstufige Gespräche mit führenden LLMs GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Schlüssel­erkenntnisse
Kennzahl Ergebnis Genauigkeit bei Einzelanfragen 90 % korrekte Antworten (GPT‑4.1, Gemini 2.5 Pro) Genauigkeit in langen Dialogen ~65 % – die Effizienz sinkt um fast ein Drittel Verhalten des Modells Häufig „wiederverwendet“ seine erste falsche Antwort als Grundlage für nachfolgende Replikationen Länge der Antworten Erhöht sich um 20‑300 % bei mehrstufigen Gesprächen, was zu mehr Halluzinationen und Vermutungen führt Zuverlässigkeit Sinkt auf 112 % (Modelle generieren „vorzeitig“ eine Antwort, ohne die Anfrage vollständig zu lesen)

Warum passiert das?
1. Wiederverwendung einer falschen Grundlage

Das Modell hält an seinem ersten Ergebnis fest und baut darauf nachfolgende Antworten auf, auch wenn es falsch ist.

2. Kontextaufblähung

Bei jeder neuen Frage wird mehr Text hinzugefügt – dies erhöht die Anzahl der „erfundenen“ Fakten, die das Modell als Tatsache akzeptiert.

3. Problem mit Denk‑Tokens

Selbst Modelle mit zusätzlichen “Tokens” (o3, DeepSeek R1) konnten diese Falle nicht überwinden – sie generieren immer noch zu früh und ohne ausreichende Analyse Antworten.

Was bedeutet das für Nutzer?
- Geringe Zuverlässigkeit in realen Gesprächen

KI kann den Fokus verlieren und über nicht existierende Dinge sprechen.

- Risiko falscher Informationen

Der Verzicht auf traditionelle Suchmaschinen zugunsten von generativen Werkzeugen (z. B. Google‑KI‑Reviews) erhöht die Wahrscheinlichkeit, unzuverlässige Daten zu erhalten.

- Wichtigkeit qualitativ hochwertiger Prompts

Microsoft hat zuvor den niedrigen Ingenieurstandard bei der Erstellung von Anfragen bemerkt. Mangelhafte Fragen und „schlechte“ Prompts können dazu führen, dass KI ihr Potenzial nicht entfaltet.

Fazit
Die Technologie großer Sprachmodelle befindet sich noch in der Entwicklungsphase. Obwohl sie bei Einzelanfragen hohe Genauigkeit zeigen, bleibt ihre Zuverlässigkeit in mehrstufigen Dialogen ein Problem. Für einen sicheren und effektiven Einsatz von KI ist es wichtig:

1. Klare, konkrete Fragen zu formulieren.
2. Bereit zu sein, die Antworten des Modells zu korrigieren.
3. Nicht vollständig auf generativen Inhalt ohne Faktenprüfung zu vertrauen.

Letztlich ist die Verbesserung der Modelle und ihre Widerstandsfähigkeit in langen Gesprächen entscheidend dafür, dass KI ein zuverlässiger Partner für Nutzer wird.

Kommentare (0)

Teile deine Meinung — bitte bleib höflich und beim Thema.

Noch keine Kommentare. Hinterlasse einen Kommentar und teile deine Meinung!

Um einen Kommentar zu hinterlassen, melde dich bitte an.

Zum Kommentieren anmelden