Apple entwickelt einen eigenen KI-Assistenten für das iPhone, der Apps im Namen des Nutzers starten kann
Apple entwickelt einen kompakten lokalen KI-Agenten für die Arbeit mit Benutzeroberflächen
Apple arbeitet an einem neuen Algorithmus – Ferret‑UI Lite, der in der Lage ist, Anwendungsoberflächen zu „verstehen“ und im Namen des Benutzers mit ihnen zu interagieren, wobei alles auf dem Gerät selbst geschieht. Das Modell verfügt über 3 Mrd. Parameter und liefert in Tests Ergebnisse, die vergleichbar oder sogar besser sind als große Modelle, die bis zu 24 mal größer sind.
Ursprünge des Projekts
Im Dezember 2023 veröffentlichte ein Team von neun Forschern die Arbeit FERRET: Refer and Ground Anything Anywhere at Any Granularity. Darin wurde ein multimodales Sprachmodell vorgestellt, das auf verschiedenen Datentypen trainiert wird und in der Lage ist, Textbeschreibungen mit konkreten Bildteilen zu verknüpfen.
Seitdem hat Apple die Ferret‑Modellfamilie erweitert:
| Modell | Zweck |
|---|---|
| Ferretv2 | Verbesserte Basisversion |
| Ferret‑UI | Spezialisierter MLLM für mobile Oberflächen |
| Ferret‑UI 2 | Unterstützung mehrerer Plattformen und höherer Auflösung |
Ferret‑UI löst insbesondere ein Problem moderner multimodaler großer Sprachmodelle (MLLM): sie erkennen UI-Elemente schlecht. Das Modell fügt „beliebige Auflösung“ über Ferret hinzu, erhöht die Bilddetails und nutzt verbesserte visuelle Merkmale.
Neue Erfolge
Kürzlich stellte Apple zwei weitere Versionen vor:
1. Ferret‑UI Lite – ein leichtgewichtiges Modell mit 3 Mrd. Parametern, optimiert für lokale Ausführung auf mobilen Geräten.
2. Ferret‑UI 2 – erweiterte Version, die mehrere Plattformen und höhere Auflösung von Screenshots unterstützt.
Der Hauptunterschied zwischen Ferret‑UI Lite und großen serverseitigen Modellen besteht darin, dass es bei deutlich geringeren Rechenanforderungen wettbewerbsfähig bleibt.
Warum das wichtig ist
Die meisten bestehenden GUI-Agenten basieren auf riesigen Grundmodellen, weil ihre starken Fähigkeiten im Argumentieren und Planen herausragende Ergebnisse in der Navigation grafischer Oberflächen ermöglichen. Solche Modelle sind jedoch zu groß, um direkt auf dem Gerät ausgeführt zu werden.
Ferret‑UI Lite löst dieses Problem, indem es kombiniert:
- Mehrere Schlüsselkomponenten und Ideen aus dem Training kleiner LLMs;
- Reale und synthetische Daten aus verschiedenen GUI-Bereichen;
- Techniken des dynamischen Zuschneidens und der Optimierung der Segmentierungsqualität von Oberflächen;
- Kontrollierte Feinabstimmung und Reinforcement‑Learning.
Das Ergebnis ist ein Modell, das praktisch gleichwertig oder sogar besser als größere konkurrierende GUI-Agenten in Aufgaben wie niedrigstufiger Bindung an UI‑Elemente, Verständnis des Bildschirminhalts, mehrstufiges Planen und Selbstanalyse ist.
Kommentare (0)
Teile deine Meinung — bitte bleib höflich und beim Thema.
Zum Kommentieren anmelden