Apple hat kompakte KI‑Modelle trainiert, die Bilder besser beschreiben als ihre größeren Konkurrenten.

Apple hat kompakte KI‑Modelle trainiert, die Bilder besser beschreiben als ihre größeren Konkurrenten.

23 software

Apple enthüllt neue Technologie „RubiCap“ zur Bildbeschreibung

Wissenschaftler von Apple haben eine Methode namens *RubiCap* entwickelt, die es kleinen KI-Modellen ermöglicht, genauere und detailliertere Beschreibungen von Bildern zu generieren als ihre groß angelegten Gegenstücke.

Wie RubiCap funktioniert
1. Analyse des Bildes

Um einen ausführlichen Text zu erzeugen, erkennt das Modell zunächst zahlreiche Objekte und Bereiche im Bild. Das liefert ein tiefes Verständnis der Komposition statt einer oberflächlichen Beschreibung.

2. Praktischer Nutzen

Diese Fähigkeiten eignen sich zum Trainieren von Tochter-KI-Modellen, Text-zu-Bild‑Generatoren und spezialisierten Funktionen (z. B. zur Verbesserung visueller Inhalte).

3. Ressourcenproblem

Traditionelle Ansätze für das Training detaillierter Beschreibungen erfordern große Rechenressourcen sowohl in der Anfangsphase als auch bei anschließendem Reinforcement-Learning.

Experimentelle Methodik
- Bildauswahl – zufällig 50 000 Bilder aus den Sammlungen *PixMoCap* und *DenseFusion‑4V‑100K* ausgewählt.

- Beschreibungsgenerierung – bestehende Computer-Vision‑Modelle wurden verwendet: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT und Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct sowie die noch trainierenden Apple‑Modelle.

- Qualitätsbewertung – Gemini 2.5 Pro fungierte als Experte: es analysierte die Beschreibungen, identifizierte Übereinstimmungen und Fehler und formulierte klare Bewertungskriterien.

- Jury-Bewertung – das Modell Qwen 2.5‑7B‑Instruct vergab Punkte für jedes Kriterium und generierte ein Belohnungssignal für das zu trainierende Modell.

Ergebnisse
- Das zu trainierende Modell erhielt konkretes Feedback, was eine schnelle Verbesserung der Beschreibungsgenauigkeit ermöglichte, ohne sich auf eine einzige „richtige“ Antwort verlassen zu müssen.

- Letztlich entwickelte Apple drei eigene Modelle: RubiCap‑2B, RubiCap‑3B und RubiCap‑7B (jeweils 2, 3 bzw. 7 Milliarden Parameter).

- In Bildbeschreibungsprüfungen übertraf RubiCap die Konkurrenz mit Modellen von 32 Mrd. und sogar 72 Mrd. Parametern. In einigen Fällen erzielte RubiCap‑3B bessere Ergebnisse als RubiCap‑7B, was bestätigt, dass die Modellgröße nicht immer die Leistung garantiert.

Damit demonstriert die RubiCap-Technologie, wie man mit geringeren Ressourcen und effizienterem Training eine hohe Bildbeschreibungsqualität erreichen kann.

Kommentare (0)

Teile deine Meinung — bitte bleib höflich und beim Thema.

Noch keine Kommentare. Hinterlasse einen Kommentar und teile deine Meinung!

Um einen Kommentar zu hinterlassen, melde dich bitte an.

Zum Kommentieren anmelden