PROMPT TIP
Vektoros beágyazások használata a konzisztens osztályozáshoz az LLM címkézésben
A nagy nyelvi modellek gyakran küzdenek a következetességgel, és némileg eltérő címkéket adnak ugyanarra a bemeneti típusra. Verdi, a Verdi’s Worldview-tól, megoldást talált erre vektoros beágyazások használatával a hasonló címkék csoportosítására. Egy 10 000 tweeten végzett valós teszt során ez a módszer 80%-kal csökkentette a címkék számát (6520-ról 1381-re), miközben tízszer olcsóbbá vált nagy léptékben. Úgy működik, mint az automatikus kiegészítés az LLM címkékhez; amint egy kanonikus címke, például a „joke_about_rust_programmers” létrejön, minden hasonló jövőbeli címke automatikusan ehhez lesz rendelve egy hasonlósági küszöb alapján.
- Generáljon egy címkét az LLM segítségével egy adott adathoz.
- Ágyazza be azt a címkét a vektortérbe egy beágyazási modell, például a voyage-3.5-lite segítségével.
- Keressen hasonló címkéket a már meglévő kanonikus címkék adatbázisában.
- Alkalmazzon egy hasonlósági küszöböt (Verdi 0,80-at használ) annak eldöntésére, hogy a meglévő címkét használja-e, vagy újat hozzon létre.
Miért fontos?
A módszer eleinte 15%-kal drágább, de az 500. tweetnél már olcsóbbá válik, a 10 000. tweetnél pedig 94%-os gyorsítótár-találati arányt ér el. Ez sorsfordító a nagyszabású osztályozási projekteknél, ahol a következetesség és a költséghatékonyság kritikus fontosságú. ---