Prompt tip

Vektoros beágyazások használata a konzisztens osztályozáshoz az LLM címkézésben

2025. október 21. · MI Történik? · 1 perc olvasás

A nagy nyelvi modellek gyakran küzdenek a következetességgel, és némileg eltérő címkéket adnak ugyanarra a bemeneti típusra. Verdi, a Verdi’s Worldview-tól, megoldást talált erre vektoros beágyazások használatával a hasonló címkék csoportosítására. Egy 10 000 tweeten végzett valós teszt során ez a módszer 80%-kal csökkentette a címkék számát (6520-ról 1381-re), miközben tízszer olcsóbbá vált nagy léptékben. Úgy működik, mint az automatikus kiegészítés az LLM címkékhez; amint egy kanonikus címke, például a „joke_about_rust_programmers” létrejön, minden hasonló jövőbeli címke automatikusan ehhez lesz rendelve egy hasonlósági küszöb alapján.

Generáljon egy címkét az LLM segítségével egy adott adathoz.
Ágyazza be azt a címkét a vektortérbe egy beágyazási modell, például a voyage-3.5-lite segítségével.
Keressen hasonló címkéket a már meglévő kanonikus címkék adatbázisában.
Alkalmazzon egy hasonlósági küszöböt (Verdi 0,80-at használ) annak eldöntésére, hogy a meglévő címkét használja-e, vagy újat hozzon létre.

Miért fontos?

A módszer eleinte 15%-kal drágább, de az 500. tweetnél már olcsóbbá válik, a 10 000. tweetnél pedig 94%-os gyorsítótár-találati arányt ér el. Ez sorsfordító a nagyszabású osztályozási projekteknél, ahol a következetesség és a költséghatékonyság kritikus fontosságú. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Kutatók rájöttek, hogy a promptok megismétlése javítja az LLM-ek teljesítményét

2026. február 20.

A GrepAI eszköz 97 százalékkal csökkenti a Claude Code tokenhasználatát

2026. január 22.

A kutatók nulla hibaarányt értek el feladatfelbontással

2025. november 21.

Tudj meg többet

NotebookLM használata: Így alakítsd át a jegyzeteidet okos asszisztenssé

ChatGPT használata a munkában: Gyakorlati útmutató irodai dolgozóknak