A SwiLTra-Bench értékeli az LLM-ek teljesítményét a svájci többnyelvű jogi fordításokban
Az ETH Zürich, a Harvey és több svájci jogi intézmény kutatói kifejlesztették a SwiLTra-Bench-et, egy átfogó benchmarkot az AI-teljesítmény értékelésére Svájc egyedi jogi kontextusában. Az adatkészlet több mint 180 000 összehangolt svájci jogi fordítási párból áll, amelyek német, francia, olasz és alkalmanként romans nyelveket, valamint angolt fednek le. A benchmark teljes jogi dokumentumokat, egyes cikkelyeket, a Legfelsőbb Bíróság mérföldkőnek számító döntéseinek fejrovat-fordításait és sajtóközleményeket tartalmaz. Az eredmények azt mutatják, hogy a zárt forráskódú modellek általában felülmúlják a nyíltakat, a Claude 3.5 Sonnet és az o1 bizonyult a legjobbnak a törvények és fejrovatok fordításában.
- Az adatkészlet teljes svájci jogi dokumentumokat, egyedi cikkelyeket és bekezdéseket tartalmaz.
- Tartalmazza a svájci Legfelsőbb Bíróság mérföldkőnek számító döntéseinek fejrovat-fordításait is.
- Sajtóközlemény-fordításokat tartalmaz több hivatalos svájci nyelven.
- A Claude 3.5 Sonnet bizonyult az összesített legjobb modellnek a törvények és fejrovatok fordításánál.
- Az olyan nyílt modellek, mint a Qwen2.5-32B, versenyképes teljesítményt mutatnak finomhangolás után.
Miért fontos?
A SwiLTra az AI elterjedésének egyik jele: az ilyen adatkészletek rávilágítanak arra, hogyan használják az AI-t világszerte egyre szélesebb körű feladatokra. A SwiLTra létezése burkoltan egy „keresleti jelzés” a generatív modellek svájci jogi munkafolyamatokban való alkalmazása felé. ---