AI MODELLEK
A Google bemutatta a Gemini 2.5 „computer-use” modelljét böngészőautomatizáláshoz
A Google közzétette első, a Gemini 2.5-ön alapuló „computer-use” (számítógéphasználati) modelljének előzetesét a Browserbase-szel együttműködésben. A benchmark teszteken tisztességesen jobb eredményt ér el, mint a Sonnet 4.5, és sokkal jobbat, mint az OpenAI hasonló modellje. A benchmarkok és értékelések azonban félrevezetők lehetnek, különösen, ha csak a hivatalos bejelentésekre hagyatkozunk. A legfrissebb pontszámok és a tesztek pontos implementációjának felkutatása nehéz, a cégek pedig marketingposztjaikban gyakran kerülik az árnyalt fogalmazást. Mindenesetre az új Gemini modell átment a hatékonyságot vizsgáló kezdeti alapvető teszteken (smoke tests).
- Kifejezetten böngészőhasználatra optimalizálták, nem pedig általános operációs rendszerbeli feladatokra.
- Az OpenAI benchmark tesztekben használt modellje egy 7 hónapos, GPT-4o alapú verzió.
- A termékélmény számít: a ChatGPT Agent továbbra is rendkívül versenyképes az integrált böngésző és terminál felülete miatt.
- A Gemini 2.5 erős teljesítményt mutat a nagyszabású böngésző-ágens értékeléseken.
Miért fontos?
Felhasználóként meg kell értenünk a modellciklusokat és a marketing benchmarkok árnyalatait, hogy megkülönböztessük a technikai áttöréseket a kreatív adatábrázolástól. ---