GÉPI TANULÁSI KUTATÁS
A Grok Imagine 1.0 drasztikusan csökkenti a kiváló minőségű videógenerálás költségeit
Az xAI elindított egy videógenerátort, amely egy független minőségi rangsor élére került, miközben a versenytársak árának töredékébe kerül. A Grok Imagine 1.0 szöveget, képeket és/vagy videót fogad el bemenetként, és olyan videóklipeket készít, amelyek párbeszédet, hangeffekteket és zenét is tartalmazhatnak. Teljesítmény: A Grok Imagine 1.0 az Artificial Analysis Video Arena élén debütált, amely egy vakteszt alapú, emberi nézők által zsűrizett összehasonlítás. Lassabb, mint néhány versenytársa, de általában kevésbé drága. (Közzététel: Andrew Ng személyes befektetéssel rendelkezik az Artificial Analysis-ben.) Ellentétben a Google, az OpenAI és a Runway videógenerátoraival, amelyek önálló termékként és/vagy API-n keresztül érhetők el, a Grok Imagine 1.0 az X közösségi hálózatba van integrálva. Ez lehetővé teszi az X felhasználók számára, hogy közvetlenül az X-en generáljanak és osszanak meg videókat, ami vitákat is váltott ki. 2025 végén az X felhasználók kihasználták a Grok-ot, hogy valós személyekről – köztük gyermekekről – készítsenek beleegyezés nélküli szexualizált képeket, ami több országban vizsgálatokhoz és tiltásokhoz vezetett. A jelenség azután is fennmaradt, hogy az xAI ígéretet tett a megoldására a Reuters jelentése szerint. Véleményünk: A képgenerálás nagyjából két év alatt vált újdonságból alapvető elvárássá. A videógenerálás hasonló utat jár be. A Grok Imagine 1.0 és a mostanra leállított OpenAI Sora 2 Pro közötti hétszeres árkülönbség azt sugallja, hogy az áraknak még bőven van hova csökkenniük.
- Input/output: Támogatja a szöveges, képi vagy videós bemenetet; hanggal ellátott videót készít akár 10 másodperc (chat) vagy 15 másodperc (API) hosszúságban, 720p felbontásban.
- Teljesítmény: Induláskor az Artificial Analysis Video Arena élén végzett mind a text-to-video, mind az image-to-video kategóriában.
- Képességek: Támogatja a videómódosítást szöveges utasításokkal, a kameramozgást (pan, tilt, zoom), az objektumcserét és a stílusátvitelt (style transfer).
- Elérhetőség/Ár: Elérhető a Grok webes és mobilalkalmazásain keresztül (ingyenes az X Basic/Premium felhasználóknak); az API ára 4,20 dollár per perc kimeneti videó.
- Ranglisták: Első helyen áll az image-to-video kategóriában az LM Arena-n (1400 Elo), megelőzve a Google Veo 3.1-et.
- Latencia: Az átlagos generálási idő 110,1 másodperc, ami lassabb, mint a Vidu Q2, de gyorsabb, mint az OpenAI Sora 2 Pro.
- Technológiai transzparencia: Az xAI nem hozott nyilvánosságra információkat a modell mögöttes technológiájáról vagy a tanítási adatokról.
Miért fontos?
Egy olyan videó generálása, amely pontosan megfelel az elképzeléseinknek, általában sok iterációt igényel a promptok finomításával, újragenerálással és az eredmények összehasonlításával. Az xAI szerint a korai partnerek azt jelezték, hogy a minőség önmagában nem hasznos, ha a latencia és a költségek miatt az iteráció fenntarthatatlan. A harmadik fél által végzett benchmarkok azt mutatják, hogy a Grok Imagine 1.0 minőségben eléri vagy meghaladja a vezető modelleket, miközben alacsonyabb költséggel működik, mint a prémium versenytársak – ez a kombináció jelentősen csökkenti a kísérletezés költségeit. ---