Új Sora-riválist indít a Kuaishou
Új Sora-riválist indított a kínai technológiai óriás, a Kuaishou, amely egy rendkívül ígéretes text-to-video AI modellt, a KLING-et mutatta be a nagyközönségnek. A fejlesztés azért bír kiemelt jelentőséggel, mert a modell képességei alapján közvetlen kihívója lehet az OpenAI által beharangozott, de a szélesebb nyilvánosság számára még el nem érhető Sora modellnek. A KLING legfőbb technikai erőssége az, hogy képes akár kétperces, 1080p felbontású videók generálására, amivel túlszárnyalja az OpenAI által eddig prezentált, egyperces videókat, ráadásul az elkészült alkotások minősége is figyelemre méltó valósághűséggel bír.
A KLING kiemelkedő teljesítménye egy speciális, úgynevezett 3D tér-idő figyelem, azaz space-time attention rendszer alkalmazásának köszönhető. Ez a technikai háttér teszi lehetővé a modell számára a komplex mozgások és a valósághű fizikai interakciók pontosabb szimulálását, ami a generált videók hitelességének alapja. A nyilvánosságra hozott demók széles skálán mozognak: a hétköznapi, reális jelenetektől, mint például egy tésztát evő férfi vagy részletgazdag tájképek, egészen a kreativitást igénylő, szürreális klipekig, mint a ruhákba öltöztetett állatok. A modell jelenleg már kipróbálható a kínai felhasználók számára egy nyilvános demó keretében, amely a KWAI iOS alkalmazáson keresztül érhető el.
A technológiai szektor és a felhasználók számára ez a bejelentés azért is különösen érdekes, mert jól szemlélteti az AI videogenerálás elképesztő fejlődési ütemét. Ha összevetjük a mostani KLING-produkciókat az alig egy évvel ezelőtti, sokszor még nehézkesen értelmezhető vagy éppen komikus AI-videókkal, mint amilyen a hírhedt, Will Smith spagettievős videó volt, nyilvánvalóvá válik a technológiai ugrás mértéke. Miközben a világ továbbra is a Sora nyilvános megjelenésére vár, a KLING megjelenése azt jelzi, hogy a piac nem várja passzívan a vezető szereplőket. Az AI videós paletta látványos fellángolás előtt áll, és a verseny fokozódása a továbbiakban csak felgyorsíthatja az innovációt, ami végül a felhasználók számára elérhető minőség javulását eredményezi majd.
- A KLING 1080p felbontású videókat képes készíteni legfeljebb 2 perc hosszúságban, ezzel felülmúlva az OpenAI által bemutatott 1 perces Sora videókat.
- A KLING demói között reális jelenetek is szerepelnek, mint például egy tésztát evő férfi és tájképek, valamint szürreális klipek is, például ruhába öltözött állatok.
- A modell egy 3D tér-idő figyelem (space-time attention) rendszert használ a komplex mozgások és fizikai interakciók szimulálására, amelyek jobban utánozzák a valóságot.
- A modell jelenleg a kínai felhasználók számára érhető el nyilvános demóként a KWAI iOS alkalmazásban.
Ezek a generációk még inkább elképesztőek, ha belegondolunk, hogy Will Smith spagettievő borzalma alig egy éve történt. Miközben a felhasználók még mindig izgatottan várják a Sora nyilvános megjelenését, amíg más versenytársak lépnek be a piacra – és az AI videós paletta úgy tűnik, komoly fellángolás előtt áll. ---