A Black Forest Labs elindította FLUX 1 csomagját a piacvezető képgenerátorok kihívójaként
A Black Forest Labs berobbanása a mesterséges intelligencia világába komoly hullámokat vetett, hiszen az újonnan alakult startup FLUX 1 elnevezésű modellcsaládja azonnal a piacvezető képgenerátorok kihívójává vált. A vállalat olyan technológiai óriásokkal és iparági standardokkal szemben mérettette meg magát, mint a Midjourney 6.0, a DALL-E 3 HD vagy a Stable Diffusion 3-Ultra, és az eddigi eredmények alapján nemcsak tartja a lépést, de több területen is felülmúlja ezeket. Az Elo rangsorolási rendszer adatai alapján a FLUX 1 kiemelkedő teljesítményt nyújt a képi részletgazdagság, a jelenetek összetettségének kezelése, valamint a felhasználói promptok pontos betartása terén. A Black Forest Labs ráadásul arról biztosítja a felhasználókat, hogy modelljeik mindazokat a stílus- és képarány-beállításokat támogatják, amelyeket a modern generatív AI eszközöktől a professzionális felhasználók elvárnak.
A figyelemre méltó szakmai teljesítmény hátterében egy tapasztalt, neves szakemberekből álló csapat áll. A startup alapító mérnökei jelentős részben a Stability AI-tól érkeztek, amely korábban a meghatározó jelentőségű Stable Diffusion fejlesztőjeként vált ismertté. A Stability AI körüli év eleji bizonytalanságok és a korábbi vezérigazgatót, Emad Mostaque-ot ért menedzsmentbeli kritikák után ez a szakembergárda új lendülettel vágott bele a fejlesztésbe. A Black Forest Labs mögött ma már a szilícium-völgyi technológiai szcéna legbefolyásosabb szereplői állnak, köztük Garry Tan, a Y Combinator vezérigazgatója, valamint az Nvidia vezető kutatója, Timo Aila. A startupba vetett bizalmat mi sem bizonyítja jobban, mint az az 31 millió dolláros seed finanszírozási kör, amelyet az Andreessen Horowitz kockázatitőke-társaság vezetett, megalapozva a cég hosszú távú növekedési terveit.
A technológiai innováció kulcsa a vállalat szerint több újszerű, kísérleti oktatási technika kombinációjában rejlik, amelyek révén a FLUX 1 modelljei egyszerre mutatkoznak gyorsabbnak és precízebbnek. A rendszer egyik technikai pillére a Rotary positional embeddings alkalmazása, amely egyedi jellemzők hozzárendelésével segíti a modellt a nagy adatsorok hatékony nyomon követésében. Ezt egészíti ki a Parallel diffusion transformer megoldás, amely lehetővé teszi, hogy a modell a szekvencia több részét egyidejűleg elemezze, jelentősen felgyorsítva ezzel a képgenerálási folyamatot. A Black Forest Labs számára a FLUX 1 csupán az első lépés: terveik között egy élvonalbeli szöveg-videó modell piacra dobása is szerepel. Amennyiben ez a fejlesztés hasonló minőséget képvisel majd, az olyan iparági szereplőknek, mint az OpenAI, a HeyGen vagy a Runway, komoly erőfeszítéseket kell tenniük pozícióik megtartásáért. A FLUX 1 képességei jelenleg a Fal és a Replicate felhőplatformjain keresztül érhetők el a felhasználók számára.
- Rotary positional embeddings technológiát használ, amely egyedi jellemzők hozzárendelésével segíti a modellt a nagy adatsorok nyomon követésében.
- Parallel diffusion transformer megoldást alkalmaz, amely lehetővé teszi a modell számára, hogy a szekvencia több részét egyszerre elemezze, így gyorsítva fel a képgenerálást.
A Black Forest Labs tervei szerint hamarosan egy élvonalbeli szöveg-videó modellel is jelentkezik. Ha ez csak feleannyira lesz jó, mint a FLUX 1, a többi videófókuszú AI cégnek (köztük az OpenAI-nak, a HeyGen-nek és a Runway-nek) fel kell kötnie a nadrágját. Addig is, a FLUX 1 kipróbálható olyan felhőplatformokon, mint a Fal és a Replicate. ---