A méretgazdaságosság hajtja a Big Tech AI modellversenyét
Üdvözöljük az AI Tidbits Deep Dives sorozatában: rövid bejegyzések, amelyek perspektívát kínálnak az AI-val kapcsolatos témákban. Korábbi írásaimban foglalkoztam az AI-szektor konszolidációjával, az autonóm ügynökökkel és a dokumentumkinyeréssel LLM-ek segítségével.
Egy Andrej Karpathy-val készült podcast meghallgatása után elgondolkodtam a méretgazdaságosság koncepcióján az AI rendszerekben, különösen az adatgyűjtés tekintetében. A méretgazdaságosság (economies of scale) a gyártás világából ered, ahol a megnövekedett termelés alacsonyabb egységköltségekhez vezetett. A tech világban ezt a koncepciót a SaaS startupok adaptálták, ahol egy további ügyfél kiszolgálásának marginális költsége a nullához közelített. Kiváló példa erre az Uber, amely platformját kihasználva hatalmas méretet ért el: minél több sofőr csatlakozott, annál több utast vonzott, így egy pozitív visszacsatolási hurkot hozva létre, amely drámai módon csökkentette az utazásonkénti költségeket, miközben javította a szolgáltatás minőségét. Az éhes generatív AI modellek arra ösztönzik a nagy tech cégeket, hogy nagy téttel bíró adatpartnerségeket kössenek, amire példa az OpenAI megállapodása a TIME magazinnal és a Reddittel, valamint a Meta stratégiai szövetsége a Reutersszel a prémium tréning tartalmak biztosítása érdekében. Ez a bejegyzés azt vizsgálja, hogyan érvényesül a méretgazdaságosság az adatok kontextusában az AI és a generatív modellek esetében, három kulcsfontosságú területre összpontosítva: szoftver vs. hardver, humanoid robotok és nagy nyelvi modellek.
A Tesla és a Waymo két eltérő megközelítést képvisel az autonóm vezetési képességek elérésében. A Tesla, Elon Musk vezetésével, azt a víziót követte, hogy a önvezető technológiát a tömegpiac számára is elérhetővé tegye fogyasztói járművein keresztül. Stratégiájuk egy nagy járműflotta telepítésére épül, amelyet kamerákkal és neurális hálózatokkal szereltek fel, amelyek valós vezetési adatokból tanulnak. A Waymo, eredetileg a Google önvezető autós projektje, óvatosabb megközelítést alkalmazott, a robusztus autonóm vezetési rendszer kifejlesztésére összpontosítva, magas kategóriás szenzorok és részletes térképezési technológia segítségével. Bár mindkét vállalat forradalmasítani szeretné a szállítást, ellentétes stratégiájuk alapvető különbségeket mutat abban, hogyan skálázhatók az AI rendszerek. A szoftvervezérelt AI megoldások, mint például a Tesla AI rendszerei, hatékonyabban skálázhatók, mint a hardver alapú rendszerek, mint amilyeneket a Google Waymo-ja telepített. A Waymo Jaguar autókat használva kezdte meg autonóm flottájának telepítését, drága hardverekkel, mint például LiDAR, radar és nagy pontosságú GPS a valós idejű adatok rögzítéséhez és értelmezéséhez. Egy piacra magas kategóriás kínálattal behatolni ismerős stratégia: az Uber az Uber Black-kel kezdett, mielőtt felajánlotta volna a megfizethetőbb opciót, az Uber X-et. A Waymo Jaguar I-PACE-ben használt ötödik generációs rendszere 29 kamerát és 6 radar szenzort tartalmaz. A Tesla kevésbé hardverfüggő, és főként kamerákra támaszkodik, amelyek jelentősen olcsóbbak: egy teljesen telepített Waymo 200 ezer dollárba kerül, szemben a Tesla Model 3 induló árával, ami körülbelül 39 ezer dollár. A szoftvernek van egy elosztási előnye – miután elkészült, milliónyi eszközön, azaz járművön telepíthető és iterálható minimális további költséggel. Ezzel szemben a hardveres megoldásokat korlátozza a fizikai komponensek, mint például szenzorok, processzorok és karbantartás szükségessége, amelyek lassabban skálázódnak és nehezebben replikálhatók. Ebben az esetben a Waymo-t a telepített hardvere korlátozza, mert modelljei szorosan kapcsolódnak az alapul szolgáló szenzoradatokhoz. Továbbá, a Teslával ellentétben, a Waymo adatgyűjtési sebessége az általa nyújtott utazások számának, azaz a kihasználtsági rátának a függvénye. Ezért van értelme az olyan partnerségi megállapodásoknak, mint az Uberrel kötött. Bár sokan a Waymo Uberrel való partnerségét elsősorban kereskedelmi lépésnek tekintik a bevételek növelésére, az igazi stratégiai érték az abban rejlő sokféle adatban van, amelyet az Uber széles körű földrajzi eloszlású sofőrjeitől és utasaitól gyűjt, mind az Egyesült Államokban, mind pedig potenciálisan globálisan. Az Uber partnerség a Waymo számára ugródeszkát jelenthet a szélesebb körű szállítási szolgáltatások felé is. Képzeljük el az együttműködéseket olyan nagy kiskereskedőkkel, mint a Walmart vagy a Target, vagy gyorséttermi óriásokkal, mint a McDonald's – közvetlenül kihívást intézve az Uber és a logisztikai szolgáltatók, mint a UPS ellen az utolsó mérföldes szállítási versenyben, még több adatot generálva az alapul szolgáló önvezető technológia javítására. De a Tesla adatmennyiségét felülmúlni nem egyszerű feladat. A Tesla sofőrjei naponta 137 millió mérföldet vezetnek, olyan adatokat generálva és küldve, amelyek magukban foglalják az emberi felülírásokat, külső kamerák videóit, hely- és útlogokat, és bizonyos esetekben belső kamerák felvételeit – a valós, emberi címkézésű adatok végtelen áramát. Felismerve a részletes adatok értékét, a Tesla rendkívül könnyűvé tette a sofőrök számára a gazdagabb visszajelzések adását azáltal, hogy lehetővé tette számukra a hangbevitel azonnali használatát az autopilot rendszer kikapcsolása után. Nem csak a mennyiségről van szó. A Tesla profitál a sofőrjei által generált adatok sokszínűségéből – különböző vezetési stílusok, változatos terepek és folyamatosan változó időjárási körülmények. Több adat * sokrétűbb adat == gyorsabb iteráció és jobb AI modellek telepítése. Tehát, bár a Waymo objektíven előrébb jár a valós önvezető utazások terén Kaliforniában, Arizonában és Texasban, a Tesla gyorsan felzárkózhatna egy szoftverfrissítéssel a járműflottáján keresztül. A Waymo-nak viszont valószínűleg meg kellene változtatnia a szenzor hardverét, ami skálázási problémákhoz vezetne. Az új hardver és szoftver integrálásával a Waymo várhatóan szélesebb körű időjárási körülményeket fog kezelni, miközben csökkenti a drága kamerák és szenzorok szükségességét.
Egy másik kulcsfontosságú felismerés az, hogy a humanoid robotok hogyan boldogulnak a valós környezetekben. Egykor azt gondoltam, hogy a humanoid robotok elsődleges értéke a rokonszenves, felhasználóbarát designjukban rejlik. Képzeljünk el egy négyzet alakú, kerekes robotot, amely a lakásunkban navigál, szemben egy humanioiddal – világos, miért tűnnek az emberhez hasonló robotok intuitívabbnak és megközelíthetőbbnek. De az emberhez hasonló robotoknak van egy másik jelentős szerepe is – lehetővé teszik az emberek számára, hogy távolról működtessék őket, amit teleoperációnak is neveznek. Például egy gyártási környezetben egy képzett technikus mozgáskövető berendezést viselhet, hogy egy humanoid robotot vezessen komplex összeszerelési feladatokon keresztül, mint például finom elektronikus alkatrészek csatlakoztatása vagy vezetékek átfűzése szűk helyeken. A robot valós időben tükrözi a technikus pontos kézmozdulatait és ujjpozícióit. Ez a megközelítés kulcsfontosságú a magas minőségű, címkézett adatok gyűjtéséhez valós körülmények között. A teleoperációk révén olyan cégek, mint a Figure, sokféle, pontosan címkézett adatot gyűjthetnek, amelyek az emberi döntéshozatalokat tükrözik komplex környezetekben. Az ilyen adatok kritikusak az AI rendszerek képzéséhez, hogy hatékonyan működjenek valós forgatókönyvekben. Ahogy Karpathy megjegyzi a podcastban, jelentős átvitel van az autóipari AI-tól a humanoid robotikához. A Tesla Optimus robotja kezdetben ugyanazt a számítógépet és kamerákat használta, mint a Tesla autók, bemutatva, hogyan adaptálhatók az alapvető AI rendszerek különböző alkalmazásokhoz. A technológia és az adatok közötti keresztbeporzás az autóipar és a humanoid robotika között felgyorsítja a fejlesztést és a skálázást mindkét területen. A Figure 01 robot egy humanoid robot, amelyet az OpenAI működtet.
A nyelvi modellek is profitálnak a skálázásból: az Inference olcsóbbá válik, mivel a szerverkihasználtság skálán jobban előre jelezhető, ami lehetővé teszi a testre szabott hardver- és szoftveroptimalizálást. A szélesebb körű disztribúció több felhasználót jelent, akik aztán több adatot generálnak. Az adatok az elsődleges korlátot jelentik a generatív AI vállalatok számára, ami a skálázást kulcsfontosságúvá teszi a folyamatos fejlesztéshez. A ChatGPT visszajelzési rendszerével való minden felhasználói interakció, a válaszok értékelésétől a két alternatíva közötti választásig, értékes képzési adattá válik. Például, amikor a ChatGPT felhasználók a hüvelykujj lefelé ikonra kattintanak, vagy kiválasztják a preferált generációt két opció közül, ez a visszajelzés egy belső adatbázisban tárolódik. Később felhasználható jövőbeli modellek értékelésére, vagy Reinforcement Learning from Human Feedback (RLHF) alkalmazására, segítve a modell jobb illesztését a ChatGPT felhasználókhoz, vagy ami még jobb, a válaszok személyre szabását az egyéni felhasználói preferenciák és interakciós minták alapján. Elméletileg az OpenAI és más modell szolgáltatók odáig is elmehetnek, hogy a felhasználókat demográfiai adatok, például kor és politikai nézetek szerint csoportosítják, hogy jobban illeszkedjen a ChatGPT válasza. Amikor egy modell jobban illeszkedik a felhasználókhoz, vonzóbbá válik, növelve mind a használatot, mind az adatgenerálást, folyamatosan táplálva a fejlesztési ciklust egy pozitív visszacsatolási hurokban. Az OpenAI elkezdett részletesebb használati visszajelzéseket gyűjteni az új Advance Voice Mode ChatGPT-jéhez, amely arra kéri a felhasználót, hogy válassza ki azt a generációt, amelyet jobbnak talál, később felhasználva arra, hogy „segítsen jobbá tenni a ChatGPT-t”. A Meta AI chatbotjának bevezetése ennek a stratégiának kiváló példája. Az AI asszisztensek széles körben használt platformokba, mint a Facebook és az Instagram, integrálásával a Meta hatalmas mennyiségű valós interakciós adatot gyűjthet. Az ilyen adatok kritikusak modelljei teljesítményének és alkalmazkodóképességének javításához különböző kontextusokban. Egy ilyen stratégia túlmutat a nyelvi modelleken, kiterjed a képekre, videókra és hangokra. Az open-source AI ökoszisztémához való hozzájárulással, a multimodális Llama-val és a legmodernebb képszegmentációs modellel, a Segment Anything 2-vel, a Meta mind a felhasználókat, mind az AI fejlesztőket felhasználja ugyanannak az alapul szolgáló technológiának a fejlesztésére, amely az Instagramot, a WhatsAppot és a közelmúltbeli sikerét, a Meta Ray-Ban-t is működteti.
Az olyan techóriások, mint a Google és a Microsoft már most pozícionálják magukat erre az AI-dominált jövőre, felismerve a méretgazdaságosság kritikus szerepét a holnapi AI tájért folyó versenyükben.
- Az Inference olcsóbbá válik, mivel a szerverkihasználtság skálán jobban előre jelezhető, ami lehetővé teszi a testre szabott hardver- és szoftveroptimalizálást.
- A szélesebb körű disztribúció több felhasználót jelent, akik aztán több adatot generálnak. Az adatok az elsődleges korlátot jelentik a generatív AI vállalatok számára, ami a skálázást kulcsfontosságúvá teszi a folyamatos fejlesztéshez.
- A ChatGPT visszajelzési rendszerével való minden felhasználói interakció, a válaszok értékelésétől a két alternatíva közötti választásig, értékes képzési adattá válik.
- A szoftver skálázhatóságának és a hardver korlátainak egyensúlyozása.
- A valósághoz hasonló adatgyűjtő eszközök (pl. robotok) építése, hogy profitálhassanak a transzfer tanulásból és az egyszerűbb emberi címkézésből.
- A felhasználói disztribúció maximalizálása (a) adatgyűjtés (lásd a Meta fenti példáját) és (b) márkafelismerés céljából.
Miért fontos?
Az autonóm járművektől a humanoid robotokig és az LLM-ekig, mind a szoftver, mind az adatgyűjtés hatékony skálázásának képessége kulcsfontosságú megkülönböztető tényezővé válik. Ahogy az AI tovább fejlődik, azok a vállalatok, amelyek hatékonyan ki tudják használni ezeket a méretgazdaságossági előnyöket, valószínűleg vezető szerepet töltenek majd be az innovációban és a piaci dominanciában. ---