A ChatGPT-4v erőteljes multimodális eszközként jelenik meg a vizuális munkafolyamatokhoz

2023. november 17. · MI Történik? · 1 perc olvasás

Hölgyeim és uraim, épp most fejeztük be a „Hot Ones” kihívást, és egy tűzforró véleményt hoztunk el nektek. A ChatGPT Vision funkciója jelenleg a leglenyűgözőbb AI alkalmazás, mégis alig beszél róla valaki. A ChatGPT-4 új képességéről van szó, amellyel „látja” és „értelmezi” a képeket. Messze a legjobb dolog, amit a héten láttunk, az volt, ahogy Sir David Frederick Attenborough (a Bolygónk, a Föld narrátora) narrálja egy fickó életét – mindezt a GPT-4v és az Eleven Labs erejével. A The Neuron verziója valahogy így hangozna: a vibráló monitorok éber tekintete alatt, csupán az eszükkel és fáradhatatlan kíváncsiságukkal felvértezve, szellemi szafarira indulnak, felfedezve a mesterséges intelligencia hatalmas szavannáit, hírlevélről hírlevélre.

Bármilyen vizuális tartalom megértése: A felhasználók fotókat készíthetnek bonyolult Excel-táblázatokról, kódrészletekről vagy pénzügyi jelentésekről, hogy magyarázatot kapjanak.
Visszajelzés kérése: Az eszköz képes kritikát és véleményt mondani prezentációkról, UX-elrendezésekről vagy adatvizualizációkról.
Termékvizualizációk újraalkotása: A felhasználók képernyőképeket töltenek fel a kód kinyeréséhez és a meglévő dizájnok lemásolásához.
Vázlatból dizájn: Az olyan eszközökkel való integráció, mint a tldraw, lehetővé teszi az egyszerű vázlatok működő tervekké alakítását.

Miért fontos?

A ChatGPT-4v forradalmi változást hoz a vizuális tartalmak megértésében és véleményezésében, ami jelentős előrelépést jelent abban, hogyan tudnak a felhasználók nem szöveges adatokkal interakcióba lépni a komplex tervezési és elemzési feladatok automatizálása érdekében.

Eredeti forrás megtekintése (angol) →