HOGYAN AUTOMATIZÁLJUNK (SZINTE) BÁRMIT AZ AI SEGÍTSÉGÉVEL
A modern autonóm AI ágensek alapvető architektúrája
Rengeteg definíció létezik az ágensekre, de számunkra ez a leglogikusabb: Ágens = nyelvi modell + memória + tervezési készségek + eszközhasználat. Nyelvi modell = egy AI, mint a ChatGPT. Nyelvi tokeneket (az AI nyelvén: számokká alakított szavakat) adunk meg, és nyelvi tokeneket kapunk vissza. Memória = a kontextusablak, vagyis az a képesség, hogy az AI nagy mennyiségű információt tartson meg a figyelmében anélkül, hogy összezavarodna. Tervezési készségek = a „gondolkodó mód”, ami alapvetően annyit tesz, hogy az AI különböző forgatókönyveket futtat végig, amíg rá nem talál a legvalószínűbb megoldásra. Eszközhasználat = funkciók használatának képessége, például egy már megírt kód futtatása egy konkrét feladat elvégzéséhez (pont úgy, ahogy mi, emberek tesszük a számítógép használatakor). Például jelenleg népszerű trend a „böngészőhasználó” ágensek készítése, mint az OpenAI Operator-ja, a kínai Manus, vagy a találó nevű „Browser Use”, amelyek úgy képesek navigálni a világhálón, mint az emberek.
- A nyelvi modellek központi motorként működnek a szöveges tokenek feldolgozásával és generálásával.
- A memóriát a kontextusablak azon képessége határozza meg, hogy zavar nélkül képes-e megőrizni az információkat.
- A tervezés egy „gondolkodó módot” foglal magában, ahol az AI különféle szcenáriókat értékel a legjobb megoldás érdekében.
- Az eszközhasználat lehetővé teszi az ágensek számára, hogy előre megírt funkciókat futtassanak, vagy emberi módon interakcióba lépjenek szoftverekkel.
- A böngésző-ágensek az eszközök egy új osztályát képviselik, amelyek autonóm módon navigálnak az élő weben.
Miért fontos?
Az ágensek összetevőinek megértése segít a felhasználóknak azonosítani, mely eszközök valóban autonómok, és melyek csupán egyszerű automatizált szkriptek. ---