MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

2024. május 23.
A Meta bemutatta a Chameleon multimodális modellt az integrált szöveg- és látásfeldolgozáshoz
A Meta bemutatja a Chameleon-t – egy multimodális modellcsaládot, amely kiemelkedő a képek és szövegek értelmezésében és generálásában, számos feladatban…
2024. május 20.
A National Deep Inference Fabric áthidalja a szakadékot az akadémiai szféra és a vezető AI laborok között
Akadémiai kutatók létrehozták a National Deep Inference Fabric-et (NDIF), egy tudományos infrastruktúrát, amely segíti őket a nagyméretű, nyíltan hozzáférhető…
Javasolt keretrendszer a garantáltan biztonságos AI rendszerekhez formális ellenőrzőkkel
AI kutatók vázoltak fel egy tervet arra vonatkozóan, hogyan lehetne „garantáltan biztonságos” AI rendszereket építeni. A megközelítés lényege olyan rendszerek…
Globális felmérés mutatja meg a földrajzi szakadékot az AI-ba vetett bizalom és a szabályozás támogatottsága terén
A University of Toronto globális felmérése az AI-val kapcsolatos véleményekről azt mutatja, hogy a nyugati világban nagyobb a pesszimizmus az AI-val és annak…
Az MMLU-Pro nehezíti a benchmarkot, hogy lépést tartson a modellek gyors fejlődésével
Az MMLU az egyik legfontosabb benchmark, amellyel a nyelvi modellek fejlettségét mérik – az elmúlt hónapokban azonban olyan vezető modellek jelentek meg,…
2024. május 16.
Az OpenAI leleplezte a GPT-4o multimodális modellt natív hang- és látásfeldolgozással
Az OpenAI bemutatta a GPT-4o-t, egy multimodális modellt, amely szöveget, képet és hangot is feldolgoz. Kétszer gyorsabb és 50%-kal olcsóbb, mint a GPT-4…
Az OpenAI fejleszti a hangasszisztenst és bővíti az ingyenes hozzáférést
Egy új hangasszisztens funkciót mutattak be, amely valós idejű fordításra, arckifejezések olvasására és dinamikus hangadaptációra képes. Az asszisztens…
2024. május 13.
A DeepSeek kiadta a DeepSeek-V2-t, egy gazdaságos Mixture-of-Experts nyelvi modellt
A kínai DeepSeek startup megalkotta és közzétette a DeepSeek-V2-t, egy meglepően erős nyelvi modellt. A DeepSeek-V2 egy nagyméretű modell, amely olyan vezető…
Agent Hospital: Virtuális orvosi létesítmény szimulációja orvos-ágensek képzéséhez
A Tsinghua University kutatói egy kórházat szimuláltak, amelyet LLM-alapú, pácienseket és orvosi személyzetet alakító ágensekkel népesítettek be.…
A Google DeepMind belső nézetű látásmód segítségével tanítja focizni a robotokat
A Google DeepMind kutatói megtanítottak néhány kisméretű robotot focizni belső nézetű (egocentrikus) videók alapján. Ami még lenyűgözőbb, hogy ezt teljesen…
Az IntentObfuscator jailbreak technika elbukik az okosabb és nagyobb AI modellekkel szemben
A Kínai Tudományos Akadémia és a JD Cloud kutatói közzétettek egy nyelvi modell jailbreak technikát, amelyet IntentObfuscatornak neveztek el. Ez a módszer…
2024. május 6.
SOPHON: Kutatók nem-finomhangolható modelleket fejlesztettek a visszaélések megelőzésére
A Zhejiang University és az Ant Group kínai kutatói kifejlesztették a SOPHON-t, egy olyan eljárást, amellyel az AI modellek az illetéktelen finomhangolásnak…
OpenStreetView-5M: Hatalmas, nyílt hozzáférésű adatkészlet globális képi geolokációhoz
Francia kutatók közzétették az OpenStreetView-5M-et, egy átfogó, nyílt hozzáférésű adatkészletet, amelyet AI rendszerek globális vizuális geolokációs…
2024. május 2.
Megérkezett a ChatGPT memória funkciója minden Plus felhasználó számára
Az OpenAI memória funkciókkal ruházta fel a ChatGPT-t – a chatbot mostantól "emlékezni" fog a beszélgetések során megosztott fontos részletekre, például a…
A Microsoft kiadta a kompakt, nyílt AI modellekből álló Phi-3 családot
A Microsoft közzétette a Phi-3 nyílt forráskódú modellcsaládot, amely a nagy teljesítményt és a kompakt architektúrát ötvözi. A kiemelkedő phi-3-mini modell…
Az Apple bemutatta az OpenELM hatékonyságközpontú nyelvi modelleket az iPhone-hoz
Az Apple bemutatta az OpenELM sorozatot, amely olyan nyílt forráskódú nyelvi modellekből áll, amelyeket kifejezetten az iPhone AI-képességeinek javítására…
A Google Med-Gemini rekordot döntött az orvosi diagnózis pontosságában
A Google kifejlesztette a Med-Gemini-t, a Gemini modell speciális, multimodális változatát, amelyet kifejezetten az egészségügyre szabtak. A modell új iparági…
A Stanford AI Index Report 2024 a gazdasági hatásokra és az aggodalmakra világít rá
A Stanford 2024-es AI Index jelentése átfogó elemzést nyújt a mesterséges intelligencia állapotáról. Az eredmények rávilágítanak arra, hogy az AI bizonyos…
A Synthesia elindította a következő generációs expresszív avatarokat az Express-1 modell segítségével
A Synthesia bemutatta az expresszív avatarok következő generációját, amelyet az új Express-1 modell hajt meg. Ezeket az avatarokat a videókommunikáció…
2024. április 29.
Kínai kutatók bemutatják az MMT-Bench-et a multimodális LLM-ek vizuális érvelésének mérésére
Kínai kutatók bemutatták az MMT-Bench-et, egy nagyszabású benchmarkot a nyelvi modellek vizuális érvelési kompetenciájának értékelésére. A benchmarkot 30…