A Google november 17-én bejelentette legújabb mesterséges intelligencia modelljét, a Gemini 3-at, amely minden fontos benchmarkban felülmúlta az OpenAI GPT-5.1 és az Anthropic Claude Sonnet 4.5 modelljeit. Az új rendszer 1501-es Elo pontszámával vezeti az LMArena ranglistát, és PhD-szintű okoskodási képességeket mutat a legkomplexebb feladatokban.
Forradalmi teljesítmény minden téren
A Gemini 3 Pro jelentős előrelépést mutat minden korábbi változathoz képest. A Google DeepMind csapata által kifejlesztett modell a „Humanity’s Last Exam” néven ismert akadémiai érvelési teszten 37,5 százalékos eredményt ért el, ami magasan felülmúlja a GPT-5.1 26,5 százalékos és a Claude Sonnet 4.5 mindössze 13,7 százalékos teljesítményét. A GPQA Diamond, egy doktori szintű tudományos teszten a Gemini 3 91,9 százalékos pontszámot ért el, miközben a legközelebbi versenytárs, a GPT-5.1 88,1 százalékon állt.
Különösen lenyűgöző a modell teljesítménye a matematikai feladatokban. A MathArena Apex, amely a legkihívásokkal teli matematikai problémákat tartalmazza, a Gemini 3 23,4 százalékos pontszámot ért el, szemben a GPT-5.1 mindössze 1 százalékos és a Claude Sonnet 4.5 1,6 százalékos eredményével. Az AIME 2025 matematikai verseny tesztjén 95 százalékos teljesítményt nyújtott, ami újabb bizonyítéka kimagasló logikai képességeinek.
Deep Think mód: mesterséges intelligencia lassú gondolkodással
A Google bevezette a Gemini 3 Deep Think módot is, amely még mélyebb érvelési képességeket biztosít. Ez az továbbfejlesztett változat extra időt szán a kérdések megválaszolására, több belső lépést alkalmazva és ellenőrizve saját munkáját válaszadás előtt. A Deep Think mód a „Humanity’s Last Exam” teszten 41 százalékos pontszámot ért el, a GPQA Diamond teszten pedig 93,8 százalékot.
Az ARC-AGI-2 vizuális érvelési benchmarkon, amely valódi absztrakciós képességeket tesztel mintázatfelismerés helyett, a Deep Think mód kódfuttatással 45,1 százalékos eredményt ért el, ami példa nélküli teljesítmény ezen a területen. A rendszer viselkedése egyre inkább emlékeztet a „System 2” típusú gondolkodásra, ahol a modell felvázolja tervét, teszteli a szélsőséges eseteket és néha önmagát is javítja válaszadás közben.
Vibe Coding és a Google Antigravity platform
A Gemini 3 kiemelkedő eredményeket mutat a programozási feladatokban is. A WebDev Arena ranglistán 1487-es Elo pontszámmal vezet, bizonyítva képességét komplett webalkalmazások generálására egyetlen promptból. A Terminal-Bench 2.0 teszten, amely a modell eszközhasználati képességét méri terminál segítségével, 54,2 százalékos eredményt ért el.
A Google egyben bemutatta új fejlesztői platformját, a Google Antigravity-t is. Ez egy ágensalapú fejlesztői környezet, ahol az asszisztensek közvetlen hozzáféréssel rendelkeznek a szerkesztőhöz, terminálhoz és böngészőhöz. Az ágensek önállóan tervezik meg és hajtják végre a komplex szoftverfejlesztési feladatokat, validálják saját kódjukat, és valódi böngésző-munkamenetekben tesztelnek.
Multimodális mesteri szint
A Gemini 3 Pro újradefiniálja a multimodális érvelést is. Az MMMU-Pro komplex képi érvelési teszten 81 százalékos, a Video-MMMU hosszú videóértési benchmarkon pedig 87,6 százalékos eredményt ért el. Ez azt jelenti, hogy a rendszer képes képernyőképeket, kézzel rajzolt vázlatokat vagy akár órákig tartó videófelvételeket is értelmezni és azokból használható kódot, architektúra dokumentumokat generálni.
A gyakorlatban ez azt jelenti, hogy feltölthetsz egy elromlott felhasználói felület képernyőképét és javítást kérhetsz, vagy egy fehértáblán készült vázlatot átalakíthatsz produkciós szintű HTML, CSS és JavaScript kóddá. A robotikában, kiterjesztett valóságban és autonóm rendszerekben ez a térbeli érvelési szint új tervezési lehetőségeket nyit meg.
Árazás és elérhetőség
A Gemini 3 Pro előzetes verzióban 2 dollárba kerül millió bemeneti token után, és 12 dollárba millió kimeneti token után, 200 ezer tokenig terjedő promptok esetén. A 200 ezer tokenen felüli, nagyon nagy kontextusok esetén az árak 4, illetve 18 dollárra emelkednek. A Google AI Studio ingyenes, rátakorlátozott szintje lehetővé teszi a prototípus-készítést hitelkártya nélkül is.
A Gemini 3 mától elérhető a Gemini alkalmazásban, az AI Mode-ban a Google Keresésben, fejlesztőknek pedig az AI Studio-ban, a Vertex AI-ban és a Google Antigravity platformon. A Deep Think mód a következő hetekben lesz elérhető a Google AI Ultra előfizetők számára, miután további biztonsági teszteléseket végeznek.
Biztonsági és etikai szempontok
A Gemini 3 a Google eddigi legbiztonságosabb modellje, és minden Google AI modell közül a legátfogóbb biztonsági értékeléseken esett át. A modell kevesebb hízelgő választ ad, jobban ellenáll a prompt injekcióknak, és jobb védelmet nyújt a kibertámadásokon keresztüli visszaélésekkel szemben. A Google partnerségben dolgozott vezető szakterületi szakértőkkel, korai hozzáférést biztosított olyan szervezeteknek, mint az UK AISI, és független értékeléseket szerzett olyan iparági szakértőktől, mint az Apollo, Vaultis és Dreadnode.
Új korszak kezdete
A Gemini 3 megjelenése új fejezetet nyit a mesterséges intelligencia fejlődésében. Sundar Pichai, a Google és az Alphabet vezérigazgatója kiemelte, hogy az AI Overviews havonta 2 milliárd felhasználóval rendelkezik, a Gemini alkalmazás pedig havonta több mint 650 millió felhasználót szolgál ki. A vállalat azt ígéri, hogy hamarosan további modelleket ad ki a Gemini 3 sorozatból, tovább bővítve az AI képességeit.
A korai felhasználói visszajelzések megerősítik a benchmarkok eredményeit. A fejlesztői fórumokon sokan arról számolnak be, hogy az új modell „megölt minden más modellt” a matematikai, fizikai és programozási feladatokban. Bár a kreatív írás és a stilizált próza terén a GPT-5.1 és a Claude még mindig versenyképes, a komoly problémamegoldást, elemzést és fejlesztést igénylő munkákban a Gemini 3 most a referenciapont.
