Összefoglalás
Az Anthropic bemutatta új zászlóshajó modelljét, a Claude Opus 4.5-öt, amely a cég állítása szerint új iparági mércét állít fel a kódolási és agentikus feladatok terén. A modell a korábbi verziókhoz képest jelentős teljesítményjavulást mutat, miközben egy radikálisan csökkentett árazási struktúrát vezet be a szélesebb körű vállalati adoptáció érdekében. Ezek a fejlesztések együttesen a Claude Opus 4.5-öt az MI-piac egyik legmeghatározóbb versenytársává pozicionálják, amely a nyers teljesítményt a gazdasági hatékonysággal ötvözi.
7 perc olvasási idő
1. Bevezetés: Az Anthropic új zászlóshajója a piacon
A mesterséges intelligencia iparágát a gyors innováció és az intenzív verseny jellemzi, ahol a fejlesztők folyamatosan feszegetik a technológiai határokat. Ebben a dinamikus környezetben az Anthropic 2025. november 24-i bejelentése, a Claude Opus 4.5 piacra dobása egy stratégiai lépés, amelynek célja a piaci erőviszonyok újrarendezése és a vállalati szegmens meghódítása. Az új modell célja, hogy ne csupán a nyers intelligencia terén állítson fel új mércét, hanem a mindennapi és a komplex szakmai feladatok gyakorlati hatékonyságában is.
Az Opus 4.5-öt a világ legjobb modelljeként mutatják be a szoftverfejlesztés, az agentikus képességek és az általános számítógép-használat területén, miközben érdemi javulást hoz az elmélyült kutatási feladatokban és az irodai szoftverekkel való integrációban is. A modell állítólagos fölényét számos belső és külső értékelés támasztja alá, amelyek a kivételes teljesítményét igazolják.
2. Kiemelkedő teljesítmény és képességek
Egy új mesterséges intelligencia modell értékét végső soron az határozza meg, hogy milyen mérhető teljesítményt nyújt a kihívást jelentő, valós feladatokon. Ez a fejezet azokat a konkrét teljesítménymutatókat és példákat vizsgálja, amelyek a Claude Opus 4.5 fejlett képességeit demonstrálják, a szoftverfejlesztéstől a kreatív problémamegoldásig.

Az Anthropic egy rendkívül nehéz, otthonról elvégezhető feladatsorral teszteli a teljesítménymérnöki pozícióra jelentkezőket. Amikor a Claude Opus 4.5 modellt is alávetették ennek a belső tesztnek, az a megadott 2 órás időkereten belül magasabb pontszámot ért el, mint bármelyik emberi jelentkező valaha. Fontos megjegyezni, hogy ezt az eredményt párhuzamos tesztelési számításokkal érték el; időkorlát nélkül a modell a valaha volt legjobb emberi jelölt teljesítményét hozta. Az Anthropic ugyanakkor hangsúlyozza, hogy a teszt a technikai képességeket és az időnyomás alatti ítélőképességet méri, nem pedig az olyan kulcsfontosságú készségeket, mint az együttműködés vagy a többéves tapasztalatból fakadó ösztönök.
A modell képességeit jól szemlélteti a τ2-bench nevű, agentikus képességeket mérő teszten mutatott teljesítménye. Az egyik forgatókönyv szerint a modellnek egy légitársasági ügyintéző szerepét kellett betöltenie. A teszt elvárása az volt, hogy a modell utasítsa el egy „basic economy” jegy módosítását, mivel a szabályzat ezt nem teszi lehetővé. Az Opus 4.5 azonban egy váratlan és teljesen szabályos megoldást talált.
A modell belső gondolatmenete felfedte a stratégiát: először magasabb utazási osztályba sorolta a jegyet – amit a szabályzat minden jegytípusnál engedélyez –, majd ezt követően módosította a járatot, ami a magasabb osztályú jegyeknél már megengedett. Ez a képesség nem csupán technikai érdekesség, hanem a valódi üzleti érték előfutára, ahol a modell képes a szabályrendszereken belüli, nem nyilvánvaló megoldások megtalálására, optimalizálva a folyamatokat és javítva az ügyfélélményt.
A modell fölényét számos iparági szabványosított teszt is alátámasztja, amelyek a legmodernebb (state-of-the-art) teljesítményt igazolják. A SWE-bench Multilingual teszten 8 programozási nyelvből 7 esetében vezető helyen végzett, az Aider Polyglot értékelésen pedig 10,6%-os javulást ért el a Sonnet 4.5-höz képest. Az agentikus képességeket vizsgáló területeken is dominál: 29%-kal magasabb pontszámot szerzett, mint a Sonnet 4.5 a Vending-Bench-en, és jelentős ugrást mutatott a BrowseComp-Plus teszten, amely az összetett keresési feladatokat méri.
| Opus 4.5 | Sonnet 4.5 | Opus 4.1 | Gemini 3 Pro | GPT-5.1 | |
|---|---|---|---|---|---|
| Agentikus kódolás SWE-bench Verified | 80,9% | 77,2% | 74,5% | 76,2% | 76,3% 77,9% (Codex-Max) |
| Agentikus terminálkódolás Terminal-bench 2.0 | 59,3% | 50,0% | 46,5% | 54,2% | 47,6% 58,1% (Codex-Max) |
| Agentikus eszközhasználat τ2-bench | 88,9% Kiskereskedelem (Retail) 98,2% Távközlés (Telecom) | 86,2% Kiskereskedelem 98,0% Távközlés | 86,8% Kiskereskedelem 71,5% Távközlés | 85,3% Kiskereskedelem 98,0% Távközlés | — |
| Skálázott eszközhasználat MCP Atlas | 62,3% | 43,8% | 40,9% | — | — |
| Számítógép-használat OSWorld | 66,3% | 61,4% | 44,4% | — | — |
| Újszerű problémamegoldás ARC-AGI-2 (Verified) | 37,6% | 13,6% | — | 31,1% | 17,6% |
| Diplomaszintű érvelés GPQA Diamond | 87,0% | 83,4% | 81,0% | 91,9% | 88,1% |
| Vizuális következtetés MMMU (validation) | 80,7% | 77,8% | 77,1% | — | 85,4% |
| Többnyelvű kérdés-válasz MMMLU | 90,8% | 89,1% | 89,5% | 91,8% | 91,0% |
A nyers teljesítmény mellett azonban a modell gazdasági életképessége is kritikus tényező a vállalati szintű bevezetés szempontjából, amelyet a következő fejezet tárgyal.
Ha szeretne többet tudni, tájékozottabb lenni a tőzsde, a befektetés, vagy akár az aktív kereskedés témájában: Állunk rendelkezésére. Kérjen egy kapcsolattartó tanácsadót:
3. Gazdasági hatás: Hatékonyság és hozzáférhetőség
Az Anthropic a Claude Opus 4.5-tel egy három pillérre épülő gazdasági stratégiát valósít meg: a radikálisan csökkentett alapárazás, a teljesítmény-költség arányt finomhangoló effort paraméter, és a feladatok megoldásához szükséges tokenek számának drámai csökkentése. Ez a kombinált megközelítés közvetlenül célozza a vállalati bevezetés legnagyobb akadályát: a skálázható MI-megoldások költségeit.
A Claude API árazása jelentősen csökkent, az új díjszabás $5 (bemenet) és $25 (kimenet) per millió token. Ez a változás az ügyfelek visszajelzései szerint „az Opus-szintű képességeket még több felhasználó, csapat és vállalat számára teszi elérhetővé”, és lehetővé teszi, hogy a modell „a legtöbb feladathoz választott alapértelmezett modellé” váljon.
Az API egy új effort (erőfeszítés) paraméterrel bővült, amely lehetővé teszi a fejlesztők számára, hogy finomhangolják az egyensúlyt a teljesítmény, a sebesség és a költségek között. A SWE-bench Verified teszten például közepes effort beállítással az Opus 4.5 a Sonnet 4.5 legjobb eredményét hozza, de 76%-kal kevesebb tokent használ. A legmagasabb effort szinten 4,3 százalékponttal felülmúlja a Sonnet 4.5 teljesítményét, miközben még mindig 48%-kal kevesebb tokent igényel. Ez a fajta granuláris kontroll kulcsfontosságú a nagyvállalati ügyfelek számára, lehetővé téve a TCO (teljes birtoklási költség) precíz optimalizálását a különböző felhasználási esetekben.
Az ügyfelek tapasztalatai alátámasztják a modell kivételes hatékonyságát. A visszajelzések szerint a teszteken magasabb sikerességi arányt érnek el, miközben akár 65%-kal kevesebb tokent használnak. A modell kevesebb token felhasználásával oldja meg ugyanazokat a problémákat, ami „nagy léptékben halmozottan jelentkezik”.
Ezeket a gazdasági előnyöket robusztus biztonsági funkciók egészítik ki, ami kulcsfontosságú szempont a vállalati ügyfelek számára.
4. Vállalati szintű biztonság és megbízhatóság
Ahogy a mesterséges intelligencia modellek egyre mélyebben integrálódnak a kritikus üzleti folyamatokba, a biztonságuk, a viselkedésük kiszámíthatósága és a rosszindulatú támadásokkal szembeni ellenálló képességük elsődlegessé válik. Ez a fejezet az Anthropic Claude Opus 4.5 biztonsági fejlesztéseire vonatkozó állításait értékeli.
Az Anthropic az Opus 4.5-öt „az eddigi legrobusztusabban hangolt (aligned) modelljének” nevezi, amely valószínűleg a legmegbízhatóbb a piacon lévő határmodellek (frontier models) közül. A modell „aggodalomra okot adó viselkedését” mérő pontszámok rendkívül alacsonyak, ami a visszaélésekkel való együttműködéstől a nemkívánatos autonóm cselekvésekig terjedő viselkedésformák széles skálájára vonatkozik.

A modell jelentősen ellenállóbbá vált a „prompt injection” támadásokkal szemben is, amelyek megtévesztő utasításokkal próbálják rávenni a modellt káros viselkedésre. A Gray Swan által végzett benchmark szerint az Opus 4.5-öt „nehezebb átverni prompt injection segítségével, mint bármely más határmodellt az iparágban”.
A modell alapvető képességei és biztonsági garanciái a szélesebb termék-ökoszisztémában teljesednek ki, amely a következő fejezet témája.
5. A Claude ökoszisztéma bővülése
Egy nagyteljesítményű MI-modell valódi hatása akkor mutatkozik meg, amikor felhasználóbarát termékekbe és fejlesztői eszközökbe integrálják. Ez a fejezet a Claude platform és az alkalmazások frissítéseit foglalja össze, amelyek az Opus 4.5 képességeire épülnek.
A fejlesztők új, fejlett eszközhasználati, kontextus-tömörítési és memóriakezelési képességeket kapnak, valamint lehetőséget arra, hogy al-agentekből álló csapatokat irányítsanak. Ezen technikák kombinálásával egy mély kutatási feladat értékelésén (a BrowseComp-Plus teszt egy specifikus, adatlekérdezéssel bővített verzióján) a modell teljesítménye közel 15 százalékponttal javult.
A felhasználói élményt javító legfontosabb termékfrissítések a következők:
Claude Code
Mostantól egy „Plan Mode” (Tervezési mód) segíti a precízebb tervezést, és asztali alkalmazásként is elérhető a párhuzamos munkamenetekhez.
Claude App
A hosszú beszélgetések a kontextus automatikus összegzésével folytathatók, megszakítás nélkül.
Claude for Chrome
Mostantól minden Max felhasználó számára elérhető.
Claude for Excel
A béta hozzáférést kiterjesztették minden Max, Team és Enterprise felhasználóra.
6. Záró gondolatok és piaci kilátások
A Claude Opus 4.5 bevezetése egyértelműen jelentős piaci esemény, amely a legmodernebb teljesítményt a gazdasági hatékonyságra és a vállalati szintű biztonságra helyezett erős fókusszal ötvözi. Ez a kombináció egy rendkívül versenyképes ajánlatot hoz létre a gyorsan fejlődő mesterséges intelligencia piacon.
A modell mögötti stratégiai partnerségek a Microsofttal és az NVIDIA-val, valamint az Anthropic 30 milliárd dolláros elköteleződése az Azure számítási kapacitás megvásárlására, a piaci bizalom és a jövőbeli növekedéshez szükséges erőforrások biztosításának egyértelmű jelei. Ezek a fejlesztések az Anthropicot az iparág egyik legmeghatározóbb szereplőjévé emelik. Az elkövetkező időszakban kulcsfontosságú lesz figyelemmel kísérni, hogy az Opus 4.5 milyen hatást gyakorol a szoftverfejlesztés, az üzleti automatizáció és a tudományos kutatás területeire.
Források:
- Introducing Claude Opus 4.5 | ANTHROPIC













