Edit Template

Anthropic Claude Opus 4.5 – Új korszak a mesterséges intelligencia teljesítményében

Összefoglalás

Az Anthropic bemutatta új zászlóshajó modelljét, a Claude Opus 4.5-öt, amely a cég állítása szerint új iparági mércét állít fel a kódolási és agentikus feladatok terén. A modell a korábbi verziókhoz képest jelentős teljesítményjavulást mutat, miközben egy radikálisan csökkentett árazási struktúrát vezet be a szélesebb körű vállalati adoptáció érdekében. Ezek a fejlesztések együttesen a Claude Opus 4.5-öt az MI-piac egyik legmeghatározóbb versenytársává pozicionálják, amely a nyers teljesítményt a gazdasági hatékonysággal ötvözi.

7 perc olvasási idő

1. Bevezetés: Az Anthropic új zászlóshajója a piacon

A mesterséges intelligencia iparágát a gyors innováció és az intenzív verseny jellemzi, ahol a fejlesztők folyamatosan feszegetik a technológiai határokat. Ebben a dinamikus környezetben az Anthropic 2025. november 24-i bejelentése, a Claude Opus 4.5 piacra dobása egy stratégiai lépés, amelynek célja a piaci erőviszonyok újrarendezése és a vállalati szegmens meghódítása. Az új modell célja, hogy ne csupán a nyers intelligencia terén állítson fel új mércét, hanem a mindennapi és a komplex szakmai feladatok gyakorlati hatékonyságában is.

Az Opus 4.5-öt a világ legjobb modelljeként mutatják be a szoftverfejlesztés, az agentikus képességek és az általános számítógép-használat területén, miközben érdemi javulást hoz az elmélyült kutatási feladatokban és az irodai szoftverekkel való integrációban is. A modell állítólagos fölényét számos belső és külső értékelés támasztja alá, amelyek a kivételes teljesítményét igazolják.

2. Kiemelkedő teljesítmény és képességek

Egy új mesterséges intelligencia modell értékét végső soron az határozza meg, hogy milyen mérhető teljesítményt nyújt a kihívást jelentő, valós feladatokon. Ez a fejezet azokat a konkrét teljesítménymutatókat és példákat vizsgálja, amelyek a Claude Opus 4.5 fejlett képességeit demonstrálják, a szoftverfejlesztéstől a kreatív problémamegoldásig.

7022a87aeb6eab1458d68412bc927306224ea9eb 3840x2160 1

Az Anthropic egy rendkívül nehéz, otthonról elvégezhető feladatsorral teszteli a teljesítménymérnöki pozícióra jelentkezőket. Amikor a Claude Opus 4.5 modellt is alávetették ennek a belső tesztnek, az a megadott 2 órás időkereten belül magasabb pontszámot ért el, mint bármelyik emberi jelentkező valaha. Fontos megjegyezni, hogy ezt az eredményt párhuzamos tesztelési számításokkal érték el; időkorlát nélkül a modell a valaha volt legjobb emberi jelölt teljesítményét hozta. Az Anthropic ugyanakkor hangsúlyozza, hogy a teszt a technikai képességeket és az időnyomás alatti ítélőképességet méri, nem pedig az olyan kulcsfontosságú készségeket, mint az együttműködés vagy a többéves tapasztalatból fakadó ösztönök.

A modell képességeit jól szemlélteti a τ2-bench nevű, agentikus képességeket mérő teszten mutatott teljesítménye. Az egyik forgatókönyv szerint a modellnek egy légitársasági ügyintéző szerepét kellett betöltenie. A teszt elvárása az volt, hogy a modell utasítsa el egy „basic economy” jegy módosítását, mivel a szabályzat ezt nem teszi lehetővé. Az Opus 4.5 azonban egy váratlan és teljesen szabályos megoldást talált.

A modell belső gondolatmenete felfedte a stratégiát: először magasabb utazási osztályba sorolta a jegyet – amit a szabályzat minden jegytípusnál engedélyez –, majd ezt követően módosította a járatot, ami a magasabb osztályú jegyeknél már megengedett. Ez a képesség nem csupán technikai érdekesség, hanem a valódi üzleti érték előfutára, ahol a modell képes a szabályrendszereken belüli, nem nyilvánvaló megoldások megtalálására, optimalizálva a folyamatokat és javítva az ügyfélélményt.

A modell fölényét számos iparági szabványosított teszt is alátámasztja, amelyek a legmodernebb (state-of-the-art) teljesítményt igazolják. A SWE-bench Multilingual teszten 8 programozási nyelvből 7 esetében vezető helyen végzett, az Aider Polyglot értékelésen pedig 10,6%-os javulást ért el a Sonnet 4.5-höz képest. Az agentikus képességeket vizsgáló területeken is dominál: 29%-kal magasabb pontszámot szerzett, mint a Sonnet 4.5 a Vending-Bench-en, és jelentős ugrást mutatott a BrowseComp-Plus teszten, amely az összetett keresési feladatokat méri.

Opus 4.5 Sonnet 4.5 Opus 4.1 Gemini 3 Pro GPT-5.1
Agentikus kódolás SWE-bench Verified 80,9% 77,2% 74,5% 76,2% 76,3% 77,9% (Codex-Max)
Agentikus terminálkódolás Terminal-bench 2.0 59,3% 50,0% 46,5% 54,2% 47,6% 58,1% (Codex-Max)
Agentikus eszközhasználat τ2-bench 88,9% Kiskereskedelem (Retail) 98,2% Távközlés (Telecom) 86,2% Kiskereskedelem 98,0% Távközlés 86,8% Kiskereskedelem 71,5% Távközlés 85,3% Kiskereskedelem 98,0% Távközlés
Skálázott eszközhasználat MCP Atlas 62,3% 43,8% 40,9%
Számítógép-használat OSWorld 66,3% 61,4% 44,4%
Újszerű problémamegoldás ARC-AGI-2 (Verified) 37,6% 13,6% 31,1% 17,6%
Diplomaszintű érvelés GPQA Diamond 87,0% 83,4% 81,0% 91,9% 88,1%
Vizuális következtetés MMMU (validation) 80,7% 77,8% 77,1% 85,4%
Többnyelvű kérdés-válasz MMMLU 90,8% 89,1% 89,5% 91,8% 91,0%

A nyers teljesítmény mellett azonban a modell gazdasági életképessége is kritikus tényező a vállalati szintű bevezetés szempontjából, amelyet a következő fejezet tárgyal.


Ha szeretne többet tudni, tájékozottabb lenni a tőzsde, a befektetés, vagy akár az aktív kereskedés témájában: Állunk rendelkezésére. Kérjen egy kapcsolattartó tanácsadót:


3. Gazdasági hatás: Hatékonyság és hozzáférhetőség

Az Anthropic a Claude Opus 4.5-tel egy három pillérre épülő gazdasági stratégiát valósít meg: a radikálisan csökkentett alapárazás, a teljesítmény-költség arányt finomhangoló effort paraméter, és a feladatok megoldásához szükséges tokenek számának drámai csökkentése. Ez a kombinált megközelítés közvetlenül célozza a vállalati bevezetés legnagyobb akadályát: a skálázható MI-megoldások költségeit.

A Claude API árazása jelentősen csökkent, az új díjszabás $5 (bemenet) és $25 (kimenet) per millió token. Ez a változás az ügyfelek visszajelzései szerint „az Opus-szintű képességeket még több felhasználó, csapat és vállalat számára teszi elérhetővé”, és lehetővé teszi, hogy a modell „a legtöbb feladathoz választott alapértelmezett modellé” váljon.

Az API egy új effort (erőfeszítés) paraméterrel bővült, amely lehetővé teszi a fejlesztők számára, hogy finomhangolják az egyensúlyt a teljesítmény, a sebesség és a költségek között. A SWE-bench Verified teszten például közepes effort beállítással az Opus 4.5 a Sonnet 4.5 legjobb eredményét hozza, de 76%-kal kevesebb tokent használ. A legmagasabb effort szinten 4,3 százalékponttal felülmúlja a Sonnet 4.5 teljesítményét, miközben még mindig 48%-kal kevesebb tokent igényel. Ez a fajta granuláris kontroll kulcsfontosságú a nagyvállalati ügyfelek számára, lehetővé téve a TCO (teljes birtoklási költség) precíz optimalizálását a különböző felhasználási esetekben.

Az ügyfelek tapasztalatai alátámasztják a modell kivételes hatékonyságát. A visszajelzések szerint a teszteken magasabb sikerességi arányt érnek el, miközben akár 65%-kal kevesebb tokent használnak. A modell kevesebb token felhasználásával oldja meg ugyanazokat a problémákat, ami „nagy léptékben halmozottan jelentkezik”.

Ezeket a gazdasági előnyöket robusztus biztonsági funkciók egészítik ki, ami kulcsfontosságú szempont a vállalati ügyfelek számára.

4. Vállalati szintű biztonság és megbízhatóság

Ahogy a mesterséges intelligencia modellek egyre mélyebben integrálódnak a kritikus üzleti folyamatokba, a biztonságuk, a viselkedésük kiszámíthatósága és a rosszindulatú támadásokkal szembeni ellenálló képességük elsődlegessé válik. Ez a fejezet az Anthropic Claude Opus 4.5 biztonsági fejlesztéseire vonatkozó állításait értékeli.

Az Anthropic az Opus 4.5-öt „az eddigi legrobusztusabban hangolt (aligned) modelljének” nevezi, amely valószínűleg a legmegbízhatóbb a piacon lévő határmodellek (frontier models) közül. A modell „aggodalomra okot adó viselkedését” mérő pontszámok rendkívül alacsonyak, ami a visszaélésekkel való együttműködéstől a nemkívánatos autonóm cselekvésekig terjedő viselkedésformák széles skálájára vonatkozik.

d2c7ce13820069fa8a86ab682d3c5393692eb2f8 3840x2160 2
Értékelésünkben az ‘aggodalomra okot adó viselkedés’ pontszám a nemkívánatos vagy félrehangolt működés széles skáláját méri – beleértve az emberi visszaélésben való együttműködést, és azokat a nemkívánatos cselekvéseket is, amelyeket a modell saját kezdeményezésre végez.

A modell jelentősen ellenállóbbá vált a „prompt injection” támadásokkal szemben is, amelyek megtévesztő utasításokkal próbálják rávenni a modellt káros viselkedésre. A Gray Swan által végzett benchmark szerint az Opus 4.5-öt „nehezebb átverni prompt injection segítségével, mint bármely más határmodellt az iparágban”.

A modell alapvető képességei és biztonsági garanciái a szélesebb termék-ökoszisztémában teljesednek ki, amely a következő fejezet témája.

5. A Claude ökoszisztéma bővülése

Egy nagyteljesítményű MI-modell valódi hatása akkor mutatkozik meg, amikor felhasználóbarát termékekbe és fejlesztői eszközökbe integrálják. Ez a fejezet a Claude platform és az alkalmazások frissítéseit foglalja össze, amelyek az Opus 4.5 képességeire épülnek.

A fejlesztők új, fejlett eszközhasználati, kontextus-tömörítési és memóriakezelési képességeket kapnak, valamint lehetőséget arra, hogy al-agentekből álló csapatokat irányítsanak. Ezen technikák kombinálásával egy mély kutatási feladat értékelésén (a BrowseComp-Plus teszt egy specifikus, adatlekérdezéssel bővített verzióján) a modell teljesítménye közel 15 százalékponttal javult.

A felhasználói élményt javító legfontosabb termékfrissítések a következők:

Claude Code

Mostantól egy „Plan Mode” (Tervezési mód) segíti a precízebb tervezést, és asztali alkalmazásként is elérhető a párhuzamos munkamenetekhez.

Claude App

A hosszú beszélgetések a kontextus automatikus összegzésével folytathatók, megszakítás nélkül.

Claude for Chrome

Mostantól minden Max felhasználó számára elérhető.

Claude for Excel

A béta hozzáférést kiterjesztették minden Max, Team és Enterprise felhasználóra.

6. Záró gondolatok és piaci kilátások

A Claude Opus 4.5 bevezetése egyértelműen jelentős piaci esemény, amely a legmodernebb teljesítményt a gazdasági hatékonyságra és a vállalati szintű biztonságra helyezett erős fókusszal ötvözi. Ez a kombináció egy rendkívül versenyképes ajánlatot hoz létre a gyorsan fejlődő mesterséges intelligencia piacon.

A modell mögötti stratégiai partnerségek a Microsofttal és az NVIDIA-val, valamint az Anthropic 30 milliárd dolláros elköteleződése az Azure számítási kapacitás megvásárlására, a piaci bizalom és a jövőbeli növekedéshez szükséges erőforrások biztosításának egyértelmű jelei. Ezek a fejlesztések az Anthropicot az iparág egyik legmeghatározóbb szereplőjévé emelik. Az elkövetkező időszakban kulcsfontosságú lesz figyelemmel kísérni, hogy az Opus 4.5 milyen hatást gyakorol a szoftverfejlesztés, az üzleti automatizáció és a tudományos kutatás területeire.


Források:

Fáy Péter

Kommentáld!

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Hasonló témák

A szerkesztő válogatása

  • All Post
  • Business - Gazdaság
  • Forex
  • Kripto devizák
  • Oktatás
  • Pszichológia
  • Részvények, Indexek
  • Technológia
  • Tőzsde
  • Uncategorized @hu
    •   Back
    • Elemzés

Utolsó cikkek

  • All Post
  • Uncategorized @hu
  • Részvények, Indexek
  • Forex
    •   Back
    • Elemzés

Célunk egy olyan gazdasági magazin létrehozása, amely elősegíti a hazai gazdasági tudatosság növekedését, és hozzájárul a tőzsdéhez, a devizakereskedelemhez, valamint más befektetési formákhoz való pozitívabb hozzáállás kialakításához.

Szerkesztők

Várkuti Géza

Fáy Péter

Csákó Zsuzsanna

Polyánszky Attila

Company

Obsydium Ltd.

TIN 60141463P
VAT CY60141463P

Christodolou Sozou 15
3035 Limassol CY

Licens:

© 1997-2026 Obsydium Ltd.

Az egyes gazdasági adatok közlése, nem minősül befektetési tanácsadásnak, kizárólag a forrás véleményét tükrözik.