Edit Template

Anthropic Claude Opus 4.5 – Új korszak a mesterséges intelligencia teljesítményében

Összefoglalás

Az Anthropic bemutatta új zászlóshajó modelljét, a Claude Opus 4.5-öt, amely a cég állítása szerint új iparági mércét állít fel a kódolási és agentikus feladatok terén. A modell a korábbi verziókhoz képest jelentős teljesítményjavulást mutat, miközben egy radikálisan csökkentett árazási struktúrát vezet be a szélesebb körű vállalati adoptáció érdekében. Ezek a fejlesztések együttesen a Claude Opus 4.5-öt az MI-piac egyik legmeghatározóbb versenytársává pozicionálják, amely a nyers teljesítményt a gazdasági hatékonysággal ötvözi.

7 perc olvasási idő

1. Bevezetés: Az Anthropic új zászlóshajója a piacon

A mesterséges intelligencia iparágát a gyors innováció és az intenzív verseny jellemzi, ahol a fejlesztők folyamatosan feszegetik a technológiai határokat. Ebben a dinamikus környezetben az Anthropic 2025. november 24-i bejelentése, a Claude Opus 4.5 piacra dobása egy stratégiai lépés, amelynek célja a piaci erőviszonyok újrarendezése és a vállalati szegmens meghódítása. Az új modell célja, hogy ne csupán a nyers intelligencia terén állítson fel új mércét, hanem a mindennapi és a komplex szakmai feladatok gyakorlati hatékonyságában is.

Az Opus 4.5-öt a világ legjobb modelljeként mutatják be a szoftverfejlesztés, az agentikus képességek és az általános számítógép-használat területén, miközben érdemi javulást hoz az elmélyült kutatási feladatokban és az irodai szoftverekkel való integrációban is. A modell állítólagos fölényét számos belső és külső értékelés támasztja alá, amelyek a kivételes teljesítményét igazolják.

2. Kiemelkedő teljesítmény és képességek

Egy új mesterséges intelligencia modell értékét végső soron az határozza meg, hogy milyen mérhető teljesítményt nyújt a kihívást jelentő, valós feladatokon. Ez a fejezet azokat a konkrét teljesítménymutatókat és példákat vizsgálja, amelyek a Claude Opus 4.5 fejlett képességeit demonstrálják, a szoftverfejlesztéstől a kreatív problémamegoldásig.

7022a87aeb6eab1458d68412bc927306224ea9eb 3840x2160 1

Az Anthropic egy rendkívül nehéz, otthonról elvégezhető feladatsorral teszteli a teljesítménymérnöki pozícióra jelentkezőket. Amikor a Claude Opus 4.5 modellt is alávetették ennek a belső tesztnek, az a megadott 2 órás időkereten belül magasabb pontszámot ért el, mint bármelyik emberi jelentkező valaha. Fontos megjegyezni, hogy ezt az eredményt párhuzamos tesztelési számításokkal érték el; időkorlát nélkül a modell a valaha volt legjobb emberi jelölt teljesítményét hozta. Az Anthropic ugyanakkor hangsúlyozza, hogy a teszt a technikai képességeket és az időnyomás alatti ítélőképességet méri, nem pedig az olyan kulcsfontosságú készségeket, mint az együttműködés vagy a többéves tapasztalatból fakadó ösztönök.

A modell képességeit jól szemlélteti a τ2-bench nevű, agentikus képességeket mérő teszten mutatott teljesítménye. Az egyik forgatókönyv szerint a modellnek egy légitársasági ügyintéző szerepét kellett betöltenie. A teszt elvárása az volt, hogy a modell utasítsa el egy „basic economy” jegy módosítását, mivel a szabályzat ezt nem teszi lehetővé. Az Opus 4.5 azonban egy váratlan és teljesen szabályos megoldást talált.

A modell belső gondolatmenete felfedte a stratégiát: először magasabb utazási osztályba sorolta a jegyet – amit a szabályzat minden jegytípusnál engedélyez –, majd ezt követően módosította a járatot, ami a magasabb osztályú jegyeknél már megengedett. Ez a képesség nem csupán technikai érdekesség, hanem a valódi üzleti érték előfutára, ahol a modell képes a szabályrendszereken belüli, nem nyilvánvaló megoldások megtalálására, optimalizálva a folyamatokat és javítva az ügyfélélményt.

A modell fölényét számos iparági szabványosított teszt is alátámasztja, amelyek a legmodernebb (state-of-the-art) teljesítményt igazolják. A SWE-bench Multilingual teszten 8 programozási nyelvből 7 esetében vezető helyen végzett, az Aider Polyglot értékelésen pedig 10,6%-os javulást ért el a Sonnet 4.5-höz képest. Az agentikus képességeket vizsgáló területeken is dominál: 29%-kal magasabb pontszámot szerzett, mint a Sonnet 4.5 a Vending-Bench-en, és jelentős ugrást mutatott a BrowseComp-Plus teszten, amely az összetett keresési feladatokat méri.

Opus 4.5 Sonnet 4.5 Opus 4.1 Gemini 3 Pro GPT-5.1
Agentikus kódolás SWE-bench Verified 80,9% 77,2% 74,5% 76,2% 76,3% 77,9% (Codex-Max)
Agentikus terminálkódolás Terminal-bench 2.0 59,3% 50,0% 46,5% 54,2% 47,6% 58,1% (Codex-Max)
Agentikus eszközhasználat τ2-bench 88,9% Kiskereskedelem (Retail) 98,2% Távközlés (Telecom) 86,2% Kiskereskedelem 98,0% Távközlés 86,8% Kiskereskedelem 71,5% Távközlés 85,3% Kiskereskedelem 98,0% Távközlés
Skálázott eszközhasználat MCP Atlas 62,3% 43,8% 40,9%
Számítógép-használat OSWorld 66,3% 61,4% 44,4%
Újszerű problémamegoldás ARC-AGI-2 (Verified) 37,6% 13,6% 31,1% 17,6%
Diplomaszintű érvelés GPQA Diamond 87,0% 83,4% 81,0% 91,9% 88,1%
Vizuális következtetés MMMU (validation) 80,7% 77,8% 77,1% 85,4%
Többnyelvű kérdés-válasz MMMLU 90,8% 89,1% 89,5% 91,8% 91,0%

A nyers teljesítmény mellett azonban a modell gazdasági életképessége is kritikus tényező a vállalati szintű bevezetés szempontjából, amelyet a következő fejezet tárgyal.


Ha szeretne többet tudni, tájékozottabb lenni a tőzsde, a befektetés, vagy akár az aktív kereskedés témájában: Állunk rendelkezésére. Kérjen egy kapcsolattartó tanácsadót:


3. Gazdasági hatás: Hatékonyság és hozzáférhetőség

Az Anthropic a Claude Opus 4.5-tel egy három pillérre épülő gazdasági stratégiát valósít meg: a radikálisan csökkentett alapárazás, a teljesítmény-költség arányt finomhangoló effort paraméter, és a feladatok megoldásához szükséges tokenek számának drámai csökkentése. Ez a kombinált megközelítés közvetlenül célozza a vállalati bevezetés legnagyobb akadályát: a skálázható MI-megoldások költségeit.

A Claude API árazása jelentősen csökkent, az új díjszabás $5 (bemenet) és $25 (kimenet) per millió token. Ez a változás az ügyfelek visszajelzései szerint „az Opus-szintű képességeket még több felhasználó, csapat és vállalat számára teszi elérhetővé”, és lehetővé teszi, hogy a modell „a legtöbb feladathoz választott alapértelmezett modellé” váljon.

Az API egy új effort (erőfeszítés) paraméterrel bővült, amely lehetővé teszi a fejlesztők számára, hogy finomhangolják az egyensúlyt a teljesítmény, a sebesség és a költségek között. A SWE-bench Verified teszten például közepes effort beállítással az Opus 4.5 a Sonnet 4.5 legjobb eredményét hozza, de 76%-kal kevesebb tokent használ. A legmagasabb effort szinten 4,3 százalékponttal felülmúlja a Sonnet 4.5 teljesítményét, miközben még mindig 48%-kal kevesebb tokent igényel. Ez a fajta granuláris kontroll kulcsfontosságú a nagyvállalati ügyfelek számára, lehetővé téve a TCO (teljes birtoklási költség) precíz optimalizálását a különböző felhasználási esetekben.

Az ügyfelek tapasztalatai alátámasztják a modell kivételes hatékonyságát. A visszajelzések szerint a teszteken magasabb sikerességi arányt érnek el, miközben akár 65%-kal kevesebb tokent használnak. A modell kevesebb token felhasználásával oldja meg ugyanazokat a problémákat, ami „nagy léptékben halmozottan jelentkezik”.

Ezeket a gazdasági előnyöket robusztus biztonsági funkciók egészítik ki, ami kulcsfontosságú szempont a vállalati ügyfelek számára.

4. Vállalati szintű biztonság és megbízhatóság

Ahogy a mesterséges intelligencia modellek egyre mélyebben integrálódnak a kritikus üzleti folyamatokba, a biztonságuk, a viselkedésük kiszámíthatósága és a rosszindulatú támadásokkal szembeni ellenálló képességük elsődlegessé válik. Ez a fejezet az Anthropic Claude Opus 4.5 biztonsági fejlesztéseire vonatkozó állításait értékeli.

Az Anthropic az Opus 4.5-öt „az eddigi legrobusztusabban hangolt (aligned) modelljének” nevezi, amely valószínűleg a legmegbízhatóbb a piacon lévő határmodellek (frontier models) közül. A modell „aggodalomra okot adó viselkedését” mérő pontszámok rendkívül alacsonyak, ami a visszaélésekkel való együttműködéstől a nemkívánatos autonóm cselekvésekig terjedő viselkedésformák széles skálájára vonatkozik.

d2c7ce13820069fa8a86ab682d3c5393692eb2f8 3840x2160 2
Értékelésünkben az ‘aggodalomra okot adó viselkedés’ pontszám a nemkívánatos vagy félrehangolt működés széles skáláját méri – beleértve az emberi visszaélésben való együttműködést, és azokat a nemkívánatos cselekvéseket is, amelyeket a modell saját kezdeményezésre végez.

A modell jelentősen ellenállóbbá vált a „prompt injection” támadásokkal szemben is, amelyek megtévesztő utasításokkal próbálják rávenni a modellt káros viselkedésre. A Gray Swan által végzett benchmark szerint az Opus 4.5-öt „nehezebb átverni prompt injection segítségével, mint bármely más határmodellt az iparágban”.

A modell alapvető képességei és biztonsági garanciái a szélesebb termék-ökoszisztémában teljesednek ki, amely a következő fejezet témája.

5. A Claude ökoszisztéma bővülése

Egy nagyteljesítményű MI-modell valódi hatása akkor mutatkozik meg, amikor felhasználóbarát termékekbe és fejlesztői eszközökbe integrálják. Ez a fejezet a Claude platform és az alkalmazások frissítéseit foglalja össze, amelyek az Opus 4.5 képességeire épülnek.

A fejlesztők új, fejlett eszközhasználati, kontextus-tömörítési és memóriakezelési képességeket kapnak, valamint lehetőséget arra, hogy al-agentekből álló csapatokat irányítsanak. Ezen technikák kombinálásával egy mély kutatási feladat értékelésén (a BrowseComp-Plus teszt egy specifikus, adatlekérdezéssel bővített verzióján) a modell teljesítménye közel 15 százalékponttal javult.

A felhasználói élményt javító legfontosabb termékfrissítések a következők:

Claude Code

Mostantól egy „Plan Mode” (Tervezési mód) segíti a precízebb tervezést, és asztali alkalmazásként is elérhető a párhuzamos munkamenetekhez.

Claude App

A hosszú beszélgetések a kontextus automatikus összegzésével folytathatók, megszakítás nélkül.

Claude for Chrome

Mostantól minden Max felhasználó számára elérhető.

Claude for Excel

A béta hozzáférést kiterjesztették minden Max, Team és Enterprise felhasználóra.

6. Záró gondolatok és piaci kilátások

A Claude Opus 4.5 bevezetése egyértelműen jelentős piaci esemény, amely a legmodernebb teljesítményt a gazdasági hatékonyságra és a vállalati szintű biztonságra helyezett erős fókusszal ötvözi. Ez a kombináció egy rendkívül versenyképes ajánlatot hoz létre a gyorsan fejlődő mesterséges intelligencia piacon.

A modell mögötti stratégiai partnerségek a Microsofttal és az NVIDIA-val, valamint az Anthropic 30 milliárd dolláros elköteleződése az Azure számítási kapacitás megvásárlására, a piaci bizalom és a jövőbeli növekedéshez szükséges erőforrások biztosításának egyértelmű jelei. Ezek a fejlesztések az Anthropicot az iparág egyik legmeghatározóbb szereplőjévé emelik. Az elkövetkező időszakban kulcsfontosságú lesz figyelemmel kísérni, hogy az Opus 4.5 milyen hatást gyakorol a szoftverfejlesztés, az üzleti automatizáció és a tudományos kutatás területeire.


Források:

Fáy Péter

Kommentáld!

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Hasonló témák

A szerkesztő válogatása

  • All Post
  • Business - Gazdaság
  • Oktatás
  • Technológia
  • Trading - kereskedés
    •   Back
    • Elemzés
    • Kripto devizák
    • Forex
    • Részvények, Indexek
    • Pszichológia

Utolsó cikkek

  • All Post
  • Trading - kereskedés
    •   Back
    • Elemzés
    • Kripto devizák
    • Forex
    • Részvények, Indexek
    • Pszichológia

TURTLE
TANFOLYAM

A híres kísérlet után kapta nevét a kezdőknek szánt tanfolyamunk. Az alapoktól indulva, konkrét stratégiákig jutunk el.

KEZDŐKBŐL PROFIKAT

Célunk egy olyan gazdasági magazin létrehozása, amely elősegíti a hazai gazdasági tudatosság növekedését, és hozzájárul a tőzsdéhez, a devizakereskedelemhez, valamint más befektetési formákhoz való pozitívabb hozzáállás kialakításához.

Szerkesztők

Várkuti Géza

Fáy Péter

Csákó Zsuzsanna

Polyánszky Attila

Company

Obsydium Ltd.

TIN 60141463P
VAT CY60141463P

Christodolou Sozou 15
3035 Limassol CY

© 1997-2025 Obsydium Ltd.

Az egyes gazdasági adatok közlése, nem minősül befektetési tanácsadásnak, kizárólag a forrás véleményét tükrözik.