La corsa ad avere la gen Ai più performante non si ferma. Anthropic rilancia la sfida nel mondo dell’intelligenza artificiale con Claude Opus 4 e Claude Sonnet 4, l’evoluzione dei suoi collaudati modelli pensati per affrontare i compiti più complessi — dallo sviluppo software alla generazione di contenuti, fino al ragionamento multi-step — segnano un salto in avanti concreto verso l’obiettivo dichiarato: trasformare l’AI in un vero collaboratore virtuale.
Con Claude 4, Anthropic punta in alto: “vogliamo stabilire un nuovo standard di collaborazione uomo-macchina”. E non è solo un claim. I nuovi modelli sono in grado di sostenere attività prolungate, integrare strumenti esterni, mantenere coerenza informativa e risolvere problemi su larga scala. In sintesi: più affidabili, più intelligenti, più utili.
Claude Opus 4: l’AI che programma (meglio di molti umani)
Opus 4 è il modello di punta e, a detta di Anthropic, il miglior modello di coding al mondo. I benchmark parlano chiaro con il 72,5% su SWE-bench Verified e il 43,2% su Terminal-bench, risultati che lo posizionano in vetta alle classifiche internazionali per compiti di programmazione reali. In fase di test, è riuscito a lavorare in autonomia su un progetto complesso per quasi sette ore consecutive. Un’impresa che ha impressionato aziende come Rakuten, Replit e Cursor, che lo descrivono come uno strumento in grado di scrivere codice su più file, correggere bug, seguire istruzioni complesse e mantenere la coerenza su progetti articolati.
Claude Sonnet 4: potenza controllata, pensiero raffinato
Anche Claude Sonnet 4 fa un salto di qualità rispetto al suo predecessore, la versione 3.7. Tocca il 72,7% su SWE-bench, risponde con maggiore precisione alle istruzioni, gestisce in modo più efficace i codebase e risolve problemi complessi con un ragionamento più raffinato. GitHub lo ha già integrato nel suo nuovo agente Copilot, mentre realtà come Sourcegraph, iGent e Augment Code ne sottolineano l’impatto positivo sulla qualità del codice, la navigazione e l’autonomia nei task multifunzionali.
Entrambi i modelli sono ibridi, capaci cioè di fornire risposte istantanee oppure di attivare una modalità di riflessione prolungata, il cosiddetto “extended thinking”. Durante questa fase i modelli possono accedere a strumenti esterni, come ricerche web o file locali, alternando ragionamento e azione in modo fluido e coordinato. Non solo: possono usare più strumenti in parallelo, migliorare le risposte e costruire una memoria persistente. Quando autorizzati dagli sviluppatori, sono in grado di salvare e aggiornare informazioni rilevanti, mantenendo una continuità cognitiva su progetti articolati e nel tempo.