Rubare il lavoro all’uomo, ridurre operazioni manuali in automatismi di qualche secondo, persino azzerare la creatività con un semplice prompt di testo. Tra le miriadi di conseguenze negative di cui l’intelligenza artificiale generativa si fa portatrice, molti ne dimenticano una: l’appiattimento linguistico. Chi usa da tempo strumenti come ChatGPT o Gemini non faticherà a riconoscere una porzione di testo creata con i loro schemi: elenchi puntati, frasi brevi e spesso ripetute. La traduzione da un idioma all’altro finisce per allineare ancora di più il contenuto ad adattamenti spesso privi di caratterizzazioni nazionali, impersonali e, in sintesi, poco interessanti. Ed è il motivo per cui molti paesi al mondo, così come enti e università, si sono mossi per creare i loro LLM, Large Language Model autoctoni, plasmati su misura per riprendere a tutti gli effetti gli usi e costumi di un popolo, una sorta di super-uomo consapevole dello spazio e del tempo che sta vivendo.

Non siamo stati i primi ma nemmeno gli ultimi. Da qualche giorno è disponibile “Italia”, il modello sviluppato da iGenius e “allenato” da Cineca su un dataset nostrano, ossia composto da parole italiane e addestrato su 9 miliardi di parametri e 50 mila token del vocabolario, con oltre 1.000 miliardi di singole parole da associare per il training. Poco o tanto? Per confronto, il vecchio Gpt-3 operava su 175 miliardi di parametri mentre Gpt-4 su circa 100 mila miliardi.

Più che il dataset è la potenza di calcolo

È chiaro che non sia così importante avere una quantità smisurata di parametri quando la capacità di fare inferenza, ovvero trasformare i dati in sequenze logiche. Un processo che deve essere eseguito da una macchina, che è la base dell’algoritmo o di un cluster di algoritmi. Musk, prima di lanciare Grok su X ha pensato bene di comprarsi un bel po’ di GPU Nvidia mentre Microsoft, a fine 2023, ha presentato Azure Maia 100 e Cobalt 100, i primi due chip progettati per l’infrastruttura cloud potenziata dall’IA. Come dire: abbiamo costruito la monoposto, ci sono i piloti, però manca o c’è carenza di officine, il che realizzerebbe davvero il concetto di “sovranità” dell’intelligenza artificiale.

L’Italia è fatta

Rilasciato in modalità open source, Italia vuole essere uno strumento di evoluzione per la ricerca e le imprese di tutto il Paese. È scaricabile sul sito di iGenius e su altre piattaforme di sviluppo di prodotti IA, Italia è addestrato su un set di dati di testo e codice in italiano, proveniente da diverse fonti, tra cui Wikipedia, libri, articoli di giornale e codice sorgente.

Può essere utilizzato tramite un’interfaccia web o un’API. La prima è semplice da usare e non richiede alcuna conoscenza di programmazione. L’API è più complessa, ma offre maggiore flessibilità e controllo. Editoriale nazionale è il primo dei partner che ha voluto contribuire al training di Italia, aprendo il suo archivio storico di articoli, ma in futuro ci si aspetta che altri vogliano accodarsi.

Share.
Exit mobile version