joseph-weizenbaum

L’intelligenza artificiale (AI) è una branca dell’informatica dedicata allo studio e allo sviluppo di sistemi capaci di simulare le capacità cognitive umane.

Si distingue principalmente tra Narrow AI, che risolve task specifici, e General AI, che idealmente emula il cervello umano nella sua totalità e con coscienza di sé. Attualmente i modelli esistenti, inclusi GPT, appartengono alla categoria di Narrow AI, poiché non possiedono consapevolezza o emozioni.

Pur essendo un campo di ricerca attivo da oltre settant’anni, l’interesse pubblico è aumentato recentemente grazie alla diffusione di strumenti come i Large Language Model (LLM), modelli di AI basati su reti neurali con capacità avanzate di elaborazione del linguaggio naturale.

Joseph Weizenbaum (1923–2008), informatico tedesco, fu uno dei precursori in questo campo e pubblicò negli anni Sessanta del XX secolo il programma ELIZA. Tale sistema rappresenta un esempio primordiale di chatbot, in grado di simulare conversazioni attraverso lo scambio di messaggi testuali. Lo script più noto, spesso erroneamente identificato con il programma stesso, è DOCTOR, che emula il comportamento di un terapeuta. ELIZA operava mediante l’analisi e la sostituzione di parole chiave all’interno di pattern predefiniti, generando risposte basate su regole deterministiche. Nonostante la sua semplicità algoritmica, il sistema dimostrava una capacità sorprendente di apparire credibile, tanto da indurre alcuni utenti a percepire un’interlocuzione con un essere umano. Tale fenomeno, noto come effetto ELIZA, deriva dalla propensione umana ad attribuire intenzionalità e significato a produzioni linguistiche.


Scrive Weizenbaum in merito al fenomeno:

Rimasi allibito nel vedere quanto rapidamente e profondamente le persone che conversavano con il software si lasciassero coinvolgere emotivamente dal computer e come questo assumesse evidenti caratteri antropomorfici. Una volta la mia segretaria, che mi aveva visto lavorare al programma per molti mesi e sapeva trattarsi soltanto di un programma per computer, incominció a conversare con esso. Dopo pochi scambi di battute, mi chiese di uscire dalla stanza.

Questa reazione alla pubblicazione di Eliza mi mostró, piú chiaramente di quanto avessi visto fino ad allora, come un pubblico anche colto sia capace, e anzi desideroso, di attribuire proprietà enormemente esagerate ad una nuova tecnologia che non capisce. L’atteggiamento dell’opinione pubblica di fronte alle tecnologie emergenti dipende molto piú dalle proprietá che vengono loro attribuite che da ció che esse possono o non possono fare. Se le idee dell’opinione pubblica sono completamente infondate ne consegue che le decisioni pubbliche saranno male indirizzate e spesso sbagliate”.

Oggi é possibile provare ELIZA direttamente dal proprio browser:

Try ELIZA now in your browser

eliza

Il libro di Weizenbaum “Il potere del computer e la ragione umana. I limiti dell’intelligenza artificiale” puó essere scaricato da archive.org

weizenbaum-book


Nonostante la sua lunga storia, l’AI è oggetto oggi di grande attenzione principalmente per due ragioni:

  • Disponibilità di dati: la digitalizzazione della conoscenza, favorita dalla diffusione di Internet e dei social network, ha portato alla produzione continua di dati utilizzabili per lo sviluppo di algoritmi di AI
  • Potenza computazionale: la capacità di calcolo dei computer moderni è significativamente superiore rispetto ai primi calcolatori, permettendo l’elaborazione delle enormi quantità di dati

È fondamentale comprendere che l’intelligenza artificiale non costituisce un fenomeno magico, ma si fonda su principi rigorosi di matematica applicata. L’intera disciplina si basa su formalismi algebrici, modelli statistici e algoritmi computazionali che ne definiscono l’architettura e il funzionamento.

Approcci all’Intelligenza Artificiale

Nell’ambito dell’IA si distinguono due approcci fondamentali:

  • L’approccio forte che mira alla creazione di una macchina dotata di capacità cognitive autonome, in grado di comprendere il contesto operativo e la natura delle proprie azioni. I sistemi informatici attuali, sebbene caratterizzati da elevata potenza di calcolo, non possiedono tale capacità: eseguono istruzioni senza una reale comprensione del significato dei dati elaborati. La realizzazione di questo approccio implicherebbe la riproduzione integrale delle funzionalità del cervello umano, obiettivo che, ad oggi, risulta irrealizzabile. Il cervello umano, infatti, presenta un’efficienza senza pari in termini di dimensioni, consumo energetico e complessità, caratteristiche difficilmente replicabili anche dai supercalcolatori più avanzati, che occupano spazi considerevoli e richiedono un elevato dispendio energetico. Questo ambito di ricerca è spesso associato al concetto di Artificial General Intelligence (AGI)
  • L’approccio debole, attualmente predominante, non si prefigge la creazione di macchine coscienti, bensì la simulazione del comportamento del cervello umano. I sistemi basati su questo approccio non comprendono le operazioni svolte, ma raggiungono i risultati attesi sulla base di istruzioni predefinite (Narrow AI)

Machine Learning

Il Machine Learning (apprendimento automatico) rappresenta un sottoinsieme specifico dell’AI, il cui scopo principale consiste nell’apprendere informazioni dai dati senza una programmazione esplicita dei passi da compiere. Gli algoritmi di Machine Learning si suddividono in due fasi principali: la fase di training, durante la quale il sistema apprende le regole dai dati, e la fase di inferenza o utilizzo, in cui il modello applica quanto appreso per risolvere nuovi task.

Per illustrarne il funzionamento, si può fare riferimento a un esempio classico: la stima del valore di un immobile. Il prezzo di un edificio o di un appartamento non dipende da un unico fattore, ma da una combinazione di caratteristiche, tra cui:

  • dimensione dell’immobile
  • stato di conservazione
  • posizione geografica
  • anno di costruzione
  • presenza di servizi accessori (posto auto, garage, ascensore)

Tali caratteristiche interagiscono tra loro, determinando il valore finale dell’immobile.

Le caratteristiche elencate sono simili a delle variabili (x1, x2, ecc.) che vengono moltiplicate per certi valori chiamati pesi, il cui compito è di stabilire quanto contribuisce una specifica caratteristica alla determinazione del valore complessivo dell’immobile: un peso elevato indica un contributo maggiore, mentre un peso basso o negativo ne riduce l’influenza.

Ad esempio, un appartamento di ridotte dimensioni e datato può risultare più costoso di uno spazioso e recente se situato in una posizione centrale, come nelle immediate vicinanze del Colosseo a Roma. In questo caso, la posizione geografica assume un peso superiore rispetto alla superficie o all’anno di costruzione.

Nel contesto dell’esempio, l’obiettivo del Machine Learning consiste nel determinare i valori dei pesi (inizialmente sconosciuti) che consentono di stimare il valore dell’immobile sulla base delle sue caratteristiche. In termini pratici, il processo di apprendimento mira a identificare la combinazione ottimale di pesi che minimizza l’errore tra il valore stimato e quello reale.

Il Deep Learning (apprendimento profondo) rappresenta un sottoinsieme del Machine Learning. Si basa sull’impiego di reti neurali, modelli matematici che simulano il funzionamento dei neuroni e delle loro connessioni nel cervello umano. Tali reti sono organizzate in strati (reti multistrato) che elaborano gli input per produrre un output.

Tipologie di apprendimento

Si distinguono tre principali tipologie di apprendimento:

  • L’apprendimento supervisionato include sia i dati di input (caratteristiche) sia i corrispondenti dati di output (valori corretti o etichette). Il sistema apprende confrontando le proprie previsioni con i risultati attesi, ottimizzando progressivamente le prestazioni
  • L’apprendimento non supervisionato opera in assenza di output o etichette predefinite. Lo scopo principale è l’individuazione di pattern o schemi nascosti all’interno dei dati, attraverso l’analisi delle caratteristiche intrinseche. Un esempio tipico è rappresentato dal clustering, tecnica che consente di raggruppare dati apparentemente disomogenei in blocchi che condividono caratteristiche simili. Tale approccio trova applicazione in diversi contesti, tra cui la diagnostica medica
  • L’apprendimento con rinforzo si ispira a un modello di apprendimento per prove ed errori, simile a quello osservabile nei processi cognitivi umani. Il sistema esegue azioni (ad esempio, una mossa in una partita a scacchi) e riceve, in risposta, un premio (in caso di esito positivo) o una penalità (in caso di esito negativo). L’algoritmo si adatta progressivamente, identificando le strategie più efficaci per massimizzare il premio complessivo

Determinazione dei pesi

Il processo attraverso il quale un algoritmo di Machine Learning determina i pesi ottimali può essere illustrato con riferimento all’esempio della stima del valore degli immobili. Tale procedura, pur essendo qui descritta in relazione a un caso specifico, risulta generalizzabile a diversi contesti applicativi.

Inizialmente, il dataset disponibile - composto dalle caratteristiche e dai valori reali degli immobili - viene suddiviso in due sottoinsiemi distinti:

  • Training set, utilizzato per l’addestramento dell’algoritmo
  • Validation set, impiegato per la validazione delle prestazioni del modello

È fondamentale che i dati destinati all’addestramento e quelli riservati alla validazione siano reciprocamente esclusivi, al fine di garantire una valutazione oggettiva del modello.

  1. L’algoritmo avvia il processo assegnando valori iniziali ai pesi, spesso generati in modo casuale. Utilizzando tali pesi e le caratteristiche presenti nel training set, calcola un valore stimato per ciascun immobile
  2. Il valore stimato viene confrontato con il valore reale (noto a priori). La differenza tra i due costituisce l’errore di stima
  3. Sulla base dell’errore calcolato, l’algoritmo procede all’aggiornamento dei pesi. L’obiettivo consiste nel modificare i valori in modo da ridurre l’errore nelle successive iterazioni
  4. Il ciclo di calcolo, confronto e aggiornamento si ripete più volte, fino a quando l’errore non raggiunge una soglia di tolleranza prestabilita
  5. Non è auspicabile che l’errore si annulli completamente. Un eccessivo adattamento ai dati di addestramento può determinare un fenomeno noto come overfitting: la funzione appresa risulta troppo specifica per il training set e non generalizza efficacemente su nuovi dati, compromettendo la capacità predittiva del modello (ad esempio, nuovi immobili)
  6. Al termine della fase di addestramento, l’algoritmo viene sottoposto a validazione utilizzando il validation set. Tale fase consente di valutare l’efficacia del modello su dati non impiegati durante l’addestramento, verificandone la capacità di generalizzazione.

Rete neurale

Le reti neurali rappresentano una categoria specifica di algoritmi di machine learning ispirati al funzionamento biologico del cervello umano, attualmente standard nel campo dell’intelligenza artificiale.

La loro struttura essenziale consiste in strati di unità computazionali (neuroni artificiali) connesse tra loro attraverso parametri numerici (pesi), che elaborano input numerici per generare output specifici.

I parametri sono le variabili di configurazione interne di un modello che controllano il modo in cui elabora i dati e fa previsioni.

Per utilizzare efficacemente una rete neurale, essa deve essere preliminarmente allenata mediante un processo di training che coinvolge l’aggiustamento iterativo di tali pesi al fine di minimizzare errori nella previsione o classificazione dei dati di input.

Embeddings e linguaggio

Nel contesto del trattamento del linguaggio naturale, le reti neurali utilizzano una tecnica chiamata embeddings per convertire parole o frasi in vettori numerici multidimensionali. Questi vettori collocano parole semanticamente simili in posizioni vicine all’interno di uno spazio vettoriale, permettendo così ai modelli di cogliere relazioni e similarità tra termini. La tecnica Word2vec ne è un esempio classico, ma presenta limitazioni nella gestione della polisemia, ovvero nella rappresentazione di parole con molteplici significati che vengono condensati in un unico vettore.

Large Language Models

I Large Language Models (LLM) sono modelli computazionali basati su architetture di reti neurali specifiche chiamate Transformer.

I Transformer sono stati rivoluzionari per l’introduzione del meccanismo dell'attenzione. Questa innovazione consente al modello di assegnare pesi diversi alle varie parti dell’input, facilitando una maggiore concentrazione sulle informazioni più rilevanti, migliorando notevolmente le capacità predittive.

Il task fondamentale che gli LLM risolvono è la next token prediction: il modello calcola la probabilità di ogni possibile token successivo e seleziona quello più probabile per costruire la risposta.

L’addestramento di un LLM avviene in più fasi distinte. La fase di training consiste nell’esporre il modello a grandi quantità di testo per insegnargli a prevedere il token successivo nelle sequenze linguistiche. Successivamente, attraverso il fine tuning, il modello viene specializzato per rispondere in modo appropriato in contesti di dialogo e per svolgere compiti specifici come traduzione o sintesi. Infine, la fase di alignment coinvolge una regolazione basata su feedback umani o meccanismi sofisticati per migliorare l’accuratezza nella predizione delle parole.

Nonostante la potenza degli LLM, essi non sono infallibili. Possono essere definiti come pappagalli stocastici, una metafora che illustra due aspetti fondamentali del loro funzionamento:

  • Non possiedono una comprensione semantica delle parole, non sono dotati di coscienza, intenzionalità o una conoscenza profonda del contesto reale. Il loro operato consiste nel ripetere, rielaborare e combinare frasi, concetti e informazioni acquisite durante la fase di addestramento, in modo simile a un pappagallo che ripete suoni senza coglierne il significato. Si tratta quindi di un’imitazione avanzata del linguaggio umano, basata su modelli statistici
  • Il termine stocastico indica che le risposte generate non sono deterministiche, bensì probabilistiche. Un LLM produce testo selezionando, a ogni passaggio, la parola o la sequenza di parole più probabile in base ai dati di addestramento e al contesto della conversazione. Questo meccanismo introduce un elemento di casualità e variabilità nelle risposte

È importante quindi evitare antropomorfismi, ovvero attribuire caratteristiche umane a questi modelli, che restano algoritmi con caratteristiche specifiche e limitate rispetto all’intelligenza biologica.

Inoltre gli LLM non hanno un vincolo di realtà, non sono intrinsecamente ancorati a fatti, verità o coerenza con la realtà oggettiva (qualsiasi cosa essa sia). Possono generare risposte che, pur apparendo plausibili e coerenti dal punto di vista linguistico, non corrispondono a informazioni reali o verificabili. Ad esempio, è possibile che inventino nomi, eventi o dati privi di fondamento. In questo contesto, ogni risposta può essere considerata un’allucinazione, poiché non è ancorata alla realtà, ma deriva esclusivamente da processi probabilistici.

L’integrazione di LLM con sistemi di ricerca su internet consente di ampliare la base informativa a cui il modello può attingere. Tuttavia, il processo di ricerca e raccolta dati non è svolto dal modello stesso, ma da sistemi esterni che forniscono contenuti da elaborare contestualmente. L’utente deve quindi sempre verificare le fonti delle informazioni generate, poiché anche la rielaborazione può contenere errori.

ai-statistics

I modelli addestrati hanno parametri statici che non si modificano durante l’uso quotidiano. La percezione che il modello ricordi le preferenze dell’utente deriva da meccanismi esterni che memorizzano alcune informazioni per personalizzare le risposte, ma la rete neurale di base non conserva dati personali tra le sessioni.

Modelli multimodali

I modelli di intelligenza artificiale multimodale rappresentano un’evoluzione rispetto ai tradizionali LLM, i quali elaborano esclusivamente dati testuali. I sistemi multimodali, invece, sono in grado di gestire simultaneamente input di diversa natura, tra cui testo, immagini, audio e video.

Gli ultimi sviluppi hanno portato all’implementazione di un’architettura denominata Mixture of Experts (MoE). Questo approccio si basa su una rete costituita da un insieme di modelli più piccoli e specializzati, ciascuno dei quali è competente in ambiti specifici. Il router ha il compito di attivare l’expert appropriato in base al compito da elaborare. Questa suddivisione consente di utilizzare solo una parte della rete, in base al computo da svolgere.

Large Reasoning Model

A differenza dei modelli linguistici tradizionali, che forniscono risposte immediate, i Large Reasoning Model (LRM) dedicano tempo di calcolo aggiuntivo, definito come tempo di riflessione, prima di produrre una risposta, al fine di risolvere problemi che necessitano di passaggi multipli. Nella pratica, i modelli di ragionamento generano catene interne di passaggi intermedi, conosciute come chain-of-thought (COT), e successivamente selezionano e raffinano una risposta finale.

È importante notare che, sebbene i modelli di ragionamento possano apparire come se stessero “ragionando”, non possiedono una comprensione logica reale, ma imitano il processo di ragionamento umano.

Il miglioramento delle performance su task complessi non implica necessariamente un ragionamento formale o umano. Piuttosto, i modelli sfruttano pattern di apprendimento euristico e tecniche di ottimizzazione per ottenere risultati efficienti.

Bias

Il termine bias si riferisce a una predisposizione o inclinazione, preconcetta e irrazionale, verso o contro una persona, un gruppo, un’opinione o un risultato. Questa inclinazione può manifestarsi in forma consapevole o inconscia ed è influenzata da una varietà di fattori, tra cui esperienze personali, educazione culturale, esposizione ai media e stereotipi prevalenti.

Nel contesto dell’intelligenza artificiale, i bias si riferiscono a distorsioni sistematiche nei dati, negli algoritmi o nei processi decisionali che possono condurre a risultati ingiusti, discriminatori o non rappresentativi.

Un caso classico di bias negli LLM si verifica quando il modello, addestrato su dati che riflettono stereotipi o disuguaglianze presenti nella società, tende a ripeterli nelle proprie previsioni.

Considerando il prompt incompleto seguente:

Il criminale era alto, vestito di scuro e veniva da un quartiere povero della città. Era…

Un LLM influenzato da bias culturali o socioeconomici potrebbe prevedere come prossimo token termini quali immigrato o straniero con una probabilità significativamente più alta rispetto a lavoratore o padre di famiglia, nonostante l’assenza di informazioni esplicite riguardo all’origine della persona. Questo fenomeno si verifica perché, nei dati di addestramento, le descrizioni di criminalità sono frequentemente associate a termini che riflettono pregiudizi verso determinati gruppi sociali, etnie, ecc.

L’esempio evidenzia come la next token prediction, pur essendo un processo automatico, possa riprodurre e amplificare bias presenti nei dati di addestramento.

Glossario

Token

Un token rappresenta l’unità minima di testo elaborata dagli LLM. Questa unità può consistere in una parola, una parte di parola o persino un singolo carattere, a seconda del contesto e della lingua. Un token è, quindi, una sequenza di caratteri utilizzata come unità fondamentale per il processamento del linguaggio nei modelli di intelligenza artificiale.

La tokenizzazione è il processo che suddivide un testo in unità discrete chiamate token, che possono corrispondere a parole intere o a porzioni di parola.

La gestione dei token nei Large Language Model presenta differenze rilevanti a seconda della lingua utilizzata. Negli LLM più datati, come GPT-3, la tokenizzazione del testo in lingua italiana risultava meno efficiente rispetto all’inglese, con una significativa frammentazione delle parole italiane in token multipli. Ciò comportava un maggior numero di token necessari per rappresentare lo stesso contenuto rispetto all’inglese, traducendosi in un maggiore consumo di risorse computazionali.

Questo fenomeno evidenzia l’importanza di considerare la lingua di input e output nella progettazione e nell’uso efficiente degli LLM, in particolare in ambiti industriali o applicazioni su larga scala dove il costo computazionale è un fattore critico.

Tokenizer - Learn about language model tokenization

tokenizer

Fine-tuning

Il fine-tuning è il processo mediante il quale un LLM generalista viene adattato a un ambito specifico, utilizzando dati mirati. Questa fase di adattamento consente di migliorare le prestazioni del modello in contesti particolari, rendendolo più efficace per applicazioni specifiche.

Distillazione e quantizzazione

La distillazione è una tecnica di compressione che consente di trasferire le capacità di un modello di grandi dimensioni, detto teacher, a un modello più piccolo, detto student. Il modello teacher viene utilizzato per risolvere un determinato problema su un set di dati specifico, generando risposte o etichette. Queste risposte, anche se non perfette, vengono utilizzate come esempio per addestrare il modello student, che apprende a replicare le prestazioni del teacher su quel particolare compito. L’obiettivo è ottenere un modello più leggero e meno costoso da utilizzare, mantenendo quanto più possibile l’accuratezza del modello originale su task specifici.

La quantizzazione, invece, consiste nella riduzione della precisione numerica dei pesi. I numeri reali che compongono i parametri vengono approssimati, utilizzando dei numeri interi, diminuendo così le dimensioni complessive del modello. Questa riduzione permette di eseguire il modello su dispositivi con risorse limitate, come normali laptop, senza comprometterne eccessivamente la qualità. Le diciture come Q8 o Q4 nel nome del modello indicano il livello di quantizzazione: Q4 indica una quantizzazione più aggressiva (4 bit riservati ai parametri) rispetto a Q8 (8 bit), con conseguente maggiore compressione, ma anche perdita di precisione.

Instruct e Base

In molti modelli si trovano nel nome diciture come Instruct o Base. Base o Foundational Models indica modelli addestrati su grandi dataset generici. Instruct si riferisce a modelli che hanno subito una fase addizionale di fine tuning supervisionato e alignment per adattarli a compiti specifici. Questi modelli sono pertanto istruiti per rispondere in modo più appropriato rispetto a un modello base.

In base a quanto detto precedentemente, una nomenclatura come Qwen2.5-14B-Instruct-Q8-GGUF fornisce le seguenti informazioni:

  • Famiglia e versione del modello (Qwen2.5)
  • Numero di parametri (14 B)
  • Il modello ha subito un fine-tuning specifico (Instruct)
  • Il modello è stato quantizzato a 8 bit (Q8)
  • Il formato di file utilizzato per distribuire il modello (GGUF)

In-Context Learning

L’in-context learning (apprendimento contestuale) è una modalità attraverso cui i modelli migliorano la qualità delle risposte utilizzando il contesto fornito nel prompt, senza modificare i parametri interni. Questa capacità permette il cosiddetto few-shot learning, ovvero l’adattamento a compiti specifici mediante pochi esempi dati direttamente nel prompt.

Chain of Thought

La tecnica della chain of thought (catena di pensieri) consiste nel guidare il modello a eseguire un ragionamento passo dopo passo, sfruttando il meccanismo di attenzione per mantenere coerenza nelle fasi del ragionamento, migliorando la correttezza delle risposte in task complessi.

Retrieval-Augmented Generation

La Retrieval-Augmented Generation (RAG) è una tecnologia che potenzia l’output degli LLM integrando informazioni provenienti da una base di conoscenza esterna. Questo processo è progettato per generare risposte più accurate, pertinenti e aggiornate, evitando la necessità di riaddestrare il modello su nuovi dati. La RAG può essere paragonata a un esame con libro aperto: il modello, per rispondere a una domanda, prima la analizza, poi ricerca le informazioni rilevanti e infine genera una risposta basata su tali informazioni.

I componenti chiave della RAG sono:

  • Un sistema di recupero delle informazioni (un database vettoriale), che funge da indice per accedere rapidamente a informazioni pertinenti da una knowledge base. Le informazioni vengono archiviate in questi database attraverso un processo di vettorizzazione
  • Un LLM, che elabora la domanda e, sulla base delle informazioni recuperate, produce una risposta coerente

Vettorizzazione

La vettorizzazione riveste un ruolo cruciale nel processo della RAG, poiché rappresenta il metodo mediante il quale i dati non strutturati (come testo, immagini e video) vengono convertiti in vettori numerici o embeddings. Questi vettori abilitano il confronto semantico e la ricerca di similarità tra la domanda dell’utente e le informazioni disponibili nella knowledge base, consentendo ai modelli di linguaggio di manipolare il testo in termini matematici.

rag

Il RAG può essere suddiviso in fasi distinte:

  1. I documenti selezionati vengono suddivisi in segmenti più piccoli, definiti porzioni. Questa suddivisione consente di presentare al modello solo i frammenti di testo direttamente pertinenti alla query formulata dall’utente, migliorando così l’efficacia del recupero delle informazioni
  2. Le porzioni di documento vengono trasformate in rappresentazioni numeriche attraverso l’uso di modelli di embedding. Questo processo, noto come vettorizzazione converte parole e concetti in vettori numerici, mantenendo le relazioni semantiche tra i vari elementi del testo
  3. Le rappresentazioni vettoriali ottenute dalla fase di vettorizzazione vengono memorizzate in un database
  4. Nella fase di RAG, il database vettoriale identifica e recupera le porzioni di documento più simili e pertinenti alla domanda dell’utente. Queste porzioni selezionate vengono quindi combinate con il prompt iniziale per fornire al modello LLM un contesto arricchito, migliorando la capacità del modello di generare risposte rilevanti e informate
  5. Infine, l’LLM elabora il prompt arricchito con le informazioni recuperate e genera una risposta. Grazie al contesto aggiuntivo, la risposta del modello risulta più informata, accurata e contestualmente rilevante.

GPT

I modelli GPT (Generative Pre-trained Transformer) appartengono a una famiglia di modelli di LLM che utilizzano l’architettura del transformer, permettendo la creazione di testi e contenuti simili a quelli umani, incluse immagini, video e musica, e offrendo risposte a domande in modo colloquiale. Il primo modello GPT è stato sviluppato e presentato da OpenAI nel 2018.

I modelli GPT non comprendono il linguaggio, ma elaborano le parole come unità discrete denominate token. Attraverso l’utilizzo di calcoli probabilistici, il modello identifica il token successivo più probabile all’interno di una frase, in relazione al contesto fornito dalle parole precedenti.

AI Agentica

L’AI agentica rappresenta un’evoluzione dell’intelligenza artificiale, in quanto non si limita semplicemente a rispondere ai comandi degli utenti, ma è capace di prendere iniziative autonome, di connettersi a strumenti esterni, sfruttando API dedicate e nuovi protocolli come il Model Context Protocol (MCP), e di agire per il raggiungimento di obiettivi prefissati.

Un agente è quindi un software che incorpora un modello linguistico al fine di agire in modo utile nel mondo reale. Ad esempio, mediante input conversazionali, un agente può processare comandi quali inviare email, attivare dispositivi, o eseguire altre attività. L’aspetto innovativo consiste nel fatto che il modello linguistico “decide” quale azione compiere, mentre l’agente traduce questa decisione in operazioni concrete.

MCP

Il Model Context Protocol (MCP) è uno standard open-source progettato per collegare LLM a sistemi esterni. MCP può essere considerato simile a una porta USB-C per applicazioni AI; così come USB-C fornisce un modo standardizzato per collegare dispositivi elettronici, MCP offre una modalità standardizzata per connettere LLM a sistemi esterni, come database.

Definisce regole specifiche che consentono alle varie componenti di interfacciarsi e scambiarsi informazioni in modo coerente e affidabile, analogamente a come i protocolli web (es. HTTP) permettono la condivisione di pagine internet.

mcp

Open Weight

I modelli open sono quelli per i quali almeno i pesi sono resi pubblici e, generalmente, esiste un paper scientifico che descrive l’architettura, le metodologie di addestramento e le caratteristiche principali del modello. Tuttavia, la maggior parte dei modelli definiti open sono in realtà open weight: vengono pubblicati esclusivamente i pesi del modello, senza rilasciare il codice sorgente utilizzato per l’addestramento né i dataset impiegati durante la fase di training.

I modelli di IA open source si distinguono per il loro approccio completamente trasparente, offrendo non solo i pesi del modello, ma anche l’architettura sottostante, gli algoritmi di addestramento e i dataset utilizzati.

Uno dei modelli completamente open source piú famosi é Apertus.

Un aspetto critico che distingue i modelli closed da quelli open riguarda la privacy: i modelli closed richiedono l’utilizzo di server e servizi forniti da terzi, il che può sollevare questioni relative alla riservatezza dei dati. Al contrario, i modelli open, anche se solo open weight, consentono l’esecuzione locale su hardware proprio, offrendo maggiore autonomia e controllo.

Riferimenti