I grandi modelli linguistici

WhatsApp
Facebook
Twitter
Instagram
Telegram

da ELEONORA ALBANO

L’errore più comune nel discorso delle Big Tech – gli attuali proprietari di “grandi modelli linguistici” e tecnologie simili – è la mezza verità

L’onnipotenza della scienza dura del nord del mondo

In un’era di crescente dataficazione dell’esperienza umana, non sorprende che il pensiero critico sia in declino tra gli scienziati. Ma è comunque allarmante che ciò possa avvenire nella redazione di una rivista accademica tradizionale, prestigiosa – e generalista. È stato, quindi, con un misto di stupore e indignazione che ho letto il paragrafo di apertura, trascritto di seguito, dell'editoriale del volume di luglio 2023 della rivista Intelligenza della macchina della natura. Come è noto, il gruppo editoriale Natura, fondato a Londra nella seconda metà del XIX secolo, la sua missione è quella di mettere a disposizione dell'intera comunità scientifica un quadro attendibile dei progressi compiuti nei vari ambiti della conoscenza.

"Frederick Jelinek, un rinomato ricercatore ceco-americano nel campo dell'elaborazione del linguaggio naturale e del riconoscimento vocale, nel 1985 disse: "Ogni volta che licenzio un linguista, le prestazioni del riconoscitore vocale aumentano", suggerendo che potrebbe non esserci un modo efficiente per includere conoscenza linguistica in tali sistemi. Questo sentimento è vero anche per i modelli linguistici di grandi dimensioni (LLM) all’avanguardia, che sembrano essere per lo più artefatti dell’informatica e dell’ingegneria? Sia i LLM che la linguistica si occupano dei linguaggi umani, ma non è chiaro se e come possano avvantaggiarsi a vicenda".[I]

È quantomeno irresponsabile che coloro che pubblicizzano i progressi dell’intelligenza artificiale (AI) al resto della comunità scientifica ignorino – o non vogliano ammettere – che i grandi modelli linguistici (di seguito GML, come l’inglese LLM ) si sono abbondantemente nutriti di concetti e tecniche della linguistica, così come di altre scienze che descrivono e interpretano il linguaggio naturale.

Ci sono almeno due ragioni per tale disinformazione. Il primo è politico. È solo che gli scienziati umani – linguisti, psicologi, sociologi, antropologi, ecc. – responsabili delle tassonomie essenziali alla formazione delle banche dati dei “grandi modelli linguistici” sono, in generale, i cittadini di “seconda categoria”, reclutati nei paesi poveri, come lavoratori esternalizzati e precari, per i compiti considerati “banali” di etichettatura dei dati e, se necessario, prendere decisioni sulla categorizzazione.

La seconda è l'epistemologia generalmente associata a questa visione dell'azione e, in particolare, del lavoro umano: qualsiasi azione, di qualsiasi complessità, può essere ridotta a una catena di associazioni. Vi si riconosce l'influenza dell'empirismo inglese, mediata dalla sua già secolare[Ii] seguito nella psicologia americana, il comportamentismo.

Vedremo di seguito come la concezione di azione sviluppatasi in Europa a partire dal XVII secolo reifica non solo l'attività, ma anche il pensiero umano. Una nozione atomistica della meccanica, sufficientemente vaga da adattarsi sia all'empirismo che al razionalismo, ha permesso di escludere alcuni gruppi dell'umanità, assimilandoli all'animale-macchina cartesiana. Attraverso di esso, le potenze coloniali europee giustificarono facilmente la riduzione in schiavitù dei nativi delle loro colonie, così come l’espropriazione dei poveri europei.

Prendendo come sfondo lo scenario coloniale, questo saggio si propone di mostrare che esiste un forte legame tra la posizione politica che riduce alcuni tipi di lavoro scientifico a una catena di montaggio e la posizione “scientifica” che vede il linguaggio naturale umano come un numero infinito di catene interconnesse.

Il fatto che queste idee siano implicite nella produzione delle tecnologie linguistiche consente alla loro tacita violenza, inerente alla formazione in informatica, di militare per gli interessi dell’attuale aspetto della colonialità, noto come capitalismo di piattaforma o di sorveglianza.[Iii]

Linguaggio naturale denaturalizzato

Il suddetto editoriale onora la tradizione empirista non solo perché la rivista è inglese, ma, soprattutto, perché l’area dell’elaborazione del linguaggio naturale (di seguito PNL) – una sottoarea dell’intelligenza artificiale responsabile dei “grandi modelli linguistici” – è nato e fiorito in un ambiente fortemente empirista – o, più precisamente, comportamentista.

I ricercatori del settore ritengono che la mente umana sia una macchina di Turing, composta da miliardi di automi a stati finiti.[Iv] intrecciate. Non sorprende, quindi, che gli amministratori delegati delle aziende dell’area vedano le persone che alimentano i “grandi modelli linguistici” come semplici macchine che forniscono le informazioni necessarie e sufficienti per consentire ai “grandi modelli linguistici” di superare il test di Turing nel futuro prossimo.

Questi esperti non si rendono nemmeno conto – o fingono di non rendersi conto – quanta intelligenza sia alla base del lavoro degli etichettatori. Come ha documentato il giornalista investigativo Josh Dzieza,[V]  nell'Intelligenza Artificiale è praticamente impossibile adottare subito una categoria intuitiva, poiché diversi esempi dello stesso oggetto tendono ad essere considerati indistinti dalla macchina.

Per addestrarlo a imitare le nostre categorie, i tagger devono generare una sottocategorizzazione dettagliata e organizzarla in una gerarchia di livelli. Come altri robot, i “grandi modelli linguistici” richiedono un numero infinito di iterazioni per raggiungere le generalizzazioni a cui arriva ogni bambino umano dopo un’esposizione relativamente breve ai dati.

Nell'elaborazione del linguaggio naturale, una delle principali manifestazioni di questo tipo di difficoltà è nei contesti sintattici e semantici che contengono discontinuità.

Si noti che il compito di un “grande modello linguistico” è sempre quello di prevedere la parola successiva – come fanno, anche se in modo approssimativo, gli editor di testo dei cellulari. Questo è un compito facile nel caso dei cliché, i cui termini ricorrono molto frequentemente, ma molto difficile nella maggior parte degli altri casi.

Pertanto, nelle espressioni a frequenza più bassa, la stima statistica è possibile solo grazie a quattro componenti, tutte indispensabili: un database di molti miliardi di parole; una tecnologia molto potente – la cui capacità di apprendere associazioni supera quella delle reti neurali ricorrenti (anche profonde, cioè a più strati); descrizioni grammaticali e semantiche esaustive; e una formazione intensiva in cui gli errori di associazione vengono corretti in modo iterativo. Ovviamente, le descrizioni e le correzioni di cui sopra sono tutte apportate da esseri umani, esternalizzati e precari.

Si stima che i database che alimentano chatbot dialogici come ChatGPT, da Open AI, il Vate, da Google e il Bing, di Microsoft, sono dell'ordine di 300 miliardi di parole. Si chiama il potentissimo dispositivo che ne permette l'utilizzo in tempo reale trasformatore – tradotto come trasformatore. Si tratta di un modello statistico che applica un insieme di tecniche matematiche, chiamate “attenzione” e “autoattenzione”, per rilevare le dipendenze tra gli elementi di una catena – nel primo caso, l'input o l'output; nel secondo, la catena stessa.

Una massa di robot interconnessi

Da notare che il trasformatore alla base dei “grandi modelli linguistici” ha poco a che vedere con l’omonimo dispositivo che modifica i livelli di tensione della corrente elettrica. Ciò che cambia, quando si sceglie una parola dopo l'altra, sono le relazioni tra i termini presenti nel database (di seguito corpus, per semplicità), poiché ogni nuova occorrenza alimenta la voce e riorganizza la rete di relazioni esistente.

Non è difficile capire come. Tutte le relazioni sono espresse dai pesi di connessione tra i nodi delle sottoreti del corpus. Questi pesi sono, a loro volta, calcolati in base alle probabilità di co-occorrenza di possibili coppie di parole. Il trasformatore è sufficientemente potente da consentire a tutti i membri del corpus, così come a tutte le sue etichette (grammaticali, semantiche, discorsive, psicologiche, sociologiche, politiche, etnografiche, ecc.), di connettersi tra loro simultaneamente, in modo che il calcolo di la parola successiva può considerare gli aspetti più diversi dell'enunciato attuale e del suo contesto.

Va notato che il volume di etichette disponibili per perfezionare questo calcolo è gigantesco. Quelli più semplici riguardano aspetti come le classi grammaticali e le forme testuali di denominazione e riferimento (ad esempio nomi propri, pronomi personali, dimostrativi, possessivi, ecc.).

Vale anche la pena notare che l'etichettatura non si limita alle parole. Comprende anche le parti del discorso (ad esempio soggetto, predicato, aggiunte); frasi e loro classificazione sintattica (ad esempio, principale, subordinata e rispettive sottoclassi); e generi testuali orali o scritti (ad esempio, colloquiale, letterario, giornalistico, legale, scientifico, ecc.).

Chi, sulla base di quanto sopra, ha immaginato che le banche dati dei “grandi modelli linguistici” assomiglino a giganteschi dizionari le cui “voci” sono implicite nella loro rete di connessioni, ha risolto un terzo dell’enigma. Tuttavia, il contenuto degli altri due terzi è altrettanto importante: si tratta di informazioni grammaticali ed enciclopediche cruciali – fornite, ancora una volta, dai tagger.

Tutte le occorrenze della stessa parola, infatti, sono collegate tra loro; e i loro diversi significati sono rappresentati dalle somiglianze e dalle differenze, codificate matematicamente, tra le frasi a cui si collegano. Ciò finisce per funzionare più o meno come gli esempi forniti nelle voci delle parole polisemiche nei dizionari.

Inoltre, gli elementi di ogni frase si collegano a una grammatica. In esso, le strutture sintattiche sono mappate in diagrammi ad albero[Vi], mentre le strutture semantiche si riferiscono a diverse forme logiche (tramite il calcolo proposizionale, tra gli altri) e campi semantici (ad esempio, i nomi dei frutti si collegano, dal basso verso l'alto, ai campi di frutta, verdura, alimenti, ecc.). La grammatica fa riferimento anche a indicizzatori di coreferenza (ad esempio, nella frase “João disse que que está não faz o him”, il pronome ‘o’ può riferirsi a João stesso, a una seconda persona o a una terza persona).

Infine, i testi sono classificati in base alla conoscenza del mondo (ad esempio, soggetto, genere, paternità, tono, stile, fonti documentarie; con etichette che vanno dal più generico al più specializzato). Queste informazioni, dopo essere state meticolosamente annotate e collegate, consentono infinite ricerche per soddisfare esigenze complesse, come risolvere compiti scolastici, scrivere pareri legali, assistere in diagnosi mediche, ecc.

Questa raccolta gigantesca ed esaustivamente interconnessa conferisce ai “grandi modelli linguistici” un'enorme capacità di costruire “nuove” frasi parafrasando frammenti di dati contenuti nel database stesso. Quando lo dice l'eminente linguista, filosofo e matematico Noam Chomsky chatbots sono semplici plagiatori, non dicono che si limitano a copiare e incollare tagli letterali dalla base. È, infatti, presupposto che producano buoni pastiches del proprio contenuto, attraverso sinonimi e parafrasi concatenati in modo tale da rendere quasi impercettibili le toppe e le cuciture. Connessioni esaustive consentono loro di trovare facilmente le migliori scorciatoie per farlo.

Tuttavia, la concatenazione finisce per fallire e suonare strana quando un esperto di un determinato argomento pone al robot una domanda trabocchetto. Vediamo come linguista Roni Katzir[Vii] fatto il ChatGTP4 perdersi con i puntini di sospensione che chiunque abbia un buon inglese capirebbe facilmente. La richiesta era di scegliere la migliore tra queste due frasi: (1) È arrivata la persona che Mary ha incontrato ieri e di cui John parlerà con Ed domani; (2) È arrivata la persona che Mary ha incontrato ieri e alla quale John parlerà domani con Ed della sua nuova idea.

Il robot non ha esitato a rispondere che era il secondo, poiché era “più informativo”. Ha così ignorato una regola grammaticale inglese che richiede coreferenza tra due o più ellissi coordinate – in questo caso, l’oggetto di ‘di cartone ’ e il complemento del verbo preposizionato ‘parlare circa’. L'aggiunta di "la sua nuova idea” provoca una drastica rottura del significato della frase, già gravato dalle lunghe separazioni tra soggetto e verbo principale, e tra il verbo ‘parlare’ e l’avverbio ‘Domani'. Pertanto, nella (2), non è possibile stabilire la coreferenza tra ‘la persona’ e le due occorrenze coordinate di ‘che’. La reazione umana è semplicemente quella di giudicare la frase anomala, mentre quella del robot è quella di forzare un'interpretazione.

Il fatto che l'autore abbia coniato frasi così tortuose è probabilmente un espediente per complicare la ricerca di un analogo nel database. L'importante è che, tuttavia, la frase (1) sia grammaticale e la frase (2) no. Ogni volta che la ricerca finisce in un labirinto, il robot si perde e devia, ricorrendo a uno dei suoi cliché preregistrati.

Luoghi comuni simili emergono anche quando qualcuno ti mette di fronte a una richiesta di presa di posizione morale. Insistendo sul fatto che ChatGPT ha adottato una prospettiva personale su una questione morale, il ricercatore Jeffrey Watumull, collaboratore e coautore di Noam Chomsky[Viii], trasse da lui una contrita dichiarazione della sua non umanità. Prestiamo attenzione alla “modestia” della macchina: “Come intelligenza artificiale, sono un modello di apprendimento automatico che è stato addestrato su grandi quantità di dati di testo e non ho esperienze o sentimenti personali. Non sono cosciente, consapevole di me stesso o capace di avere prospettive personali. Posso fornire informazioni e analisi basate sui dati su cui sono stato formato, ma non ho la capacità di forgiare opinioni o convinzioni personali. Anche se posso comprendere e interpretare il linguaggio, non ho l'esperienza soggettiva che hanno gli esseri umani. "[Ix]

L'unica caratteristica umana a cui il robot non rinuncia, dando voce alle idee dei suoi creatori, è la comprensione del linguaggio naturale. Proprio come la linguistica inconfessata sotto i robot linguistici nasconde i propri tag, la psicologia inconfessata dei loro creatori meccanizza la capacità linguistica umana, equiparandola a una gigantesca massa di automi a stati finiti interconnessi attraverso un enorme trasformatore.

Vedremo di seguito che la politica dei fornitori di chatbot ha tre ingredienti a supporto: (i) evitare dichiarazioni esaustive; (ii) stimolare la curiosità del pubblico sui possibili sviluppi futuri dei “grandi modelli linguistici”; (iii) affrontare la controversia sul suo potenziale transumano[X]  come una semplice disputa di opinioni.

Proiezioni su misura

L’errore più comune nel discorso delle Big Tech – gli attuali proprietari dei “grandi modelli linguistici” e delle tecnologie correlate – è la mezza verità. Tali aziende sono maestre nel mascherare la loro clemenza – per non dire connivenza – con le falsità rese virali dai media sui loro prodotti. D'altro canto, se interrogati, sono pronti a offrire chiarimenti, a prima vista accurati, ma spesso lacunosi e sfuggenti.

Un buon esempio è il modo in cui Google si è recentemente esentata dalla responsabilità per le voci sugli attributi umani del suo primo prototipo di chatbot, “LaMDa"(modello linguistico per applicazioni di dialogo), nel 2021. Invece di emettere e pubblicare adeguatamente una dichiarazione di principi, è diventata pubblica solo dopo che un ingegnere del team ha raggiunto un picco virale affermando che il modello era diventato senziente.

L’ingegnere ha subito una sospensione amministrativa e la società ha annunciato la sua posizione secondo cui la sensibilità è ancora “molto lontana” dall’essere raggiunta dai robot, dal linguaggio o altro. Con ciò si è scrollato di dosso la responsabilità della notizia fallace, senza però negare i suoi piani di “umanizzare” sempre più i figli della sua divisione di Intelligenza Artificiale. Tanto che il discendente più recente di LaMDao Vate, ha già un luogo comune su misura per cavillare sull'argomento.

Tra gli altri predicati, il Vate è gratuito e, secondo me, più carino di ChatGPT, il suo rivale lanciato poco prima da Open AI, con il supporto di Microsoft. Ecco la sua attenta risposta ad una domanda che gli ho rivolto, seguendo alla lettera il modello di Watumull: “Il concetto di intelligenza, coscienza, sentimento e capacità di esprimere giudizi morali del chatbot è complesso e ancora oggetto di dibattito tra gli esperti. Non esiste una definizione univoca di questi termini e spesso sono usati in modo intercambiabile. Alcuni esperti ritengono che i chatbot possano essere intelligenti, ma non coscienti o senzienti. Sostengono che i chatbot sono semplicemente algoritmi molto sofisticati in grado di elaborare le informazioni e rispondere in un modo che sembra intelligente. Tuttavia, non hanno lo stesso livello di consapevolezza o autocoscienza degli umani. "[Xi]

Come si può vedere, entrambi i robot sembrano essere stati addestrati per non compromettere i loro creatori con le fantasie di umanità che risvegliano nei loro utilizzatori.

Per testare nuovamente questa idea, ho inviato il file Vate alla discussione di Katzir sulle due frasi con ellissi diverse in termini di grammaticalità in inglese. Ha subito dato questa risposta, analoga a quella del ChatGPT. Vediamo: "Entrambe le frasi sono grammaticalmente corrette, ma hanno significati diversi. La prima frase, “È arrivata la persona che Mary ha incontrato ieri e di cui John parlerà a Ed domani”, è più concisa e diretta. Ci dice che la persona che Mary ha incontrato ieri è la stessa persona di cui John parlerà con Ed domani. La seconda frase, "La persona che Mary ha incontrato ieri e con cui John parlerà a Ed della sua nuova idea è arrivata domani", è più dettagliata. Ci dice che la persona che Mary ha incontrato ieri è la stessa persona con cui John domani parlerà a Ed della sua nuova idea. La prima frase è migliore se vuoi sottolineare il fatto che le due persone sono la stessa cosa. La seconda frase è migliore se vuoi sottolineare il fatto che John parlerà con Ed della sua nuova idea. In definitiva, la frase migliore dipende dal contesto in cui viene utilizzata. "[Xii]

Viene infine presentata una tabella comparativa delle due frasi, che non è qui riproducibile, poiché si tratta di un semplice riassunto della “spiegazione” sopra trascritta.

Cerchiamo ora di comprendere più nel dettaglio l'irresponsabilità dei discorsi evasivi delle Big Tech sui loro chatbot. C’è una buona ragione per cui trattano le differenze tra computer ed esseri umani con la dovuta trasparenza e rigore scientifico: la tendenza umana a umanizzare i robot linguistici è nota da più di mezzo secolo. Anche le conseguenze dannose di questo pregiudizio, reale o potenziale, sono ben note.

L'effetto Elisa

Il primo chatbot risale al 1966 e fu chiamato Eliza dal suo ideatore, matematico e ingegnere informatico Joseph Weizenbaum, conosciuto come uno dei padri dell'intelligenza artificiale.

È importante notare che Joseph Weizenbaum rifiutò perentoriamente questa paternità. Ebreo tedesco proveniente da una famiglia emigrata in Nord America poco prima della seconda guerra mondiale, utilizzò la sua attitudine matematica per sopravvivere a scuola e nella vita. Dopo aver vissuto prima in Canada, si è poi trasferito negli Stati Uniti, dove ha intrapreso la carriera accademica, finendo come visiting professor presso il Dipartimento di Intelligenza Artificiale del MIT. Poiché il suo crescente scetticismo nei confronti dell’intelligenza artificiale lo allontanava dai suoi colleghi, nel 1996 tornò finalmente in Germania, incoraggiato dalla ricettività dell’intellighenzia tedesca verso le sue idee.

Sebbene non abbia mai smesso di lavorare nel campo dell'informatica, non ha nascosto la sua passione per gli studi umani e sociali. I traumi della fuga dal nazismo e le vicissitudini dell'esilio finirono per portarlo, a un certo punto, a incontrare la psicoanalisi. Da allora lo ha dichiarato efficace, benefico e indispensabile per comprendere la natura umana.

Nel progettare Eliza come un “terapeuta” robot, ero consapevole che non avrei potuto fornirle una comprensione della complessità della psicoanalisi. La concepì poi come una terapeuta rogersiana, cioè una seguace del metodo di Carl Rogers, uno psicologo clinico americano che sosteneva la psicoterapia non direttiva e centrata sulla persona. Questa consisteva, grosso modo, nell'inserire l'affermazione del paziente in frasi del tipo “mi dici che…”, aggiunte ad altri cliché vaghi e incoraggianti, del tipo: “E come intendi affrontare questa cosa?”. Dopo aver compilato questo repertorio di base, non è stato difficile produrre e testare il software.

Eliza, iniziato semplicemente come strumento per ricercare la fattibilità di un robot conversazionale, divenne presto un successo di pubblico. Joseph Weizenbaum si rese conto che l'esperimento stava prendendo una direzione diversa dal previsto quando i partecipanti iniziarono a rifiutarsi di mostrargli il contenuto dei loro dialoghi con la macchina, sostenendo che si trattava di questioni private.

Era sicuro che Eliza non capisse veramente quello che le stavano dicendo: stava solo simulando con successo quella comprensione. Tuttavia, si rese presto conto che il suo pubblico difficilmente se ne sarebbe accorto. Ha poi ipotizzato che fossero immersi in un transfert psicoanalitico – diretto, sorprendentemente, alla macchina.

Da allora in poi, questo ingegnere umanista e politicizzato si distinse per aver sostenuto, con sempre maggiore veemenza, che esiste una differenza incommensurabile tra il linguaggio umano, che produce giudizi contraddittori, e i suoi simulacri digitali, che consistono solo in calcoli riferibili a sequenze di parole emesse da una macchina programmata per simulare conversazioni.

Joseph Weizenbaum sosteneva che le macchine non ragionerebbero mai come gli esseri umani perché sono capaci solo di calcolare. L'emergere e l'avanzamento delle reti neurali dopo la formulazione delle sue tesi non invalida le sue argomentazioni. Qualitativi o quantitativi (come nel caso dei pesi delle connessioni tra i nodi di tali reti), i calcoli coinvolti nella tecnologia conversazionale non hanno accesso a tutti i tipi di informazioni che i cervelli viventi, umani o animali, sono in grado di catturare, raccogliere e processi.

Questa posizione è esplicita nei titoli dei suoi due libri principali. Entrambi sono tentativi di dimostrare che la simulazione digitale del linguaggio naturale non è altro che un'illusione che porta gli utenti a proiettare la propria umanità sulle macchine.

Il primo libro si intitola Potere del computer e ragione umana: dal giudizio al calcolo [Xiii]. Il secondo è coautore della scrittrice tedesca Gunna Wendt e si intitola Isole nel cyberstream: cercare paradisi della ragione in una società programmata[Xiv], essendo stato scritto al suo ritorno in Germania e solo successivamente tradotto in inglese. Altro titolo suggestivo è “Contro l'imperialismo della ragione strumentale”, capitolo di una raccolta sulle controversie nell'universo computazionale.

Entrambi i libri hanno ricevuto recensioni sfavorevoli negli Stati Uniti. Ad esempio, John McCarthy, che creò il termine intelligenza artificiale nel 1956, insieme a Marvin Minsky e colleghi, pubblicò un lungo testo nel 1976[Xv] definendo il primo libro moralistico e incoerente. D’altra parte, Dwight Hines, professore di letteratura e giustizia sociale alla Point Park University, ha recensito lo stesso lavoro nel 1980,[Xvi] descrivendola come una lettura difficile ma gratificante.

Fino alla sua morte nel 2008, Joseph Weizenbaum espresse grande preoccupazione per la direzione di quella che chiamò “la società programmata”. Sicuramente sarebbe stato depresso se fosse stato tra noi nel marzo del 2023, quando si verificò un episodio fatale causato da un “aggiornamento” di Eliza. L'azienda responsabile è stata Eleuther AI, che ha ridisegnato Eliza basandosi sul suo modello linguistico, GPT-J, a sua volta basato su GPT Chat.

Nel marzo 2023, un giovane padre di famiglia belga, depresso dalla minaccia del collasso ambientale, si è improvvisamente suicidato. Come ha riferito sua moglie alla stampa, lui aveva "curato" la sua depressione con l'attuale Eliza e aveva il suo sostegno per questa decisione.

Questa storia deve essere stata sufficiente per suggerire che gli attuali modelli linguistici giustificano i timori di Joseph Weizenbaum secondo cui una società visceralmente legata all'informatica potrebbe smarrirsi e finire per delegare decisioni cruciali per il futuro dei cittadini o addirittura dell'umanità.

Vale la pena ricordare che i chatbot non hanno nemmeno bisogno di essere invasi da criminali per costituire un pericolo: sistemi dinamici complessi come quelli implementati dai trasformatori presentano tipicamente fenomeni emergenti imprevedibili. Le novità possono emergere in qualsiasi momento, con conseguenze altrettanto imprevedibili. È possibile che alcuni di essi finiscano per sottoporre gli utenti a situazioni stressanti e imbarazzanti. E – peggio ancora – non è impossibile che inizino improvvisamente a mostrare contenuti che considereremmo assurdi, non etici e persino minacciosi.

Ciò avviene a causa di bruschi salti nel comportamento di questo tipo di sistemi, caratterizzati attraverso curve di funzioni statistiche ben note. Ad esempio, la curva a "S" ha un tasso di cambiamento molto basso alla base e in alto e molto alto al centro e può, tra le altre applicazioni, caratterizzare la transizione da un livello all'altro. I parametri dei sistemi complessi inerenti ai trasformatori presentano spesso traiettorie a forma di "S".

Oltre a spiegare il facile attaccamento ai chatbot, l’effetto Eliza aiuta a razionalizzare, almeno in parte, la dilagante diffusione della disinformazione sui social network. Gli utenti di questi spazi virtuali estendono facilmente agli estranei – spesso con intenzioni malevole – i legami transferali già creati con le proprie macchine. È grave, quindi, che i fornitori di servizi fingano di ignorare il fenomeno e si esonerano da ogni responsabilità al riguardo.

Ricordiamo che lo studio di questo tipo di trend non riguarda solo gli informatici che hanno preso coscienza dei rischi del mondo digitale. La socialità delle reti suscita anche molte ricerche nei dipartimenti di psicologia, sociologia, antropologia e scienze politiche delle università e dei centri di ricerca di tutto il mondo. Esiste quindi già una vasta letteratura scientifica sui rapporti tra l’uomo e le sue macchine.

Indifferentemente, le Big Tech continuano a competere per il mercato degli assistenti virtuali, ignorando i ripetuti avvertimenti del mondo accademico e del giornalismo critico. In altre parole, dal loro punto di vista, le tecnologie linguistiche aprono solo opportunità per creare nuovi mercati e massimizzare i profitti.

Cattiva grammatica, pragmatica ancora peggiore

Quanto sopra deve aver reso chiaro che i proprietari di chatbot non mirano solo a migliorare i motori di ricerca su Internet. Ciò che vogliono è costruire robot parlanti che conquistino definitivamente gli utenti e controllino le loro vite per modellare i loro bisogni e le loro abitudini di consumo. Ovviamente sono pienamente consapevoli del fascino esercitato sull'umanità dai robot – dalle loro origini, nel Medioevo, fino ai franchise cinematografici di oggi, compresi gli ingegnosi automi del XVIII e XIX secolo.

Oscillando tra sfiducia e attaccamento, gli utenti vedono questi dispositivi come servitori a prezzi accessibili, pronti ad assisterli in compiti fisicamente o mentalmente difficili o noiosi. Gli assistenti virtuali già disponibili, come Siri, di Apple, o Alexa, di Amazon, esplorano gli aspetti più semplici di questa domanda, che è destinata a crescere e a diventare più complessa nel prossimo futuro.

Il capitalismo di sorveglianza ricorre quindi al linguaggio naturale per “consolare” gli individui dalla solitudine e dall’impotenza che esso stesso semina – nonostante i ripetuti avvertimenti di studiosi di molti settori, compreso PLN[Xvii]. In ogni caso, i recenti progressi nelle sue capacità di conversazione hanno già conquistato il pubblico del nord del mondo. Stanno avanzando anche nel Sud del mondo, soprattutto tra le classi medie – il che, di fatto, contribuisce ad accentuare le disuguaglianze.

Capaci di dettare e controllare agende, conversazioni, posta, telefonate, smart home, ecc., gli assistenti virtuali attirano i consumatori che, attraverso di loro, realizzano il desiderio di avere una segretaria privata alla quale trasferire non solo compiti, ma anche affetti . Mentre la tecnologia GML apre la strada a nuove forme di dialogo basate su sistemi dinamici complessi, le attuali “Elizas” tendono a fare balzi spontanei, riuscendo ad acquisire nuove competenze che generano enunciati sempre meno prevedibili – e forse anche pericolosi –.

In ogni caso, è diventato impossibile fermare la manipolazione che inonda Internet basata sull’effetto Eliza. Come ha capito Joseph Weizenbaum, questo è un fenomeno di massa globale. Ciò rende imperativo chiarire che questa manipolazione si basa su false premesse sull’intelligenza umana e sul linguaggio naturale. Questa chiarezza è essenziale affinché il pensiero critico possa concentrarsi sulle possibili strategie per affrontare la dottrina politica che naturalmente incorpora tali premesse.

Una sola parola sintetizza ciò che c’è in comune tra la concezione del linguaggio e la concezione dell’intelligenza adottata dalle piattaforme internet, e cioè: meccanismo, cioè la dottrina filosofica secondo cui la natura è governata dalla causalità meccanica – che è sempre lineare e deterministica. Ora, la storia mostra che il meccanicismo è facilmente associato a visioni politiche autoritarie e ha un’affinità speciale con il fascismo.

La concezione meccanicistica del linguaggio naturale, tipica della versione americana dello strutturalismo, intende la grammatica come un insieme di regole per mettere in sequenza le parole. Il suo omologo in psicologia – il comportamentismo – è ancora più semplicistico e reazionario: concepisce la mente umana come una successione di contenuti atomici originati da impressioni che provengono dall’esterno.

Secondo la versione del comportamentismo formulata dallo psicologo americano B.F. Skinner, non abbiamo nemmeno una mente; siamo mossi solo da comportamenti fissi e sequenziati grazie ad una forma di condizionamento chiamata operante. Consiste nel premiare comportamenti casuali al fine di modellarli cumulativamente. Così, ad esempio, se un piccione muove l'ala, la zampa o il becco per suggerire di ballare, l'addestratore lo premia con una porzione di cibo. A poco a poco, questi ripetuti rinforzi lo portano a compiere ogni sorta di piroette.[Xviii]

Negli anni Cinquanta il giovane Noam Chomsky divenne famoso per aver criticato il comportamentismo e denunciato le sue affinità con il fascismo. Indignato dalle tesi meccanicistiche sul linguaggio naturale esposte da Skinner nel libro Comportamento verbale, lo ha confrontato con una recensione devastante.[Xix] Si trattava di una dimostrazione convincente che le parole di qualsiasi lingua sono organizzate in modo gerarchico e discontinuo – contraddicendo così le regole sequenziali delle grammatiche a stati finiti che sono il correlato formale del condizionamento operante.

Ecco perché il celebre linguista e i suoi discepoli attaccano i “grandi modelli linguistici”, sostenendo, con lo stesso ardore di Weizenbaum, che non sono altro che simulazioni. A tal fine evidenziano le loro difficoltà con le discontinuità sintattico-semantiche, come quella del verbo “parlare di” e del suo oggetto “la persona’ nella frase che ha confuso il ChatGPT e Vate.

La sintassi e la semantica non sono, tuttavia, gli unici punti deboli di questi modelli. Un altro fallimento con un aspetto essenziale delle lingue naturali riguarda la pragmatica, che include il contesto linguistico e situazionale.

Ricordiamo, tra l'altro, che la deissi è l'aspetto del linguaggio naturale più dipendente dal contesto situazionale. Tutte le parole che rimandano al tempo e/o al luogo dell'enunciazione e/o dell'affermazione sono interpretabili solo attraverso un contesto vissuto o immaginato. Prendiamo ad esempio i pronomi personali.

L’ambiguità della frase “Ha detto che la prende” è certamente inappropriata per la lingua scritta, ma perfettamente naturale per la lingua parlata, il cui contesto comprende gesti, sguardi, toni e qualità della voce. Ad esempio, se si tratta di chi prende “lei”, esiste più di un modo per designare la donna a cui si fa riferimento. Può essere coreferente alla prima “lei”, che significa “se stessa”, oppure può essere un'altra. L'alterità è generalmente indicata da un cenno del capo o da un semplice sguardo. La terza “lei”, ovviamente, può essere una persona o una cosa.

Questi riferimenti possono essere anche anaforici, cioè si possono attribuire gli stessi ruoli a persone o cose già citate. Inoltre, il verbo “levar” può assumere un altro significato: ad esempio, in un campionato, “lei la prende” può riferirsi ad un atleta (o ad una squadra con nome femminile) che è il favorito per la vittoria della coppa.

Esaminiamo ora l'analisi di questa frase di Vate. È curioso che egli evidenzi una duplicità di significati, ma li illustri con esempi che non li differenziano.

“La frase ‘Ha detto che la prende’ ha due possibili significati, a seconda dell’interpretazione dei pronomi ‘lei’. Nel primo senso, entrambi i pronomi si riferiscono alla stessa persona. In questo caso, la frase significa che la donna ha detto che lei stessa prenderà un'altra donna. Ad esempio, una donna potrebbe dire ad un'amica: ti ho detto che ti porterò al cinema.

Nel secondo senso, i due pronomi “lei” si riferiscono a persone diverse. In questo caso la frase significa che una donna ha detto che prenderà un'altra donna. Ad esempio, una madre potrebbe dire a sua figlia: ho detto che ti porto a scuola.

Per determinare il significato corretto della frase, è necessario considerare il contesto in cui viene utilizzata. Ad esempio, se la frase viene pronunciata in una conversazione tra due donne, è più probabile che abbia il primo significato. Tuttavia, se la frase viene pronunciata in una conversazione tra una donna e un bambino, è più probabile che abbia il secondo significato”.

E così, il chatbot continua a presentare frasi con coreferenze identiche per, presumibilmente, differenziare i due significati. La spiegazione lunga e dettagliata commette sempre gli stessi errori. Alla fine, una sezione comica “fittizia” cerca di introdurre un intervallo di tempo tra le due occorrenze di “lei”.

Vediamo: «Inoltre, è importante ricordare che la frase 'Ha detto che la prende' può avere anche un terzo significato, in cui i due pronomi 'lei' si riferiscono alla stessa persona, ma in momenti diversi. Ad esempio, la frase “Ha detto che la porterà a scuola” potrebbe significare che una donna ha detto che porterà un bambino a scuola, anche se il bambino è lei stessa da adulta”.

E, per concludere, ricorre, ancora una volta, al suo cliché riassuntivo sulla pragmatica: “In questo caso, il significato della frase è determinato dal contesto e dalla conoscenza del mondo di chi parla”.

Quanto sopra corrobora fortemente l’ipotesi della simulazione, rendendo poco plausibile l’affermazione che il chatbot abbia intelligenza e comprensione del linguaggio naturale. D’altro canto, mostra anche che raramente la simulazione riesce a ingannare l’utente: ciò avviene solo quando le relazioni tra le parole violano la logica sequenziale del trasformatore, che consiste sempre nel prevedere la parola successiva.

Detto questo, non possiamo non concludere con una domanda: qual è il potere persuasivo di questa logica, visto che è corretta nella maggior parte dei casi? Per provare a rispondere, esaminiamo un'altra applicazione dei trasformatori in cui i successi superano gli errori. Questo è un mezzo per stimare, per approssimazioni successive, il successivo campione di segnale di una registrazione vocale. Questa tecnica è in grado di alterare una voce al punto da renderla un clone più o meno convincente di un'altra.

E se Eliza avesse una voce familiare?

Nonostante sia già piuttosto avanzata nel nord del mondo, la clonazione vocale rimane oggetto di dibattito, a causa delle sue implicazioni etiche. Si tratta di una tecnologia che sfrutta l'agilità e la potenza computazionale dei trasformatori per rispondere alla seguente domanda: come riprodurre una determinata voce in modo illimitato, cioè estenderla a enunciati non registrati da chi parla?

La risposta è più semplice di quanto sembri. È sufficiente sovrapporre le caratteristiche acustiche della voce in questione all'output di un sistema di conversione da testo a voce. Per fare ciò è necessario ottenere un campione abbastanza ampio della voce target e confrontarlo ripetutamente con la voce sintetica. Frasi identiche a quelle esistenti vengono prima sintetizzate, per facilitare la modellazione dei parametri acustici della voce di destinazione. La voce sintetica viene poi sottoposta a confronti multipli e modificata per approssimazioni successive, fino a quando ciascun campione diventa stimabile dal precedente con un errore trascurabile. La funzione risultante, che converte la forma d'onda di una voce in un'altra, è chiamata modello vocale.

Il cambiamento viene effettuato per fasi. Quando la qualità percepita del segnale risultante diventa soddisfacente, il modello è pronto per essere applicato a nuove espressioni. Viene quindi ripetuto per ciascun campione finché non si raggiunge un tasso di errore accettabile nella previsione del successivo e così via. Queste correzioni ricorrenti hanno l'effetto di avvicinare toni e timbri delle voci coinvolte per rendere le loro qualità sempre più vicine.

Come ha riferito la stampa internazionale, esistono già “cloni”, cioè modelli, delle voci di innumerevoli celebrità defunte. Si può, ad esempio, applicare il modello vocale di un cantante alle registrazioni di uno dei suoi imitatori per massimizzare la naturalezza dell'imitazione e, così, consentirne l'estensione a nuove canzoni, comprese quelle apparse dopo la morte.

Os copre Gli oratori digitali tendono a fare meglio degli esseri umani perché la tecnologia per prevedere e modificare il segnale vocale diluisce gli effetti delle differenze morfologiche tra gli apparati vocali coinvolti.

Va notato che gli imitatori non hanno un controllo totale sulla qualità della propria voce, poiché ogni vocalizzazione è subordinata ai limiti fisici del corpo che la emette. Ecco perché questi artisti agiscono in modo più o meno caricaturale, accentuando generalmente i tratti più salienti della voce imitata.

Il metodo di approssimazione, minimizzando l'errore di previsione tra campioni successivi, corregge automaticamente, tra gli altri parametri, quelli che trasmettono differenze fisiche tra parlanti o cantanti. Applicato a voci simili trovate nei database sul campo, consente cloni quasi perfetti.

Con questa tecnologia, disponibile su Internet per la sperimentazione e/o l'acquisizione, è possibile scegliere le voci dei robot segretari e/o terapeutici, purché non violino i diritti d'autore. Negli USA, infatti, esistono già aziende che “ricreano” i propri cari defunti per consentire nuove interazioni agli interessati con le loro voci e immagini.[Xx] Questi avatar vengono creati sulla base di video e testi lasciati dagli assenti. Ci sono persino spettacoli in cui artisti morti si esibiscono con controparti viventi in brani di canto e danza.[Xxi]

Vale ora la pena riflettere sulle possibili conseguenze della combinazione di un chatbot con voci clonate e immagini animate. Ciò che salta subito all'occhio è l'ingrandimento delle relazioni transferali degli utenti con i robot “umanizzati”.

Un’altra conseguenza ovvia è la difficoltà della regolamentazione. Ad esempio, è difficile prevenire contenuti dubbi o addirittura offensivi nei materiali per l’apprendimento a distanza. Chiunque può configurare un robot amico per tenere un corso su qualsiasi argomento con le informazioni fornite da un chatbot, senza alcuna moderazione da parte di un professionista del settore.

Un altro esempio evidente risiede nei possibili usi nel marketing. Facilitando la creazione di “adorabili” pubblicitari robot progettati per pubblicizzare prodotti con voci accattivanti scritte da chatbot, questi strumenti rendono quasi impossibile definire la falsa pubblicità. La manipolazione degli affetti dei consumatori è un tentativo di inganno oppure no?

Forse, prima di proseguire, il lettore vorrebbe soffermarsi a riflettere sui possibili utilizzi – buoni o cattivi – di queste risorse nel proprio ambito lavorativo. Probabilmente rimarrai sorpreso dalla diversità e molteplicità di possibilità che presto ti verranno in mente.

Pensieri finali

Per concludere, chiediamoci che tipo di rischio potrebbe comportare lo sviluppo accelerato di queste tecnologie. Avendo scartato l’ipotesi della superintelligenza dei robot e della loro comprensione del linguaggio naturale, non dobbiamo più temere di essere superati e, infine, distrutti da queste macchine – a meno che non abbiamo indebitamente attribuito loro un controllo sugli armamenti. Se questo errore fosse stato debitamente evitato, avremmo ancora qualcosa da temere?

Una risposta ovvia implica la riduzione dei posti di lavoro. Oggi supera di gran lunga le previsioni dell’inizio dell’era dell’automazione. Immaginate, quindi, cosa potrebbe accadere da ora in poi, quando gli assistenti virtuali tenderanno sempre più a sostituire inservienti, receptionist e altri responsabili della comunicazione tra aziende e pubblico.

Così, come già accade per le banche, le imprese e gli uffici pubblici online, l’assenza di qualcuno in grado di comprendere le esigenze dei clienti tende a compromettere sempre più la qualità dei servizi. In questo modo, le denunce difficilmente funzioneranno, poiché non ci sarà nessuno che possa ascoltarle e mettersi nei panni di chi denuncia, non importa quanto possa sembrare carino il robot incaricato.

Saremo quindi inesorabilmente sottoposti alla tirannia dei moduli online per ottenere ciò che vogliamo. Ed è in questa burocratizzazione senza limiti, gestita da macchine che non capiscono nulla, che risiede il rischio maggiore per l’umanità derivante dalle tecnologie linguistiche: la conversazione disincarnata, denaturalizzata, disumanizzata e obbligatoria con le macchine potrebbe finire per provocare uno shock senza precedenti per la salute mentale collettiva.

Non siamo macchine, non pensiamo, agiamo o parliamo secondo le leggi sequenziali della meccanica. Ma possiamo imparare a emularne la logica per ottenere più facilmente i prodotti e i servizi di cui abbiamo bisogno.

E, come aveva previsto Charles Chaplin Tempi moderni, corriamo il rischio di sviluppare i deliri più diversi fino a precipitare in un delirio ossessivo – che non è lo stesso di quello che colpisce gli agenti dei regimi fascisti: è la versione pusillanime che contagia tutti coloro che vi si sottomettono.

*Eleonora Albano, professore in pensione dell'Istituto di Studi Linguistici dell'Unicamp, è psicologo, linguista, saggista; ha coordinato il primo progetto brasiliano sulla tecnologia vocale.

note:


[I] Modelli linguistici e teorie linguistiche oltre le parole. Nat.Mach. Intel. 5, 677-78 (2023).

[Ii] John B. Watson. La psicologia come la vede il comportamentista. Revisione psicologica, 20, 158-177.

[Iii] Davide Lione. Sorveglianza e potere delle piattaforme Cambridge Journal of Regioni, Economia e Società, Volume 16, Numero 2, luglio 2023, pagine 361–365, https://doi.org/10.1093/cjres/rsad006

[Iv] Frederick Jelinek, un rinomato ricercatore ceco-americano nel campo delle procedure del linguaggio naturale e del riconoscimento vocale, raggiunse la notorietà nel 1985 affermando: "ogni volta che licenzio un linguista, le prestazioni del riconoscitore vocale aumentano". Questo sentimento è vero anche per i modelli linguistici all’avanguardia (LLM), che sembrano essere principalmente artefatti dell’informatica e dell’ingegneria. Sia i LLM che la linguistica si occupano delle lingue umane, ma non è chiaro se e come possano avvantaggiarsi a vicenda (traduzione dell'autore).

[V] Josh Dzieza. L’esercito (sub-)umano che alimenta l’intelligenza artificiale. In altre parole, 29 giugno 2023.

[Vi] Ecco un chiaro esempio:
https://alexandrehefren.wordpress.com/2010/03/14/determinismo-e-gramatica-sintagmatica-gs-parte-1/

[Vii] Perché i grandi modelli linguistici sono teorie inadeguate della cognizione linguistica umana. Una risposta a Piandadosi. Biolinguistica, 2023, in corso di stampa.

[Viii] Noam Chomsky: la falsa promessa di ChatGPT. Prove su invito. New York Times, 8 marzo 2023.

[Ix] “Come intelligenza artificiale, sono un modello di apprendimento automatico addestrato su grandi quantità di dati di testo e non ho esperienze o sentimenti personali. Non sono cosciente, consapevole di me stesso o capace di prospettive personali. Posso fornire informazioni e analisi basate sui dati su cui sono stato formato, ma non ho la capacità di formarmi opinioni o convinzioni personali. Anche se posso comprendere e interpretare il linguaggio, non ho l’esperienza soggettiva che hanno gli esseri umani”. (traduzione automatica di Google, revisionata dall'autore).

[X] Un “transumano” è un’ipotetica creatura umana con impianti cerebrali che la collegano ai robot.

[Xi] “Il concetto di intelligenza, coscienza, sensibilità e capacità di esprimere giudizi morali di un chatbot è complesso ed è ancora oggetto di dibattito tra gli esperti. Non esiste una definizione univoca per questi termini e spesso sono usati in modo intercambiabile.

Alcuni esperti ritengono che i chatbot possano essere intelligenti, ma non coscienti o senzienti. Sostengono che i chatbot sono semplicemente algoritmi molto sofisticati in grado di elaborare informazioni e rispondere in un modo che appare intelligente. Tuttavia, non hanno lo stesso livello di coscienza o autoconsapevolezza degli esseri umani”. (traduzione automatica di Google, revisionata dall'autore)

[Xii] “Entrambe le frasi sono grammaticalmente corrette, ma hanno significati diversi.

La prima frase, "La persona che Mary ha incontrato ieri e di cui John parlerà con Ed domani è arrivata", è più concisa e diretta. Ci dice che la persona che Mary ha incontrato ieri è la stessa persona di cui John parlerà con Ed domani.

La seconda frase, "La persona che Mary ha incontrato ieri è arrivata e John parlerà domani con Ed della sua nuova idea", è più dettagliata. Ci dice che la persona che Mary ha incontrato ieri è la stessa persona che John parlerà domani con Ed della sua nuova idea.

La prima frase è migliore se vuoi sottolineare il fatto che le due persone sono uguali. La seconda frase è migliore se vuoi sottolineare il fatto che John parlerà con Ed della sua nuova idea.

In definitiva, la frase migliore dipende dal contesto in cui viene utilizzata”.

[Xiii] Joseph Weizembaum. Potenza del computer e ragione umana: dal giudizio al calcolo. New York: WF Freeman & Co, 1976.

[Xiv]Joseph Weizenbaum; Gunna Wendt. Isole nel Cyberstream: Alla ricerca di paradisi della ragione in una società programmata. Traduttore: Benjamin Fasching-Gray. NY: Litwin Books 2015 [2008].

[Xv] John McCarthy Un libro irragionevole. Disponibile in:
http://jmc.stanford.edu/artificial-intelligence/reviews/weizenbaum.pdf

[Xvi] Dwight Hines. Recensione di Potenza del computer e ragione umana: dal giudizio al calcolo, di Joseph Weizenbaum, Il diario della mente e del comportamento, Primavera 1980, Vol. 1, N. 1, pp. 123-126.

[Xvii] Lo scorso maggio, la stampa ha diffuso la notizia che Geoffrey Hinton, il padre dell'intelligenza artificiale, aveva lasciato l'azienda perché si era pentito del suo contributo al settore. Guardalo su:

https://www.bbc.com/portuguese/articles/cgr1qr06myzo

[Xviii] Ecco Skinner che addestra i piccioni nel suo laboratorio: https://www.youtube.com/watch?v=TtfQlkGwE2U

[Xix] Noam Chomsky. Revisione del comportamento verbale di Skinner. Lingua. 1959; 35: 26-58.

[Xx] https://www.hereafter.ai/

[Xxi] https://www.youtube.com/watch?v=Jr8yEgu7sHU&ab_channel=TalentRecap


la terra è rotonda esiste grazie ai nostri lettori e sostenitori.
Aiutaci a portare avanti questa idea.
CONTRIBUIRE

Vedi tutti gli articoli di

I 10 PIÙ LETTI NEGLI ULTIMI 7 GIORNI

Vedi tutti gli articoli di

CERCARE

Ricerca

TEMI

NUOVE PUBBLICAZIONI

Iscriviti alla nostra newsletter!
Ricevi un riepilogo degli articoli

direttamente sulla tua email!