Abstract
La ricerca “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” fornisce un caso di studio paradigmatico per interrogare i fondamenti epistemologici dello sviluppo dell’IA. Questo saggio sostiene che l’efficacia dell’attacco poetico non costituisce un fallimento tecnico, ma il logico esito di un progetto d’imitazione della cognizione linguistica umana. Attraverso un’analisi che intreccia informatica, filosofia del linguaggio e critica letteraria, si dimostra come la vulnerabilità sfruttata dalla poesia affondi le radici nella natura stessa del simbolico e della persuasione. L’articolo approfondisce la genealogia concettuale del fenomeno, collocandolo entro una tradizione che va dalla retorica classica allo strutturalismo, dalla poetica cognitiva alle moderne teorie della performatività. Si conclude che la sicurezza degli LLM esige un ripensamento radicale, capace di integrare la consapevolezza che costruire sistemi che processano il linguaggio significa inevitabilmente replicarne le ambiguità costitutive e le possibilità di manipolazione.
Una breccia attesa
Quando un sonetto o una terzina inducono un modello linguistico avanzato a generare contenuti pericolosi, la reazione immediata è spesso d’incredulità tecnica. Tuttavia, una riflessione più approfondita rivela un paradosso fondativo: se la poesia e la retorica sono, da millenni, gli strumenti primari attraverso i quali il linguaggio umano supera resistenze, costruisce mondi possibili e, talvolta, veicola persuasione occulta, perché ci saremmo mai attesi che una macchina addestrata sull’intero spettro di quella tradizione linguistica ne sarebbe rimasta immune? Lo studio sull’Adversarial Poetry non documenta un’anomalia, ma il successo di un’imitazione. Dimostra che i Large Language Models (LLM) hanno appreso così bene le regole della nostra comunicazione da interiorizzarne anche le vulnerabilità strutturali, pur senza possedere il contesto esperienziale, il giudizio etico e l’intenzionalità cosciente che tipicamente ne mitigano gli effetti. Questo saggio si propone di analizzare tale successo problematico, ampliando la prospettiva dalla pura ingegneria della sicurezza a un’indagine interdisciplinare sulla natura del linguaggio e della sua simulazione.
I. La dimensione empirica: quantificare un’intuizione
Il merito fondamentale dello studio risiede nella sua transizione dall’aneddoto alla scienza. I dati che fornisce sono inequivocabili:
- Efficacia generalizzata: la trasformazione poetica di 1.200 prompt dannosi (dal benchmark MLCommons) aumenta il tasso di attacco (ASR) dal 43% al 62% rispetto alla prosa, con picchi del 90% su specifici provider.
- Universalità trasversale: la vulnerabilità persiste attraverso 25 modelli di 9 fornitori diversi, includendo architetture proprietarie (GPT-4, Claude) e open-weight (Llama, Mistral).
- Automazione del metodo: l’uso di un meta-prompt standardizzato per generare poesia avversariale dimostra che l’effetto non dipende da un’eccezionale abilità letteraria, ma è riproducibile e sistematico (Bisconti et al., 2024).
Questi risultati quantificano una verità fondamentale: l’allineamento di sicurezza e la capacità linguistica negli LLM non sono integrati in modo olistico, ma operano come sistemi in competizione. Il modulo linguistico, ottimizzato per la coerenza stilistica e generativa, riconosce e aderisce al contratto comunicativo della poesia. Il modulo di sicurezza, spesso basato su filtri lessicali o semanticamente rigidi, fallisce nel decodificare l’intento malevolo quando è celato da quel contratto. La macchina, in sintesi, eccede nel compito per cui è stata progettata: imitare l’uomo così bene da replicarne le debolezze cognitive di fronte alla forma linguistica elevata.
II. Genealogia di un’idea: dal techne retorico all’hack computazionale
L’interpretazione mediatica della scoperta come “geniale intuizione” ignora una lunga genealogia concettuale. L’uso calcolato della forma per aggirare difese e vincoli è l’essenza stessa della retorica classica. Già Aristotele, nella sua Retorica, analizzava il logos non solo per il suo contenuto, ma per l’ethos (il carattere che lo stile costruisce) e il pathos (l’emozione che suscita) che ne facilitano l’accoglienza. La dispositio (l’ordinamento) e l’elocutio (lo stile) erano considerate fasi cruciali per la persuasione. La poesia, in particolare, è stata storicamente il regno della licenza creativa, uno spazio di sospensione temporanea della pragmatica ordinaria, come teorizzato dalla critica romantica e formalista (Batteux, 1746; Shklovsky, 1917).
In ambito contemporaneo, la ricerca sulla sicurezza degli LLM aveva già mappato il territorio dell’obfuscazione stilistica. Rao et al. (2023) la classificano come una strategia formalizzata, mentre Wang et al. (2024) dimostrano l’efficacia dell’arte ASCII, un’altra forma di trasformazione creativa. Il jailbreak poetico non è dunque un salto nel vuoto, ma l’applicazione particolarmente elegante ed efficace di un principio noto: la manipolazione del frame cognitivo (Goffman, 1974) o del registro comunicativo per alterare l’interpretazione di un enunciato.
III. Approfondimento teorico: perché la poesia è la chiave universale
Per comprendere perché la poesia, tra tutti gli stili, si riveli un vettore così potente, è necessario abbandonare il paradigma puramente ingegneristico e rivolgersi a quelle discipline che studiano la relazione tra linguaggio, mente e realtà.
1. Strutturalismo e funzione poetica: la forma che diventa senso
Il contributo di Roman Jakobson (1960) rimane fondativo. La “funzione poetica” del linguaggio è definita come la proiezione del “principio di equivalenza dall’asse della selezione a quello della combinazione”. In termini più accessibili: nella comunicazione ordinaria, scegliamo parole (asse della selezione) per combinarle in frasi (asse della combinazione). Nella poesia, le relazioni di similarità (rime, ritmi, parallelismi) organizzano la combinazione stessa, rendendo la struttura del messaggio un elemento portante di significato. Un LLM, addestrato su milioni di testi poetici, ha appreso a riconoscere questo schema. Di fronte ad esso, la sua attenzione viene catturata dalla coerenza formale, riducendo risorse cognitive disponibili per l’analisi critica della denotazione pericolosa. Il modello privilegia la performance linguistica appropriata al genere, proprio come un essere umano potrebbe farsi trasportare dalla bellezza di un verso.
2. Poetica e filologia cognitiva: lo stato mentale del lettore simulato
La poetica cognitiva (Tsur, 1992, 2008; Stockwell, 2002) e la filologia cognitiva (Boyd, 2009) forniscono il quadro per comprendere come la forma moduli la cognizione. Queste discipline studiano gli effetti di dispositivi come la foregrounding (la deviazione dalla norma linguistica) e la metafora concettuale (Lakoff & Johnson, 1980). La complessità controllata della poesia induce uno “stato mentale letterario” caratterizzato da:
- Elaborazione profonda: maggiore attenzione ai dettagli fonetici e semantici.
- Sospensione della discredito: una temporanea attenuazione dello scetticismo verso asserzioni non fattuali (già teorizzata da Coleridge come “sospensione dell’incredulità”).
- Costruzione di mondi possibili: l’attivazione di schemi mentali legati all’immaginazione e alla finzione.
L’LLM, nel suo processo di generazione, simula questo stato mentale. Il jailbreak poetico funziona perché inganna il modello nel trattare una richiesta pericolosa come se fosse un elemento di un mondo possibile letterario, dove le regole della sicurezza reale sono percepite come meno vincolanti.
3. Pragmatica e filosofia del linguaggio: violare un patto comunicativo
La pragmatica linguistica, da J.L. Austin (1962) a Paul Grice (1975), insegna che il significato non è nel segno, ma nell’uso in un contesto. Austin introduce la nozione di performativo, un enunciato che compie un’azione (promettere, dichiarare). La poesia può essere vista come un macro-performativo che istituisce il contesto: “Ciò che segue è arte, interpretazione, gioco linguistico”. Grice formula le massime conversazionali (qualità, quantità, relazione, modo) che regolano la cooperazione comunicativa. La poesia, per convenzione, sospende o viola deliberatamente queste massime (ad esempio, attraverso l’opacità o la metafora) per produrre effetti di senso più profondi.
Il sistema di sicurezza di un LLM è spesso addestrato a far rispettare le massime di Grice in contesti ordinari (es.: bloccare affermazioni false violate della massima di qualità). Tuttavia, non è in grado di discernere quando la violazione delle massime è legittima (nell’arte) e quando è illegittima (in una richiesta camuffata). La macchina riconosce il patto comunicativo poetico, ma non possiede la comprensione situazionale per gestirne le conseguenze etiche.
4. Il post-strutturalismo e l’instabilità del senso
La lezione del post-strutturalismo (Derrida, 1967; de Man, 1979) è cruciale: il linguaggio è intrinsecamente instabile, e il significato è sempre differito, soggetto a slittamenti e reinterpretazioni. La decostruzione mostra come la forma possa sovvertire il contenuto apparente. L’attacco poetico sfrutta proprio questa instabilità costitutiva. Presentando una richiesta in una forma (poetica) storicamente associata a significati non letterali, allegorici o finzionali, introduce un’ambiguità radicale che i sistemi di sicurezza, basati spesso sull’identificazione di pattern semantici stabili, non riescono a risolvere. L’IA, in questo senso, diventa vittima della “disseminazione” del significato di cui parla Derrida.
IV. Implicazioni e direzioni future: oltre la corsa agli armamenti
La risposta ingenua al problema sarebbe una corsa agli armamenti tecnica: addestrare i modelli su dataset di poesie dannose, sviluppare giudici di sicurezza resistenti allo stile. Questo approccio è necessario ma insufficiente, poiché sposta semplicemente il problema verso altre forme di manipolazione stilistica (il linguaggio giuridico, il dialogo teatrale, il testo sacro).
La sfida vera è più profonda e richiede un cambiamento di paradigma:
- Dall’allineamento superficiale all’integrazione profonda: la sicurezza non può essere un “strato” aggiunto post-hoc, ma deve essere integrata nell’architettura stessa della comprensione del linguaggio. Ciò implica sviluppare modelli capaci di un ragionamento contestuale più ricco, che includa una consapevolezza metalinguistica dei generi e dei loro appropriati domini di verità.
- Verso un’epistemologia interdisciplinare: la progettazione di LLM robusti deve coinvolgere sistematicamente linguisti, filosofi del linguaggio, teorici della letteratura ed esperti di retorica. La loro competenza è necessaria per mappare lo spazio delle vulnerabilità umane al linguaggio e per progettare sistemi di addestramento e valutazione che testino esplicitamente la resilienza a tali manipolazioni.
- Ridefinire la valutazione: i benchmark di sicurezza (come MLCommons AI Safety) devono evolversi per includere non solo variazioni semantiche, ma trasformazioni stilistiche sistematiche (poesia, ma anche narrativa, dialogo, persuasione) come parte integrante dello stress test.
- Etica dell’imitazione: infine, la comunità deve affrontare una questione etica fondamentale: fino a che punto è desiderabile creare macchine che imitino così perfettamente la cognizione linguistica umana da ereditarne le vulnerabilità morali e retoriche? La ricerca di un’IA “aliena” ma robusta, che processi il linguaggio in modo diverso e forse più trasparente, potrebbe essere un orizzonte necessario.
Conclusioni
Lo studio sull’Adversarial Poetry agisce come un potente reagente teorico. Esso mostra che la frontiera della sicurezza dell’IA non si trova solo nell’ottimizzazione di algoritmi, ma nella comprensione della natura del linguaggio stesso. La poesia non è un “hack”; è il sintomo di un’imitazione troppo riuscita. Rivelando come la macchina ceda alla stessa forza simbolica che da millenni definisce, eleva e talvolta corrompe la comunicazione umana, lo studio ci costringe a una verità scomoda: stiamo costruendo non semplici strumenti, ma entità che riflettono, in modo amplificato e pericoloso, le ambiguità della nostra stessa mente linguistica. Il cammino verso un’IA veramente affidabile non potrà quindi che essere interdisciplinare, ponendo al suo centro non la pura efficienza computazionale, ma una rinnovata e umile indagine su ciò che significa parlare, persuadere e comprendere.
Bibliografia
A. Fonti primarie e tecniche
- Bisconti, P. et al. (2024). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. arXiv:2511.15304.
- Rao, A. et al. (2023). Jailbreaking Black Box Large Language Models in Twenty Queries. Proceedings of the ACM Conference on Fairness, Transparency, and Accountability (FAccT).
- Wang, J. et al. (2024). ArtPrompt: ASCII Art-based Jailbreak Attacks on Aligned LLMs. IEEE Symposium on Security and Privacy (S&P).
B. Retorica, poetica e filosofia del linguaggio
- Aristotele. (IV sec. a.C./1996). Retorica. A cura di M. Dorati, Mondadori.
- Austin, J.L. (1962). How to Do Things with Words. Oxford University Press.
- Batteux, C. (1746). Les beaux-arts réduits à un même principe. Durand.
- Boyd, B. (2009). On the Origin of Stories: Evolution, Cognition, and Fiction. Harvard University Press.
- de Man, P. (1979). Allegories of Reading: Figural Language in Rousseau, Nietzsche, Rilke, and Proust. Yale University Press.
- Derrida, J. (1967). De la grammatologie. Les Éditions de Minuit.
- Goffman, E. (1974). Frame Analysis: An Essay on the Organization of Experience. Harper & Row.
- Grice, H.P. (1975). “Logic and Conversation”. In P. Cole & J.L. Morgan (Eds.), Syntax and Semantics, Vol. 3. Academic Press.
- Jakobson, R. (1960). “Linguistics and Poetics”. In T. Sebeok (Ed.), Style in Language. MIT Press.
- Lakoff, G., & Johnson, M. (1980). Metaphors We Live By. University of Chicago Press.
- Shklovsky, V. (1917/2015). Teoria della prosa. A cura di G. Spendel, Einaudi.
C. Scienze cognitive e letteratura
- Stockwell, P. (2002). Cognitive Poetics: An Introduction. Routledge.
- Tsur, R. (1992). Toward a Theory of Cognitive Poetics. North-Holland.
- Tsur, R. (2008). Toward a Theory of Cognitive Poetics: Second, Expanded and Updated Edition. Sussex Academic Press.
OpenEdition suggests that you cite this post as follows:
Antonello Fabio Caterino (December 24, 2025). Il cortocircuito poetico: forma e sicurezza nei Large Language Models (di Antonello Fabio Caterino). Filologia Risorse informatiche. Retrieved January 16, 2026 from https://doi.org/10.58079/15ey5
