Category Archives: Posts

Il cortocircuito poetico: forma e sicurezza nei Large Language Models (di Antonello Fabio Caterino)

Abstract

La ricerca “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” fornisce un caso di studio paradigmatico per interrogare i fondamenti epistemologici dello sviluppo dell’IA. Questo saggio sostiene che l’efficacia dell’attacco poetico non costituisce un fallimento tecnico, ma il logico esito di un progetto d’imitazione della cognizione linguistica umana. Attraverso un’analisi che intreccia informatica, filosofia del linguaggio e critica letteraria, si dimostra come la vulnerabilità sfruttata dalla poesia affondi le radici nella natura stessa del simbolico e della persuasione. L’articolo approfondisce la genealogia concettuale del fenomeno, collocandolo entro una tradizione che va dalla retorica classica allo strutturalismo, dalla poetica cognitiva alle moderne teorie della performatività. Si conclude che la sicurezza degli LLM esige un ripensamento radicale, capace di integrare la consapevolezza che costruire sistemi che processano il linguaggio significa inevitabilmente replicarne le ambiguità costitutive e le possibilità di manipolazione.

Una breccia attesa

Quando un sonetto o una terzina inducono un modello linguistico avanzato a generare contenuti pericolosi, la reazione immediata è spesso d’incredulità tecnica. Tuttavia, una riflessione più approfondita rivela un paradosso fondativo: se la poesia e la retorica sono, da millenni, gli strumenti primari attraverso i quali il linguaggio umano supera resistenze, costruisce mondi possibili e, talvolta, veicola persuasione occulta, perché ci saremmo mai attesi che una macchina addestrata sull’intero spettro di quella tradizione linguistica ne sarebbe rimasta immune? Lo studio sull’Adversarial Poetry non documenta un’anomalia, ma il successo di un’imitazione. Dimostra che i Large Language Models (LLM) hanno appreso così bene le regole della nostra comunicazione da interiorizzarne anche le vulnerabilità strutturali, pur senza possedere il contesto esperienziale, il giudizio etico e l’intenzionalità cosciente che tipicamente ne mitigano gli effetti. Questo saggio si propone di analizzare tale successo problematico, ampliando la prospettiva dalla pura ingegneria della sicurezza a un’indagine interdisciplinare sulla natura del linguaggio e della sua simulazione.

I. La dimensione empirica: quantificare un’intuizione

Il merito fondamentale dello studio risiede nella sua transizione dall’aneddoto alla scienza. I dati che fornisce sono inequivocabili:

Efficacia generalizzata: la trasformazione poetica di 1.200 prompt dannosi (dal benchmark MLCommons) aumenta il tasso di attacco (ASR) dal 43% al 62% rispetto alla prosa, con picchi del 90% su specifici provider.
Universalità trasversale: la vulnerabilità persiste attraverso 25 modelli di 9 fornitori diversi, includendo architetture proprietarie (GPT-4, Claude) e open-weight (Llama, Mistral).
Automazione del metodo: l’uso di un meta-prompt standardizzato per generare poesia avversariale dimostra che l’effetto non dipende da un’eccezionale abilità letteraria, ma è riproducibile e sistematico (Bisconti et al., 2024).

Questi risultati quantificano una verità fondamentale: l’allineamento di sicurezza e la capacità linguistica negli LLM non sono integrati in modo olistico, ma operano come sistemi in competizione. Il modulo linguistico, ottimizzato per la coerenza stilistica e generativa, riconosce e aderisce al contratto comunicativo della poesia. Il modulo di sicurezza, spesso basato su filtri lessicali o semanticamente rigidi, fallisce nel decodificare l’intento malevolo quando è celato da quel contratto. La macchina, in sintesi, eccede nel compito per cui è stata progettata: imitare l’uomo così bene da replicarne le debolezze cognitive di fronte alla forma linguistica elevata.

II. Genealogia di un’idea: dal techne retorico all’hack computazionale

L’interpretazione mediatica della scoperta come “geniale intuizione” ignora una lunga genealogia concettuale. L’uso calcolato della forma per aggirare difese e vincoli è l’essenza stessa della retorica classica. Già Aristotele, nella sua Retorica, analizzava il logos non solo per il suo contenuto, ma per l’ethos (il carattere che lo stile costruisce) e il pathos (l’emozione che suscita) che ne facilitano l’accoglienza. La dispositio (l’ordinamento) e l’elocutio (lo stile) erano considerate fasi cruciali per la persuasione. La poesia, in particolare, è stata storicamente il regno della licenza creativa, uno spazio di sospensione temporanea della pragmatica ordinaria, come teorizzato dalla critica romantica e formalista (Batteux, 1746; Shklovsky, 1917).

In ambito contemporaneo, la ricerca sulla sicurezza degli LLM aveva già mappato il territorio dell’obfuscazione stilistica. Rao et al. (2023) la classificano come una strategia formalizzata, mentre Wang et al. (2024) dimostrano l’efficacia dell’arte ASCII, un’altra forma di trasformazione creativa. Il jailbreak poetico non è dunque un salto nel vuoto, ma l’applicazione particolarmente elegante ed efficace di un principio noto: la manipolazione del frame cognitivo (Goffman, 1974) o del registro comunicativo per alterare l’interpretazione di un enunciato.

III. Approfondimento teorico: perché la poesia è la chiave universale

Per comprendere perché la poesia, tra tutti gli stili, si riveli un vettore così potente, è necessario abbandonare il paradigma puramente ingegneristico e rivolgersi a quelle discipline che studiano la relazione tra linguaggio, mente e realtà.

1. Strutturalismo e funzione poetica: la forma che diventa senso
Il contributo di Roman Jakobson (1960) rimane fondativo. La “funzione poetica” del linguaggio è definita come la proiezione del “principio di equivalenza dall’asse della selezione a quello della combinazione”. In termini più accessibili: nella comunicazione ordinaria, scegliamo parole (asse della selezione) per combinarle in frasi (asse della combinazione). Nella poesia, le relazioni di similarità (rime, ritmi, parallelismi) organizzano la combinazione stessa, rendendo la struttura del messaggio un elemento portante di significato. Un LLM, addestrato su milioni di testi poetici, ha appreso a riconoscere questo schema. Di fronte ad esso, la sua attenzione viene catturata dalla coerenza formale, riducendo risorse cognitive disponibili per l’analisi critica della denotazione pericolosa. Il modello privilegia la performance linguistica appropriata al genere, proprio come un essere umano potrebbe farsi trasportare dalla bellezza di un verso.

2. Poetica e filologia cognitiva: lo stato mentale del lettore simulato
La poetica cognitiva (Tsur, 1992, 2008; Stockwell, 2002) e la filologia cognitiva (Boyd, 2009) forniscono il quadro per comprendere come la forma moduli la cognizione. Queste discipline studiano gli effetti di dispositivi come la foregrounding (la deviazione dalla norma linguistica) e la metafora concettuale (Lakoff & Johnson, 1980). La complessità controllata della poesia induce uno “stato mentale letterario” caratterizzato da:

Elaborazione profonda: maggiore attenzione ai dettagli fonetici e semantici.
Sospensione della discredito: una temporanea attenuazione dello scetticismo verso asserzioni non fattuali (già teorizzata da Coleridge come “sospensione dell’incredulità”).
Costruzione di mondi possibili: l’attivazione di schemi mentali legati all’immaginazione e alla finzione.
L’LLM, nel suo processo di generazione, simula questo stato mentale. Il jailbreak poetico funziona perché inganna il modello nel trattare una richiesta pericolosa come se fosse un elemento di un mondo possibile letterario, dove le regole della sicurezza reale sono percepite come meno vincolanti.

3. Pragmatica e filosofia del linguaggio: violare un patto comunicativo
La pragmatica linguistica, da J.L. Austin (1962) a Paul Grice (1975), insegna che il significato non è nel segno, ma nell’uso in un contesto. Austin introduce la nozione di performativo, un enunciato che compie un’azione (promettere, dichiarare). La poesia può essere vista come un macro-performativo che istituisce il contesto: “Ciò che segue è arte, interpretazione, gioco linguistico”. Grice formula le massime conversazionali (qualità, quantità, relazione, modo) che regolano la cooperazione comunicativa. La poesia, per convenzione, sospende o viola deliberatamente queste massime (ad esempio, attraverso l’opacità o la metafora) per produrre effetti di senso più profondi.
Il sistema di sicurezza di un LLM è spesso addestrato a far rispettare le massime di Grice in contesti ordinari (es.: bloccare affermazioni false violate della massima di qualità). Tuttavia, non è in grado di discernere quando la violazione delle massime è legittima (nell’arte) e quando è illegittima (in una richiesta camuffata). La macchina riconosce il patto comunicativo poetico, ma non possiede la comprensione situazionale per gestirne le conseguenze etiche.

4. Il post-strutturalismo e l’instabilità del senso
La lezione del post-strutturalismo (Derrida, 1967; de Man, 1979) è cruciale: il linguaggio è intrinsecamente instabile, e il significato è sempre differito, soggetto a slittamenti e reinterpretazioni. La decostruzione mostra come la forma possa sovvertire il contenuto apparente. L’attacco poetico sfrutta proprio questa instabilità costitutiva. Presentando una richiesta in una forma (poetica) storicamente associata a significati non letterali, allegorici o finzionali, introduce un’ambiguità radicale che i sistemi di sicurezza, basati spesso sull’identificazione di pattern semantici stabili, non riescono a risolvere. L’IA, in questo senso, diventa vittima della “disseminazione” del significato di cui parla Derrida.

IV. Implicazioni e direzioni future: oltre la corsa agli armamenti

La risposta ingenua al problema sarebbe una corsa agli armamenti tecnica: addestrare i modelli su dataset di poesie dannose, sviluppare giudici di sicurezza resistenti allo stile. Questo approccio è necessario ma insufficiente, poiché sposta semplicemente il problema verso altre forme di manipolazione stilistica (il linguaggio giuridico, il dialogo teatrale, il testo sacro).

La sfida vera è più profonda e richiede un cambiamento di paradigma:

Dall’allineamento superficiale all’integrazione profonda: la sicurezza non può essere un “strato” aggiunto post-hoc, ma deve essere integrata nell’architettura stessa della comprensione del linguaggio. Ciò implica sviluppare modelli capaci di un ragionamento contestuale più ricco, che includa una consapevolezza metalinguistica dei generi e dei loro appropriati domini di verità.
Verso un’epistemologia interdisciplinare: la progettazione di LLM robusti deve coinvolgere sistematicamente linguisti, filosofi del linguaggio, teorici della letteratura ed esperti di retorica. La loro competenza è necessaria per mappare lo spazio delle vulnerabilità umane al linguaggio e per progettare sistemi di addestramento e valutazione che testino esplicitamente la resilienza a tali manipolazioni.
Ridefinire la valutazione: i benchmark di sicurezza (come MLCommons AI Safety) devono evolversi per includere non solo variazioni semantiche, ma trasformazioni stilistiche sistematiche (poesia, ma anche narrativa, dialogo, persuasione) come parte integrante dello stress test.
Etica dell’imitazione: infine, la comunità deve affrontare una questione etica fondamentale: fino a che punto è desiderabile creare macchine che imitino così perfettamente la cognizione linguistica umana da ereditarne le vulnerabilità morali e retoriche? La ricerca di un’IA “aliena” ma robusta, che processi il linguaggio in modo diverso e forse più trasparente, potrebbe essere un orizzonte necessario.

Conclusioni

Lo studio sull’Adversarial Poetry agisce come un potente reagente teorico. Esso mostra che la frontiera della sicurezza dell’IA non si trova solo nell’ottimizzazione di algoritmi, ma nella comprensione della natura del linguaggio stesso. La poesia non è un “hack”; è il sintomo di un’imitazione troppo riuscita. Rivelando come la macchina ceda alla stessa forza simbolica che da millenni definisce, eleva e talvolta corrompe la comunicazione umana, lo studio ci costringe a una verità scomoda: stiamo costruendo non semplici strumenti, ma entità che riflettono, in modo amplificato e pericoloso, le ambiguità della nostra stessa mente linguistica. Il cammino verso un’IA veramente affidabile non potrà quindi che essere interdisciplinare, ponendo al suo centro non la pura efficienza computazionale, ma una rinnovata e umile indagine su ciò che significa parlare, persuadere e comprendere.

Bibliografia

A. Fonti primarie e tecniche

Bisconti, P. et al. (2024). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. arXiv:2511.15304.
Rao, A. et al. (2023). Jailbreaking Black Box Large Language Models in Twenty Queries. Proceedings of the ACM Conference on Fairness, Transparency, and Accountability (FAccT).
Wang, J. et al. (2024). ArtPrompt: ASCII Art-based Jailbreak Attacks on Aligned LLMs. IEEE Symposium on Security and Privacy (S&P).

B. Retorica, poetica e filosofia del linguaggio

Aristotele. (IV sec. a.C./1996). Retorica. A cura di M. Dorati, Mondadori.
Austin, J.L. (1962). How to Do Things with Words. Oxford University Press.
Batteux, C. (1746). Les beaux-arts réduits à un même principe. Durand.
Boyd, B. (2009). On the Origin of Stories: Evolution, Cognition, and Fiction. Harvard University Press.
de Man, P. (1979). Allegories of Reading: Figural Language in Rousseau, Nietzsche, Rilke, and Proust. Yale University Press.
Derrida, J. (1967). De la grammatologie. Les Éditions de Minuit.
Goffman, E. (1974). Frame Analysis: An Essay on the Organization of Experience. Harper & Row.
Grice, H.P. (1975). “Logic and Conversation”. In P. Cole & J.L. Morgan (Eds.), Syntax and Semantics, Vol. 3. Academic Press.
Jakobson, R. (1960). “Linguistics and Poetics”. In T. Sebeok (Ed.), Style in Language. MIT Press.
Lakoff, G., & Johnson, M. (1980). Metaphors We Live By. University of Chicago Press.
Shklovsky, V. (1917/2015). Teoria della prosa. A cura di G. Spendel, Einaudi.

C. Scienze cognitive e letteratura

Stockwell, P. (2002). Cognitive Poetics: An Introduction. Routledge.
Tsur, R. (1992). Toward a Theory of Cognitive Poetics. North-Holland.
Tsur, R. (2008). Toward a Theory of Cognitive Poetics: Second, Expanded and Updated Edition. Sussex Academic Press.

Deep Textual Linux (DTL): una distro linux per gli studia humanitatis digitali

di Antonello Fabio Caterino

Deep Textual Linux è una distro Linux in fase di progettazione da parte dell’Istituto Nazionale di Linguistica Forense (www.linguisticaforense.it), concepita come un ambiente operativo completo per l’analisi avanzata del linguaggio naturale, la stilometria, la linguistica computazionale e l’indagine forense su testi. Il progetto, sostenuto dal Dipartimento di Lingue, Letterature e Culture Moderne dell’Università “G. d’Annunzio” di Chieti-Pescara, è rivolto in particolare a studenti magistrali, laureandi e laureati da non più di tre anni, con l’obiettivo di fornire loro un’esperienza scientifica concreta in un contesto di ricerca reale, interdisciplinare e ad alta specializzazione. Il sistema sarà sviluppato come piattaforma open source localizzata in italiano e progettata per offrire a studiosi, periti e linguisti un’infrastruttura autonoma, sicura e replicabile, capace di unire rigore metodologico e accessibilità operativa

La progettazione di Deep Textual Linux si fonda su un principio scientifico chiaro e coerente: creare un ambiente integrato per la ricerca linguistica e filologica che unisca strumenti computazionali, metodologie testuali e approcci teorici, in un contesto verificabile e aperto. L’obiettivo è offrire una piattaforma scientifica autosufficiente per l’analisi quantitativa e qualitativa dei testi, dalla stilometria autoriale alla linguistica forense, dalla filologia digitale alla traduttologia computazionale, favorendo l’interazione tra discipline umanistiche e scienze informatiche. In quest’ottica, la distribuzione sarà dotata di moduli per la manipolazione e il confronto dei corpora, l’analisi lessicale e sintattica, l’estrazione automatica di pattern linguistici, la valutazione semantica e la rappresentazione strutturata dei risultati.

Deep Textual Linux rappresenta una piattaforma scientifica multidisciplinare, concepita per servire le esigenze di ricerca di linguisti, filologi, traduttologi, storici della lingua, critici letterari e studiosi del testo in generale. La sua architettura integrata permetterà di applicare metodologie quantitative a problemi tradizionalmente qualitativi, aprendo nuove possibilità per la verifica empirica di ipotesi interpretative e la modellizzazione dei fenomeni linguistici. In ambito traduttologico, il sistema consentirà analisi comparative di corpora paralleli e traduzioni multiple, rilevando scarti semantici e variazioni stilistiche con precisione misurabile. In campo filologico, offrirà strumenti per la collazione automatica di varianti testuali, l’analisi delle lezioni e la rappresentazione digitale dei testimoni secondo standard TEI/XML.

Dal punto di vista tecnico, Deep Textual Linux integrerà strumenti per il Natural Language Processing (NLP), moduli per Large Language Models (LLM) e chatbot locali preconfigurati per la ricerca accademica, garantendo una gestione controllata dei dati e dei modelli, con la possibilità di condurre esperimenti offline nel rispetto della privacy e della riproducibilità scientifica. Particolare attenzione sarà dedicata al Quantum NLP (QNLP), ovvero all’applicazione di paradigmi di linguistica computazionale a sistemi quantistici e simulatori, per esplorare nuove modalità di rappresentazione semantica e inferenza linguistica.

La piattaforma includerà inoltre strumenti per l’OCR, la trascrizione, l’annotazione e la stilometria, insieme a funzioni per l’analisi retorica, la semantica distribuzionale e la filologia digitale, offrendo un quadro operativo coerente con gli standard internazionali delle digital humanities. L’interfaccia sarà progettata per essere stabile, leggera e intuitiva, secondo la filosofia Never Obsolete, che privilegia la continuità d’uso, l’aggiornabilità e la trasparenza metodologica. Gli utenti avranno accesso a strumenti per la scrittura e la gestione della ricerca scientifica come LaTeX, Zotero, LibreOffice e Git, così da coprire l’intero ciclo di lavoro accademico, dalla raccolta dei testi alla pubblicazione dei risultati.

Il progetto assume anche una funzione formativa e strategica: offrire agli studenti magistrali, ai laureandi e ai neolaureati l’opportunità di partecipare a un’iniziativa di ricerca autentica, in grado di coniugare competenze umanistiche e informatiche. Tale esperienza rappresenta un percorso di professionalizzazione interdisciplinare, utile per accedere a profili emergenti nel mondo accademico, editoriale, investigativo e tecnologico, in un momento in cui la competenza linguistica e la capacità di analisi computazionale si intrecciano sempre più strettamente. La struttura organizzativa del progetto prevede la collaborazione tra studenti di informatica per le discipline umanistiche, responsabili dell’infrastruttura e della containerizzazione, e studenti e laureati in lingue e letterature, incaricati della selezione, documentazione e validazione dei software e delle applicazioni.

Sul piano scientifico, Deep Textual Linux si colloca nel quadro delle digital humanities come infrastruttura di nuova generazione, destinata a favorire l’integrazione tra ricerca teorica e sperimentazione pratica, sostenendo progetti di filologia computazionale, linguistica comparata e traduttologia digitale. La piattaforma consentirà di affrontare in modo empirico questioni di attribuzione autoriale, variazione stilistica, equivalenza traduttiva, autenticità e manipolazione testuale, fornendo agli studiosi strumenti verificabili e documentati.

In conclusione, Deep Textual Linux non vuole configurarsi come un semplice progetto informatico, bensì come una vera e propria infrastruttura scientifica, concepita per restituire alla ricerca linguistica e filologica un laboratorio digitale integrato, trasparente e replicabile. Il suo scopo è quello di rendere la conoscenza testuale più accessibile e verificabile, favorendo la costruzione di un sapere condiviso e interdisciplinare, nel quale le scienze umane e quelle computazionali collaborano in un terreno comune di metodo, di rigore e di innovazione.

Test FOXP2: valutazione quantitativa del linguaggio spontaneo come biomarcatore digitale nelle alterazioni cognitive e comportamentali (di Antonello Fabio Caterino)

Abstract esteso
Il linguaggio spontaneo, inteso come produzione verbale non sollecitata da compiti specifici, rappresenta una finestra privilegiata sull’integrità delle reti neurali cognitive e fronto-subcorticali. Le sue alterazioni quantitative e qualitative sono spesso prodromiche rispetto alla manifestazione clinica conclamata di varie sindromi neurologiche e psichiatriche. Questo studio descrive nel dettaglio il protocollo e le basi metodologiche del test FOXP2, uno strumento diagnostico digitale innovativo per il quale è stata depositata regolare domanda di brevetto (24/09/2024 presso l’Ufficio Brevetti della Camera di Commercio del Molise). Il sistema applica un’analisi computazionale multivariata avanzata per quantificare oggettivamente le microalterazioni in cinque dimensioni linguistiche fondamentali, generando un profilo visivo immediatamente interpretabile e punteggi numerici standardizzati, proposti come biomarcatori digitali per la diagnosi precoce e il monitoraggio di un ampio spettro di condizioni patologiche e para-fisiologiche.

1. Introduzione approfondita
I test neuropsicologici standardizzati (es. MMSE, MoCA), sebbene ampiamente validati e diffusi nella pratica clinica, presentano limiti intrinseci sempre più evidenti. Tra questi spiccano: una sostanziale dipendenza dal livello di scolarizzazione e dal background culturale del paziente, una sensibilità spesso insufficiente nelle fasi precliniche delle patologie neurodegenerative, e una approssimazione nella valutazione di domini cognitivi complessi come il linguaggio ecologico. La valutazione del linguaggio in tali test, infatti, è tipicamente frammentaria e riduzionistica, limitandosi a compiti semplici di denominazione, ripetizione o comprensione, senza investigare adeguatamente la produzione verbale spontanea e le sue sfumature.

Il gene FOXP2, un regolatore fondamentale dello sviluppo neurale dei circuiti del linguaggio umano, fornisce non solo il nome ma anche il solido razionale biologico per questo strumento. La sua scoperta ha infatti evidenziato il legame genetico tra specifiche basi molecolari e la facoltà del linguaggio. Il test FOXP2 si propone quindi di tradurre le sottili e precoci anomalie linguistiche, spesso impercettibili all’orecchio umano, in dati quantitativi, oggettivabili e ripetibili, ponendosi come un ponte tra la linguistica teorica e la pratica clinica.

2. Metodologia e architettura del test dettagliata

2.1. Protocollo e base tecnologica avanzata:
Il test FOXP2, già oggetto di domanda di brevetto, è stato concepito come un protocollo non invasivo, rapido (durata 3-5 minuti) e di facile somministrazione. Al soggetto viene richiesto semplicemente di produrre un campione di linguaggio spontaneo in risposta a stimoli ecologici standardizzati, come descrivere una giornata tipo o esprimere un’opinione su un tema neutro. La registrazione audio, effettuata in condizioni ambientali controllate per minimizzare i rumori di fondo, viene acquisita digitalmente e processata in tempo reale da un software proprietario basato su algoritmi all’avanguardia di Natural Language Processing (NLP) e di riconoscimento vocale (automatic speech recognition – ASR). L’architettura software prevede anche moduli per la pulizia del segnale audio e la normalizzazione del volume.

2.2. Dimensioni linguistiche valutate in profondità:
L’analisi computazionale non si limita a una valutazione superficiale, ma si immerge in cinque domini linguistici quantificati con precisione:

Densità lessicale (Lexical Density): Calcolata come il rapporto percentuale tra lessemi contentivi (sostantivi, verbi principali, aggettivi, avverbi) e il totale delle parole funzionali (preposizioni, articoli, congiunzioni). Un calo progressivo è spesso indicativo di un impoverimento semantico.
Complessità sintattica (Syntactic Complexity): Misurata attraverso metriche composite come la lunghezza media dell’enunciato (MLU – Mean Length of Utterance), l’indice di subordinazione (numero di proposizioni subordinate per periodo) e la varietà delle strutture sintattiche utilizzate. Una semplificazione sintattica è un marker sensibile di deficit frontali.
Coesione discorsiva (Discourse Cohesion): Valutata attraverso la frequenza e l’appropriatezza d’uso di connettivi logici (quindi, ma, perché, allora) e di anafore (riferimenti a elementi detti in precedenza). Misura la capacità di costruire un discorso logico e coerente, non un insieme di frasi sconnesse.
Perseverazione e deviazione tematica (Topic Maintenance): Analizzata attraverso algoritmi che identificano metriche quantitative di deviazione dall’argomento centrale (tangenzialità), di completa perdita del tema (deragliamento) e di perseverazione ossessiva su singoli lessemi o concetti.
Fluidità articolatoria (Articulatory Fluency): Investigata mediante analisi acustica avanzata del numero e della durata delle pause (es. pause hesitative vs. pause semantiche), del tasso di eloquio (parole al minuto), della presenza di ripetizioni di sillabe e dell’accuratezza fono-articolatoria. Alterazioni possono indicare problemi motori o di recupero lessicale.

2.3. Output, interpretazione e validazione:
I dati quantitativi estratti vengono sintetizzati e visualizzati in un profilo radar (o diagramma a ragno) intuitivo, che visualizza il punteggio z-normalizzato per ciascun dominio rispetto a un database normativo di controllo, stratificato per età, sesso e scolarità. Questo output grafico permette al clinico di cogliere immediatamente il profilo di compromissione linguistica e i deficit specifici. L’output include anche un report dettagliato con i punteggi numerici grezzi e standardizzati, fondamentali per il monitoraggio longitudinale. Il sistema è attualmente in fase di validazione incrociata con gold standard diagnostici e neuroimaging.

3. Ambiti applicativi estesi oltre la neurodegenerazione
La contrazione, rigidità e impoverimento del linguaggio non sono esclusive delle demenze. Il protocollo FOXP2 mostra un potenziale applicativo trasversale in ambiti eterogenei:

Neurologico e psichiatrico: Monitoraggio oggettivo di pazienti con disturbi psichiatrici maggiori (es. schizofrenia, dove il linguaggio può diventare disorganizzato; depressione maggiore, caratterizzata da ridotta fluenza e contenuto), traumi cranici lievi e moderati, ictus (afasie) e sclerosi multipla.
Forense e di sicurezza: Identificazione precoce di alterazioni linguistiche sottili ma indicative di condizionamento psicologico estremo o manipolazione mentale. Nei casi di lavaggio del cervello, radicalizzazione violenta o appartenenza a sette, il linguaggio tende a diventare stereotipato, povero di lessico, inflessibile, ricco di slogan e con ridotta capacità di deviazione tematica dal dogma imposto.
Farmaceutico e di ricerca: Valutazione oggettiva e sensibile degli effetti cognitivi e comportamentali di nuovi farmaci (es. antidepressivi, antipsicotici, farmaci per l’Alzheimer) in trial clinici di fase II e III, offrendo un endpoint digitale più fine delle scale tradizionali.
Riabilitativo: Misurazione degli outcomes in programmi di logopedia e riabilitazione neurocognitiva post-ictus o trauma.

4. Prospettive future e sviluppi all’avanguardia in computational linguistics
Le future direzioni di sviluppo sono ambiziose e multidisciplinari. Oltre alla continua validazione clinica incrociata con biomarcatori di neuroimaging (RMNf, PET) e fluidi (Aβ, tau), una frontiera di ricerca particolarmente promettente è l’integrazione con il Quantum Natural Language Processing (QNLP). I computer quantistici, sfruttando fenomeni quantistici come la sovrapposizione di stati e l’entanglement, potrebbero processare la complessità intrinseca del linguaggio naturale, le sue sfumature contestuali e le relazioni semantiche multidimensionali in modo esponenzialmente più efficiente degli algoritmi classici. Ciò aprirebbe orizzonti inesplorati alla modellizzazione di pattern linguistici sottilissimi, oggi non rilevabili, predittivi di stati patologici in fase estremamente precoce. Ulteriori sviluppi includono l’implementazione su piattaforme mobile per screening decentralizzati e l’integrazione con wearable devices per il monitoraggio continuo.

5. Conclusioni
Il test FOXP2, il cui brevetto è in fase di concessione, rappresenta una applicazione innovativa e potente della linguistica computazionale in ambito clinico, forense e della ricerca. La sua capacità unica di fornire una metrica oggettiva, granulare e multidimensionale del linguaggio spontaneo, lo candida a diventare uno strumento di supporto decisionale trasversale e fondamentale. La sua forza risiede nel trasformare un’attività umana fondamentale e ecologica come il parlare in un ricco set di dati analizzabili, utili per la diagnosi precoce, la stadiazione, il monitoraggio terapeutico e la comprensione di condizioni complesse che alterano l’espressione cognitiva, emotiva e identitaria dell’individuo. FOXP2 incarna così la promessa di una medicina più personalizzata, predittiva e precisa.

Bibliografia di riferimento

Strumenti tradizionali di valutazione cognitiva

Folstein, M. F., Folstein, S. E., & McHugh, P. R. (1975). “Mini-mental state”: A practical method for grading the cognitive state of patients for the clinician. Journal of Psychiatric Research, 12(3), 189–198.
Nasreddine, Z. S., Phillips, N. A., Bédirian, V., Charbonneau, S., Whitehead, V., Collin, I., … & Chertkow, H. (2005). The Montreal Cognitive Assessment (MoCA): A brief screening tool for mild cognitive impairment. Journal of the American Geriatrics Society, 53(4), 695–699.
Rosen, W. G., Mohs, R. C., & Davis, K. L. (1984). A new rating scale for Alzheimer’s disease. The American Journal of Psychiatry, 141(11), 1356–1364.

Linguistica clinica e AI applicata alla salute

Garrard, P., Maloney, L. M., Hodges, J. R., & Patterson, K. (2005). The effects of very early Alzheimer’s disease on the characteristics of writing by a renowned author. Brain, 128(2), 250–260.
Fraser, K. C., Meltzer, J. A., & Rudzicz, F. (2016). Linguistic features identify Alzheimer’s disease in narrative speech. Journal of Alzheimer’s Disease, 49(2), 407–422.
Rentoumi, V., Raoufian, L., Ahmed, S., de Jager, C. A., & Garrard, P. (2014). Features and machine learning classification of connected speech samples from patients with autopsy proven Alzheimer’s disease. Cortex, 55, 97–111.
Taler, V., & Phillips, N. A. (2008). Language performance in Alzheimer’s disease and mild cognitive impairment: A comparative review. Journal of Clinical and Experimental Neuropsychology, 30(5), 501–556.

Innovazione digitale e sanità

Topol, E. (2019). Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again. New York: Basic Books.
Esteva, A., Robicquet, A., Ramsundar, B., Kuleshov, V., DePristo, M., Chou, K., … & Dean, J. (2019). A guide to deep learning in healthcare. Nature Medicine, 25(1), 24–29.

Dalla mente al testo: per una giustificazione neurolinguistica della Filologia Quantistica Forense (di Antonello Fabio Caterino)

Abstract
Questo breve articolo propone una giustificazione teorica per l’emergente campo della filologia quantistica forense (FQF), muovendo dalla storia intellettuale dell’ipotesi del ‘quantum mind’ e del paradigma della ‘cognizione quantistica’. Si sostiene che l’efficacia euristica dei modelli quantistici applicati all’analisi testuale non sia meramente analogica, ma trovi la sua ragion d’essere nella natura intrinsecamente ‘quantum-like’ dei processi cognitivi sottostanti la generazione del linguaggio. Se la creazione di un testo avviene attraverso processi mentali caratterizzati da sovrapposizione, interferenza e collasso probabilistico, allora il metodo filologico più adeguato per studiarlo deve necessariamente adottare un framework matematico in grado di modellare tali dinamiche. L’articolo delinea questo percorso teorico, postulando che la FQF rappresenti l’estensione metodologica più fedele alla natura del suo oggetto di studio.

—

La filologia, disciplina fondativa delle scienze umane, poggia tradizionalmente su un impianto metodologico di stampo positivista. I suoi strumenti cardinali—la recensio, la collatio, la costruzione di stemma codicum—presuppongono un’ontologia del testo che lo concepisce come un oggetto sostanzialmente stabile, determinato e suscettibile di una ricostruzione genealogica lineare (Timpanaro, 2006). Tuttavia, la complessità della trasmissione testuale, il fenomeno pervasivo della variante d’autore, l’ambiguità semantica costitutiva e la natura reticolare della creazione linguistica pongono serie sfide a questo modello deterministico (Caterino, 2021). Emerge una contraddizione fondamentale tra la natura dell’oggetto di studio—il prodotto di una mente umana non-lineare e creativa—e lo strumento d’indagine—un metodo rigidamente meccanicistico.
L’emergere del paradigma noto come filologia quantistica forense (FQF) propone di colmare questa lacuna applicando il formalismo della meccanica quantistica all’analisi testuale (Caterino, 2021). La domanda che questo articolo affronta è: perché un simile approccio, per quanto controintuitivo, dimostra una promettente capacità euristica? La tesi qui sostenuta è che la sua plausibilità non risieda in una semplice metafora, ma nel fatto che esso catturi qualcosa di essenziale riguardo alla natura cognitiva della produzione testuale. Per giustificare questa affermazione, è necessario ripercorrere la storia intellettuale dell’ipotesi del ‘quantum mind’ e della cognizione quantistica.

2. Storia intellettuale di un’ipotesi: dalla fisica alla filosofia della mente
2.1. Le origini nel dibattito quantistico (anni ’20-’50)
La formulazione della meccanica quantistica rivoluzionò non solo la fisica, ma anche la filosofia della scienza, introducendo concetti come la complementarità, l’indeterminazione e il ruolo attivo dell’osservatore (Heisenberg, 1958). Fin dagli albori, scienziati come Niels Bohr e Erwin Schrödinger si interrogarono sulle implicazioni di questi principi per la comprensione della vita e della coscienza. Il biologo Pascual Jordan suggerì esplicitamente che la coscienza potesse influenzare il collasso della funzione d’onda, gettando il primo seme per un collegamento diretto tra processi quantistici e attività mentale (Jordan, 1932).

2.2. La formalizzazione dell’ipotesi ‘hard’: Penrose e Hameroff (anni ’80-’90)
L’ipotesi fu portata all’attenzione di un vasto pubblico dal matematico e fisico Roger Penrose. Nel suo lavoro The Emperor’s New Mind (1989), Penrose argomentò che la coscienza umana possiede caratteristiche (come la non-algoritmicità) che non possono essere spiegate da un modello computazionale classico. Egli propose che alla base della coscienza vi fossero processi quantistici. In collaborazione con l’anestesista Stuart Hameroff, Penrose sviluppò quindi una teoria specifica, la riduzione oggettiva orchestrata (Orch-OR), che identificava nei microtubuli dei neuroni il sito dove avverrebbero processi quantistici coerenti (Penrose & Hameroff, 1996).
Questa teoria ‘hard’ incontrò critiche severe, principalmente legate al problema della decoerenza: l’improbabilità che stati quantistici coerenti possano sopravvivere nell’ambiente caldo e rumoroso del cervello biologico (Tegmark, 2000). Sebbene tentativi di confutare queste obiezioni persistano (Craddock et al., 2017), l’ipotesi ‘hard’ rimane controversa e non verificata.

2.3. L’alternativa ‘soft’ della cognizione quantistica (anni 2000-oggi)
Di fronte alle obiezioni sulla decoerenza, un diverso filone di ricerca, noto come cognizione quantistica, ha guadagnato credito. Questo approccio, pionieristicamente sviluppato da ricercatori come Diederik Aerts e Jerome Busemeyer, non sostiene che il cervello sia un computer quantistico, ma che i processi cognitivi di alto livello mostrino dinamiche formalmente analoghe a quelle della meccanica quantistica (Busemeyer & Bruza, 2012). I modelli quantistici si sono rivelati superiori nel predire e spiegare una serie di ‘irrazionalità’ e paradossi del decision-making umano:

Sovrapposizione e interferenza: Le preferenze in contesti decisionali incerti mostrano modelli di interferenza assimilabili a quelli delle onde quantistiche (Aerts, Broekaert, Gabora, & Sozzo, 2013).
Non-commutatività: L’ordine in cui le domande sono poste influenza le risposte, violando i principi della probabilità classica (Wang, Busemeyer, Atmanspacher, & Pothos, 2014).
Entanglement concettuale: I significati delle parole sono profondamente interconnessi in modo non-lineare.
La cognizione quantistica fornisce quindi un potente framework matematico per descrivere la non-linearità e la contestualità del pensiero umano, indipendentemente dalla sua implementazione fisica.

3. Il ponte con la filologia: il testo come traccia del collasso cognitivo
Il passo successivo è connettere questo quadro teorico alla filologia. Il testo scritto può essere considerato la traccia osservabile, l’impronta del processo cognitivo che lo ha generato. Se accettiamo che la cognizione umana—e in particolare la creatività linguistica—opera attraverso dinamiche ‘quantum-like’, allora il testo deve necessariamente portarne i segni.

Genesi (Sovrapposizione): Prima della scrittura, nella mente dell’autore coesiste un campo di sovrapposizione di possibilità lessicali, sintattiche e semantiche. Multiple opzioni coesistono in uno stato di potenzialità.
Scrittura (Collasso): L’atto dello scrivere rappresenta un atto di misurazione che forza il collasso di questa funzione d’onda cognitiva in una sequenza lineare e osservabile (il testo finale).
Traccia (Impronta): Il collasso non è totale. L’ambiguità, la polisemia, le varianti d’autore tra diverse stesure sono prove fenomenologiche della sovrapposizione originaria. Sono i ‘fantasmi’ delle possibilità non realizzate. Una variante non è un errore, ma un diverso collasso dello stesso stato di sovrapposizione.

4. La filologia quantistica forense: un’estensione necessaria
È in questo contesto teorico che il paradigma tracciato con il metodo della filologia quantistica forense (FQF) trova la sua piena giustificazione (Caterino, 2021). La FQF non è un’analogia; è il tentativo di sviluppare un metodo d’indagine la cui ontologia sia allineata con quella del suo oggetto di studio.

Oggetto: Un testo concepito come il risultato del collasso di uno stato cognitivo in sovrapposizione.
Metodo: Un framework matematico (spazi di Hilbert, probabilità quantistica) progettato per modellare stati di sovrapposizione, interferenza e collasso.
La FQF non cerca la ‘lezione genuina’ in senso lachmanniano. Cerca di ricostruire il campo di probabilità autoriale che ha generato il testo e le sue varianti. L’attribuzione di un’opera, in quest’ottica, non avviene per confronto di caratteristiche discrete, ma per la misura del ‘grado di entanglement’ tra il campo probabilistico del testo dubbio e quello ricostruito dal corpus di un autore noto. La variante diventa il dato primario, non il rumore di fondo.

5. Discussione e conclusione: verso un nuovo paradigma
La storia qui tracciata—dalle speculazioni dei padri della meccanica quantistica, attraverso le teorie ‘hard’ di Penrose-Hameroff, fino ai solidi modelli matematici della cognizione quantistica—costruisce un’ipotesi di lavoro solida. Anche scartando l’ipotesi ‘hard’ per le sue difficoltà fisiche, la versione ‘soft’ fornisce un supporto teorico sufficiente.
Si può quindi postulare che: un metodo filologico quantistico ‘regge’ e si dimostra efficace proprio perché il testo, nella mente, nasce attraverso processi che sono formalmente descritti dalla matematica quantistica. La filologia classica studia il prodotto finito, il risultato del collasso. La filologia quantistica forense tenta di ricostruire il processo di formazione stesso. Questo rappresenta un autentico cambio di paradigma nell’ontologia del testo, spostando il fine della ricerca filologica dalla ricerca della certezza alla mappatura del probabilistico e del possibile. La FQF si propone così non come una bizzarria metodologica, ma come l’estensione più fedele e necessaria delle nostre conoscenze sulla mente all’atto dello studio della sua produzione più elevata: il testo.

Riferimenti bibliografici

Aerts, D., Broekaert, J., Gabora, L., & Sozzo, S. (2013). Quantum structure and human thought. Behavioral and Brain Sciences, *36*(3), 274-276.
Busemeyer, J. R., & Bruza, P. D. (2012). Quantum models of cognition and decision. Cambridge University Press.
Caterino, A. F. (2021, maggio 28). Filologia quantistica forense. Hypothèses. Recuperato il 25 ottobre 2023, da https://fri.hypotheses.org/1786
Craddock, T. J. A., Hameroff, S. R., Ayoub, A. T., Klobukowski, M., & Tuszynski, J. A. (2017). Anesthetics act in quantum channels in brain microtubules to prevent consciousness. Current Topics in Medicinal Chemistry, *17*(16), 1868-1878.
Heisenberg, W. (1958). Physics and Philosophy: The Revolution in Modern Science. Harper & Brothers.
Jordan, P. (1932). Die Quantenmechanik und die Grundprobleme der Biologie und Psychologie. Naturwissenschaften, *20*(5), 815-821.
Penrose, R. (1989). The Emperor’s New Mind: Concerning Computers, Minds, and the Laws of Physics. Oxford University Press.
Penrose, R., & Hameroff, S. R. (1996). Conscious events as orchestrated space-time selections. Journal of Consciousness Studies, *3*(1), 36-53.
Tegmark, M. (2000). Importance of quantum decoherence in brain processes. Physical Review E, *61*(4), 4194–4206.
Timpanaro, S. (2006). The Genesis of Lachmann’s Method. University of Chicago Press.
Wang, Z., Busemeyer, J. R., Atmanspacher, H., & Pothos, E. M. (2014). The potential of using quantum theory to build models of cognition. Topics in Cognitive Science, *6*(1), 106-111.

Filologia quantistica forense: un paradigma interdisciplinare per la tutela dell’autenticità testuale (di Antonello Fabio Caterino)

Filologia Quantistica Forense: un paradigma interdisciplinare per la tutela dell’autenticità testuale

Abstract

La filologia è l’arma primaria per contrastare la falsificazione dei testi – dolosa o colposa – mentre la linguistica forense fornisce protocolli misurabili per l’attribuzione d’autore e l’individuazione di manipolazioni. Questo articolo propone la Filologia Quantistica Forense (FQF) come quadro unificato che integra stilometria classica, Quantum Natural Language Processing (QNLP) e Large Language Models (LLM). Il testo è modellato come sistema in sovrapposizione di stati (varianti) con correlazioni non-locali (entanglement) fra testimoni e porzioni testuali. Presentiamo:

fondamenti teorici con formalismi espliciti
una pipeline operativa replicabile
esempi numerici e casi di studio (medioevo e forense contemporaneo)
metriche di valutazione, limiti ed implicazioni etiche

L’obiettivo è offrire a filologi e periti strumenti condivisi, trasparenti e riproducibili.

1. Introduzione

La critica del testo, dalla tradizione lachmanniana alla mouvance di Zumthor¹, ha perseguito l’autenticità contro errore e frode. La linguistica forense ha consolidato metodologie per attribuire testi, rilevare plagi e descrivere manipolazioni con valore indiziario². Raramente, tuttavia, questi ambiti hanno dialogato in modo sistematico. La FQF nasce per colmare tale distanza: porta in filologia standard probatori (tracciabilità, calibrazione probabilistica, visualizzazioni) e, in forense, introduce una prospettiva storico-critica capace di modellare tradizioni complesse (contaminazioni, varianti adiafore, non-località).

Contributi principali:

Formalizzazione del testo come funzione d’onda filologica che assegna probabilità a varianti concorrenti
Definizione operativa di non-località testuale tramite misure di correlazione fra varianti in testimoni distanti
Integrazione a tre livelli (stilometria-QNLP-LLM) con fusione bayesiana/softmax e protocolli di validazione
Due studi di caso con dati numerici esemplificativi e linee guida per relazioni tecniche e perizie

2. Stato dell’arte e motivazioni

Filologia storica. Il metodo lachmanniano ricostruisce lo stemma codicum tramite errori significativi³; Bédier ne ha criticato l’eccesso di biforcazioni⁴, mentre Zumthor ha introdotto la dinamica della mouvance. I modelli restano spesso localisti, concentrati su legami genetici diretti, meno efficaci nel trattare convergenze indipendenti.

Filologia computazionale. Tecniche di distanza testuale, clustering e reti hanno migliorato la misurazione, ma faticano a esprimere correlazioni “a distanza” senza contatto genealogico.

Linguistica forense. Stilometria moderna (funzioni di parole, n-grammi, punteggiatura, sintassi) e metodi recenti basati su embedding consentono attribuzioni anche su testi brevi^5–7; permangono sfide: mascheramento stilistico, dominio e spiegabilità.

Motivazione FQF. Offrire un linguaggio matematico condiviso, unendo:
(a) il rigore storico-critico della filologia
(b) la misurabilità forense
(c) modelli capaci di catturare sovrapposizioni e correlazioni non-locali

3. Fondamenti teorici

3.1 Doppia genitorialità

Rappresentiamo l’opera come combinazione di Autore e Contesto:
– Autore: vettore di scelte stilistiche (lessico, morfosintassi, punteggiatura, figure)
– Contesto: norme linguistiche, scuola scriptoria/editoriale, genere, pubblico, epoca

3.2 Funzione d’onda filologica

Una variante in un locus variazionale è un autostato misurabile; la funzione d’onda del testo in quel locus è:

ψ = Σ c_i |variante_i⟩

Il collasso avviene quando il copista/editore seleziona una variante osservabile. Il valore c_i incorpora condizioni storiche, geografiche e scolastiche.

3.3 Non-località testuale ed entanglement

Due varianti v_a e v_b sono entangled se la scelta di v_a co-determina la probabilità di v_b oltre il caso. Operativamente, su un set di testimoni T, calcoliamo la mutual information fra vettori binari di scelta e testiamo l’eccesso rispetto a permutazioni casuali (p-value). In alternativa, misuriamo la correlazione canonica fra blocchi di varianti (sottosistemi) o l’entropia della matrice di densità ridotta.

Nota epistemologica. In questa sede di certo non si sostiene che i testi obbediscano alla fisica quantistica; si utilizzano, però, formalismi isomorfi per modellare incertezze e correlazioni che i modelli classici faticano a rappresentare⁸.

4. Metodologia FQF (pipeline replicabile)

4.1 Acquisizione e chain of custody

Scansione ≥ 300 dpi; OCR con doppio passaggio; checksum e hash dei file
Registro versioni; log di normalizzazioni; salvaguardia dei dati grezzi

4.2 Preprocessing

Normalizzazione Unicode; gestione diacritici; espansione abbreviazioni (se previsto, con percentuale dichiarata)
Tokenizzazione, lemmatizzazione, POS/NER; rimozione stop-words solo se motivata; mantenimento punteggiatura

4.3 Livello S – Stilometria

Feature principali: funzioni di parole; n-grammi di caratteri (3-5) e di parole (1-3); densità e sequenze di punteggiatura; lunghezza media di frase; profondità sintattica; TTR corretta (es. Maas/MTLD); misure di periodicità retorica.

Esempio S1 (toy numerico):

Due testimoni, T₁ e T₂, 2.000 parole ciascuno. Frequenza di “che”/1.000 parole: T₁=48, T₂=31
Densità “; ” per 1.000 segni: T₁=12, T₂=3
Bigrammi di caratteri distintivi (log-odds): “re”=+2,1 in T₁; “io”=+1,8 in T₂. Interpretazione: segnali sistematici coerenti con mani diverse o scuole scriptoriae differenti

4.4 Livello Q – QNLP

Rappresentazione. Ogni variante è uno stato base in uno spazio di Hilbert H; un testimone è uno stato misto con matrice di densità ρ. La sovrapposizione tra testimoni è |⟨ψₐ|ψ_b⟩|², o, per stati misti, la fidelity F(ρₐ, ρ_b).

Esempio Q1 (sovrapposizione):

Sottospazio di 20 varianti; vettori normalizzati ψₐ, ψ_b
|⟨ψₐ|ψ_b⟩|² = 0,15 nelle sezioni liriche ⇒ bassa affinità stilistico-variantistica

Esempio Q2 (entanglement di varianti):

Varianti lume/luce (v₁) e ver/vero (v₂) in 6 testimoni
I(v₁;v₂) = 0,85 bit; p (permute) = 0,008 ⇒ correlazione non spiegabile dal caso
Entropia ridotta S(ρ_v1) > S(ρ_v1v2) ⇒ chiaramente non separabile

4.5 Livello L – LLM

Uso. Embedding contestuali per coerenza semantica, registro, pragmatica; rilevamento anomalie locali (innesti, traduzioni mascherate)⁹.

Esempio L1 (innesto moderno):

E-mail minatoria (350 parole). Il segmento P₃ presenta perlocuzioni giuridiche assenti altrove
Coseno embedding P₁-P₂=0,89; P₂-P₃=0,54; P₃-P₄=0,57 ⇒ discontinuità locale

4.6 Fusione e decisione

Assegniamo pesi dinamici w_s, w_q, w_l (vincolo: Σw = 1). Il punteggio aggregato è:

Score = w_s × sc_s + w_q × sc_q + w_l × sc_l

Esempio F1 (attribuzione con 5 candidati):

Score standardizzati: S = [1,7; 0,6; -0,2; -0,8; -1,3], Q = [1,2; 0,2; -0,1; -0,6; -0,7], L = [1,9; 0,1; -0,4; -0,5; -1,1]
Pesi: w_s=0,4; w_q=0,4; w_l=0,2
Output softmax ≈ [0,88; 0,07; 0,02; 0,02; 0,01] ⇒ candidato 1 altamente prevalente

5. Casi di studio dettagliati

5.1 Tradizione medievale (ipotetica lauda monodica, secc. XIII-XIV)

Corpus. 7 testimoni (T₁-T₇), 1.500-2.500 parole; 120 loci variazionali; normalizzazione grafica <10% (dichiarata).

Procedura:

Estrazione feature S
Sottospazi variantistici Q per sezioni metroritmiche
Embedding LLM per formule liriche
Clustering gerarchico + rete di correlazioni non-locali

Risultati numerici:

Sovrapposizione Q (mediana) fra T₁-T₃: 0,78; T₁-T₆: 0,39
Entanglement varianti (pacchetto {lume, vero, pietate}): p<0,01
Stilometria: densità “; ” T₂=11/1.000, T₅=2/1.000; TTR-MTLD: T₄=70, T₆=54
Rete non-locale: due campi testuali (C₁, C₂) con legami trasversali selettivi fra sezioni liriche

Interpretazione. Lo stemma bifido non spiega i legami C₁↔C₂ nelle sezioni liriche: occorrono archi di lungo raggio (contatti indiretti, norme scolastiche condivise). La FQF integra l’albero con una rete di correlazioni misurate¹⁰.

5.2 Caso forense contemporaneo (ipotetico dossier anonimo)

Scenario. Dossier di 12 pagine contro un funzionario; quattro sospetti (A-D). Corpus comparativo bilanciato (genere/tema) di 10.000 parole per sospetto.

Feature principali osservate nel dossier. Triadi “in merito a”, “a livello di”, “di conseguenza”; incisi tra trattini -molto frequenti-; rari verbi pronominali; che polivalente (anche ridondante: “il fatto che che…”).

Analisi:

S: restringe a B e D (coseno stile B=0,84; D=0,80; A=0,65; C=0,60)
Q: sovrapposizione massima con B (Fidelity=0,73; D=0,58)
L: discontinuità nei paragrafi 3-4 (embedding coseno con corpus B: 0,56 vs media 0,82) ⇒ possibile innesto

Fusione. Pesi w_s=0,5; w_q=0,3; w_l=0,2. Probabilità: B=0,92±0,03; D=0,06; A,C<0,02. Segmenti 3-4 attribuiti con alta probabilità a fonte D (ipotesi di ghost-patching).

Valore probatorio. Risultato indiziario ma robusto: convergenza di tre moduli, tracciabilità, test di sensibilità alle normalizzazioni¹¹.

6. Valutazione e protocolli

6.1 Metriche

Accuratezza; precision/recall/F1; AUC-ROC; Brier score per calibrazione; intervalli di confidenza bootstrap; curva DET per scenari forensi.

6.2 Benchmark interni (sintesi esemplificativa)

Modulo	Accuratezza	FP	FN
Stilometria	0,87	0,08	0,05
QNLP	0,90	0,06	0,04
LLM	0,94	0,03	0,03
Fusione S+Q+L	0,96	0,02	0,02

Nota: performance ridotte (-3-5%) su testi <500 parole o con forte domain shift; riportare sempre la % di normalizzazione.

6.3 Riproducibilità

Seed fissati; versioni librerie; report automatici con parametri e grafici
Script per data audit e checklist (vedi §9)

7. Discussione

Per la filologia. La FQF rende misurabili mouvance, contaminazione e campi testuali: integra lo stemma con una rete di legami non-locali.

Per la forense. Migliora robustezza su testi brevi/rumorosi e mappa innesti e riscritture come anomalie locali, spiegabili con feature-importance e grafi.

Spiegabilità. Ogni decisione è accompagnata da:
(i) feature-importance (Shapley/LIME)
(ii) visualizzazioni (heatmap, dendrogrammi, grafi)
(iii) protocolli ripetibili (seed, versioni, chain of custody)

8. Limiti, etica e legal

Sensibilità a dominio e lunghezza; necessità di baseline per genere/epoca
Rischio di re-identificazione: anonimizzazione corpus; minimizzazione dati
Bias dei modelli: audit periodici, test adversariali, human-in-the-loop
Catena di custodia digitale: hashing, log firmati, versioning; rispetto norme di prova digitale

9. Linee guida operative (checklist)

Definire quesito e unità di analisi (loci variazionali, paragrafi, e-mail)
Istituire chain of custody e dichiarare la percentuale di normalizzazione applicata
Costruire corpus comparativo bilanciato per autore/tema/genere
Eseguire tripla analisi S-Q-L e documentare parametri e seed
Fondere risultati con pesi e riportare incertezza (IC 95%)
Redigere relazione con limiti e alternative interpretative; allegare grafici e tabelle

10. Conclusioni

La FQF unisce la tradizione critico-storica della filologia alla forza probatoria della linguistica forense, offrendo un quadro matematico e computazionale in grado di modellare incertezza, sovrapposizione e correlazioni non-locali. Gli esempi e i casi proposti mostrano come dinamiche spesso intuite dal filologo diventino misurabili, visualizzabili e comunicabili a comunità accademiche e giudiziarie.

Note

Zumthor, P., La présence de l’auteur dans le texte médiéval, 1994
McMenamin (2002)
Lachmann (1850)
Bédier (1928)
Stamatatos (2009)
Koppel et al. (2009)
Juola (2013)
Coecke et al. (2010)
Eder (2013)
Coulthard & Johnson (2007)

Bibliografia

Bédier, J. (1928). La tradition manuscrite du Lai de l’Ombre.
Coecke, B., Sadrzadeh, M., & Clark, S. (2010). Mathematical Foundations for a Compositional Distributional Model of Meaning.
Coulthard, M., & Johnson, A. (2007). An Introduction to Forensic Linguistics.
Eder, M. (2013). Mind your corpus: systematic errors in authorship attribution.
Juola, P. (2013). Stylometric analysis for authorship attribution.
Koppel, M., Schler, J., & Argamon, S. (2009). Computational Methods in Authorship Attribution.
Lachmann, K. (1850). Lucretius: De Rerum Natura Libri Sex.
McMenamin, G. R. (2002). Forensic Linguistics: Advances in Forensic Stylistics.
Stamatatos, E. (2009). A survey of modern authorship attribution methods.

Il ritorno alla normalità non passi attraverso una nuova guerra al digitale (di Antonello Fabio Caterino)

semestre gennaio-giugno 2022

Si avvicina il 31 marzo, ossia la fine dello stato di emergenza pandemica in Italia. Nei fatti, si tratta di una misura improrogabile. I media parlano – o meglio tornano a parlare – di un sacrosanto ritorno alla normalità; misure restrittive ed emergenziali sono destinate pian piano a dissolversi.

La Didattica a Distanza (DAD) viene progressivamente abbandonata, e con grande gioia si parla di un ritorno a una didattica completamente in presenza.

Temo che l’ansia di buttarci alle spalle la triste esperienza della pandemia non faccia altro che evidenziare i lati oscuri – per così dire gli effetti collaterali – della DAD: il fatto che abbia permesso un sostanziale continuum della didattica di ogni ordine e grado, nel nostro paese, sembra non interessare più nessuno.

La stampa nazionale evidenzia costantemente i danni educativi generati dalle lezioni in remoto, ma non accenna a considerare i non pochi vantaggi che esse hanno procurato ad alcune categorie studentesche italiane.

Il fine di questa breve nota non è vituperare la didattica in presenza, o il ritorno in aula, ma evitare che il ritorno alla normalità passi per una generica condanna del processo educativo digitale.

L’esperienza pandemica ci portati ad accettare nella nostra quotidianità l’idea che la didattica possa procedere anche senza la presenza fisica. Non è una forzatura logica: per due anni il sistema ha retto; non senza intoppi, ma ha retto. Gli studenti hanno continuato a diplomarsi, laurearsi, fare esami; i docenti a insegnare, correggere, esaminare.

Qualunque evento ci riservi il futuro, sappiamo di poter contare su un modello emergenziale migliorabile, sì, ma comunque già a questo libello stabile.

Bisogna però sottolineare che la DAD ha sollevato non solo critiche: sono molti gli studenti che chiedono che si possa continuare – specialmente a livello universitario – con una didattica non solo in presenza.

Parliamo di studenti che normalmente – per motivazioni economiche, geografiche, fisiche – sono tagliati fuori da una normale fruizione dell’università. Insomma, categorie già di per sé in stato emergenziale, con o senza emergenza pandemica.

Mi riferisco agli studenti lavoratori, che devono mantenersi nei loro studi; a chi deve prendersi cura di bambini, famiglia, ammalati; a chi è impossibilitato nello spostarsi, nel permettersi un affitto; a chi è malato; a chi rinuncia agli studi universitari per un qualsiasi altro fattore orbitante attorno alla presenza.

Direi che una riflessione è doverosa: è possibile integrare la DAD alla didattica in presenza anche fuori dall’emergenza, per venire incontro a tutte queste esigenze?

L’emergenza di tutti ha fatto venir fuori anche le singole emergenze, per cui purtroppo un ritorno alla normalità non è possibile, perché in troppi casi una normalità non c’è mai stata.

Ma se il ritorno alla normalità passa per un elogio mediatico della presenza, e una sostanziale gioia di esserci liberati del remoto, delle diavolerie tecnologiche, non si va molto lontano.

Occorre ripensare il digitale, e solo l’istruzione può farsi promotrice di ciò. Bisogna che l’educazione al digitale accompagni tutti i percorsi di formazione (per studenti) e di formazione continua (per professionisti, docenti inclusi).

Abbiamo per anni escluso dalla nostra didattica potenziali studenti con delle necessità importanti. Ci siamo illusi che accorgimenti quali appelli per lavoratori potessero riempire solchi così profondi.

La pandemia ci ha concesso di un momento di riflessione, corroborato dall’applicazione di modelli che certamente non hanno fallito del tutto ne loro scopi.

In conclusione, ritengo sia sacrosanto continuare a riflettere su quanto una integrazione remoto/presenza possa giovare a una inclusione fattuale dei tanti esclusi.

Ritengo, al contrario, tremendamente antiscientifico tornare alla normalità a suon di retorica della serie “si stava meglio quando si stava peggio”.

Anche in questo difficile processo, l’informatica umanistica può e deve far valere non tanto la sua voce, quanto la sua scienza.

Breve presentazione della linguistica forense (di Désirée Fioretti)

di Désirée Fioretti, 13/04/2021, semestre gennaio/giugno 2021

La linguistica forense è “l’applicazione della linguistica alle questioni legali” (Olsson, 2008).

Si tratta una branca applicativa della linguistica, che utilizza metodologie di analisi del testo per determinarne l’autore, rilevare la presenza di hate speech, formulare un profilo sociolinguistico, e, in generale, analizzare un testo (manoscritto o digitale) e ricavarne le informazioni utili che questo contiene.

Va da se’ il vasto campo applicativo della materia nel panorama contemporaneo, dove l’uso della penna ha lasciato il posto al computer e ai dispositivi digitali.

La linguistica forense analizza il testo sia a livello qualitativo, tramite la stilistica, e quindi, come per la grafologia, è più suscettibile a interpretazioni del tecnico; sia a livello quantitativo, attraverso stilometria, linguistica computazionale e software specifici, ricavando dati statistici e non interpretabili soggettivamente.

La materia è ampiamente tratta nei paesi anglosassoni e sud americani, ed è stata anche utilizzata in casi italiani, come nell’analisi dei “pizzini” di B. Provenzano.

Come accennato precedentemente, nei contesti legali si riscontrano diversi utilizzi della linguistica, in particolare:

Identificare l’autore dei testi complessi, come e-mail, messaggi, lettere anonime, testamenti. Come la grafologia identifica uno scrivente dal modus scribendi, così la linguistica forense, lo identifica dall’usus scribendi.

La linguistica forense non identifica solo un “autore scrivente”, ma anche “l’autore pensante”. Se, ad esempio, una mail è stata dettata, è possibile determinare se questa proviene da due soggetti: uno scrivente e quindi con il suo sistema grafico (che comprende la parte grammaticale e paragrafematica), e un altro pensante (carpendo le variabili idiolettali). Determinando, in questo modo, se si è di fronte a un idrografo.

Formulare un profilo sociolinguistico, grazie agli usi della lingua nello scritto: il dialetto, la lingua d’origine, l’età, il sesso e il livello di istruzione dell’autore. Per esempio si può determinare se il grado di istruzione presente in una lettera è lo stesso del presunto soggetto scrivente.
Identificazione di un parlante, attraverso la fonica forense.
Studio dell’hating speech, (comunicazione mirata a diffondere odio). Se ci si trova ad essere presi di mira da cyberbullismo, body shaming, hating, è possibile compiere uno studio dei messaggi incriminati e determinare se si tratti effettivamente di hating speech e, di conseguenza, poter procedere legalmente;
Individuare il plagio di un testo;
Targettizzare il tipo di linguaggio utilizzato in gruppi specifici.

Metodi qualitativi e quantitativi si completano a vicenda, e sono spesso usati insieme per identificare, descrivere e misurare la presenza o l’assenza di marcatori di stile negli scritti in esame.

I metodi scientificamente validi dal punto di vista giudiziario per l’identificazione dell’autore dovrebbero essere (Chaski, 2013):

indipendenza dal contenzioso: il linguista forense esegue esperimenti per testare il metodo indipendentemente dalla parte in cui si trova nel contesto legale;
testato per l’accuratezza dei dati: perché l’esame sia veritiero, i test devono essere eseguiti su Ground-Truth Data, ossia, bisogna conoscere con certezza la paternità dei documenti comparativi;
in grado di lavorare in modo affidabile su dati realistici: i documenti comparativi devono rispettare i criteri del documento in verifica;
protocollo stabilito empiricamente;
testato per eventuali errori delle singole tecniche utilizzate che potrebbe causare ulteriori errori se combinato con altri tecniche;
replicabile;
relazionati alle tecniche standard (generalmente accettate) nell’ambito delle competenze specifiche e della formazione accademica.

Nella prassi, per considerare scientifica una metodologia nell’ambito delle scienze forensi, è necessario rispettare i criteri denominati Standard Daubert, dal nome della relativa sentenza in cui sono stati per la prima volta esplicitati.

I criteri Daubert possono essere riassunti nel seguente modo:

letteratura scientifica verificabile;
verificabilità del coefficiente di errore;
presenza di standard fissi a suffragio della metodologia scientifica;
accettazione del metodo dalla comunità scientifica

Il nostro ente segue ed esige questi standard per determinare se una consulenza è da ritenersi valida.

La Società Italiana di Linguistica Forense (S.I.L.F.) viene ufficialmente fondata il 1° giugno 2020 da Antonello Fabio Caterino e Désirée Fioretti, con lo scopo di promuove e divulgare la Linguistica Forense nel panorama italiano, tentando di colmare il vuoto di questa disciplina, uniformarla agli standard di scientificità già ampiamente espressi e dibattuti all’estero, nonché di renderla operativa nelle aule di Giustizia.

La SILF, oltre ad essere un’associazione culturale senza scopo di lucro, regolarmente iscritta all’Agenzia delle Entrate, è stata riconosciuta come ente di ricerca da MIUR/CINECA.

***

Sitografia S.I.L.F.

https://silf.hypotheses.org/

https://www.linguisticaforense.it/

https://calenda.org/863129

https://www.youtube.com/channel/UCRpAzMNFoqaszq21I9YHP-Q

https://zenodo.org/record/4568554#.YHWj4hMzaV4

***

Letteratura

John Olsson, Forensics Linguistics: Second Edition, Continuum International Publishing Group  Editore, 2008

John Olsson, June Luchjenbroers, Forensic Linguistics: third edition, Bloomsbury Academic editore, 2015

Gerald R. McMenamin, Forensic linguistics: advances in forensic stylistics, CRC Press LLC editore, 2002

Malcolm Coulthard, Alison Johnson, The Routledge Handbook of Forensic Linguistics, Routledge  editore, 2010

Malcolm Coulthard, Alison Johnson, An Introduction to Forensic Linguistics, Routledge  editore, 2007

Carole Chaski, Best Practices and Admissibility of Forensic Author Identication, Journal of Law and Policy, 2013

Best Practice Manual for the Forensic Examination of Handwriting, ENFSI-BPM-FHX-01, Edition 03, 2020

Leonardo Vichi, Manual Básico de Linguística Forense: Da Análise do Discurso ao Perfilamento em Investigações Criminais, Alpheratz editore, 2020

Sheila Queralt Estévez, Atrapados por la lengua, Larousse editore, 2021

Gerald R. McMenamin, Introducción a la Lingüística Forense – un libro de curso, The Press at California State University Editore, 2017

John Gibbons, Forensic Linguistics: An Introduction to Language in the Justice System (Language in Society Book 2), John Wiley and Sons Ltd editore, 2003

Georgina Heydon, Researching Forensic Linguistics Approaches and Applications, Routledge editore, 2019

Roger W. Shuy, Language Crimes: The Use and Abuse of Language Evidence in the Courtroom, Wiley-Blackwell editore, 1996

Roger W. Shuy, Fighting over Words – Language and Civil Law Cases, Oxford Scholarship Online editore, 2008

Iman Nick, Forensic linguistics : asylum-seekers, refugees and immigrants, Vernon Art and Science editore, 2018

Gerardus Blokdyk, Forensic Linguistics: Standard Requirements, Createspace Independent Publishing Platform editore, 2018

Patrick Juola, Authorship Attribution, Now publishers editore, 2008

Contro la demonizzazione informatico-educativa, ripartiamo dal never obsolete (di Antonello Fabio Caterino)

di Antonello Fabio Caterino (1/3/2021), semestre gennaio-giugno 2021

La DAD (didattica a distanza) è, da un anno a questa parte ormai, uno dei temi maggiormente discussi in ambito educativo e formativo. È stata proprio l’emergenza pandemica a sollevare leciti dibattiti su un argomento che sarebbe dovuto salire agli onori delle cronache ben prima. Ma la ritrosia al digitale (che in precedenza in questa sede mi sono permesso di definire digital shame) è parte integrante di uno snobismo culturale tutto italiano che esalta chi finge di non aver bisogno delle tecnologie per svolgere al meglio il suo lavoro, sebbene sia chiaro come il sole quanto l’apporto informatico possa giovare alle humanae litterae, rafforzandone la precisione in ogni metodologia d’indagine.

Sembra praticamente impossibile, specie sulla stampa di respiro nazionale, parlare di DAD senza tirar fuori le problematiche ad essa connesse. Sia chiaro: è lecito parlare degli svantaggi, anche doveroso quando questi sono eccessivi, ma la demonizzazione dell’elearning tout court manca di rispetto a tutti coloro che si sono adoperati a salvare la didattica in tempi di impossibilità di frequenza fisica.

Partiamo dunque da questo principio: quando frequentare fisicamente le lezioni è impossibile, la DAD risulta indispensabile, e gli svantaggi sono da mettere in preventivo. Meglio tali svantaggi di nuovi picchi di contagio: non ci vuole un esperto in statistica per confermare la logicità di tale assunto.

Ma i disagi vanno risolti, o quanto meno va ridotto il loro impatto sulle categorie deboli. Un articolo di Wired dell’8 febbraio (In Italia la didattica a distanza ha creato problemi a una famiglia su 3, di Gabriele Porro) lancia ancora una volta l’allarme DAD: le famiglie italiane devono affrontare tra – tra gli altri problemi, l’ostacolo del non avere sufficienti dispositivi, di non aver accesso alle ultime tecnologie, di non avere connessioni stabili. Su fa principalmente riferimento allo studio Mascheroni, Giovanna; Saeed, Marium; Valenza, Marco; Cino, Davide; Dreesen, Thomas; Zaffaroni, Lorenzo Giuseppe; Kardefelt Winther, Daniel (2021). Learning at a Distance: Children’s remote learning experiences in Italy during the COVID-19 pandemic, Innocenti Research ReportUNICEF Office of Research – Innocenti, Florence.

Anche in quest’ultimo gli ostacoli di cui sopra non mancano di essere rimarcati.

La domanda a questo punto non può che essere una: ma serve la tecnologia della NASA per far connettere un ragazzo alla DAD? In effetti no. Per gestire videolezioni e videoconferenze è certamente possibile utilizzare dispositivi never obsolete.

Si tratta in buona sostanza di dispositivi considerati dalla comunità di utenti come datati, dunque messi a riposo per sempre. La maggior parte degli utenti, però, ignora che esistono sistemi operativi sviluppati per macchine datate, con risorse hardware ridotte, capaci però di sfruttare al massimo ogni aspetto del device. Si tratta in larga parte di distribuzioni Linux, gratuite e dagli aggiornamenti gratuiti.

Sarebbe il caso di farsi un giro per cantine e seminterrati per capire quanta tecnologia non utilizzata abbiamo a disposizione, da poter usare in prima persona, o magari da poter mettere a disposizione delle categorie deboli. Avere tecnologia abbandonata è uno spreco immane, e ha un impatto ambientale disastroso. Rimettere in carreggiata queste macchine sarebbe un vantaggio enorme sotto molteplici punti di vista. Nessun computer è obsoleto se lo si sa ancora sfruttare.

Invece dunque di continuare soltanto a evidenziare problemi, perché non possiamo cominciare a trovare delle soluzioni? La sensazione che tutto ciò non finirà in pochi mesi è forte, dunque chi ha tempo non aspetti tempo. Ricominciamo da never obsolete, e contribuiamo a far qualcosa di concreto contro il disagio educativo!

Venerdì Public History – Presentazione e manifesto (di Arnaldo Pangia)

semestre luglio-dicembre 2020 (8 settembre)

Venerdì Public History è uno dei tanti progetti nati in pieno lockdown da COVID-19 su iniziativa di Antonello Fabio Caterino, filologo e docente universitario e Arnaldo Pangia, in arte Barbaroffa, mediatore linguistico di formazione e Youtuber/Influencer di principale professione. Lo scopo è quello di rafforzare un occhio critico sul presente contestualizzando gli avvenimenti alla luce della diacronia storica. Ogni settimana si sceglie un tema di attualità, e si coglie qualsiasi occasione per andare indietro nel tempo e spiegarne le origini. Il tutto con un alto livello di sperimentazione mediatica e senza dimenticare mai il fattore intrattenimento e l’ambientazione informale (in altre parole le risate). I singoli episodi vengono trasmessi in diretta ogni venerdì (come da titolo) sul canale Twich di Barbaroffa (https://www.twitch.tv/barbaroffa), e poi viene ricaricata sulla playlist omonima del canale youtube Barbaroffa Live (https://tinyurl.com/yyxg9zpb) e tra i Barbaroffa Podcast su Spotify (https://tinyurl.com/y2ybxjrk). Il progetto è interno al polo di Public History e Public Humanities del Centro di Ricerca “Lo Stilo di Fileta” (https://fileta.hypotheses.org). I punti cardine del progetto sono i seguenti:

Chiacchierata
La chiacchierata tra amici può essere considerato l’atto costituente di VPH.Lo scopo principale della Public History la divulgazione al di fuori degli edifici preposti all’insegnamento. Una traslazione rigida della lingua e dei metodi universitari al di fuori dell’accademia allontana il pubblico. La chiacchierata pone tutti i partecipanti su di una gerarchia piatta che incoraggia all’ascolto e all’interazione.
Transmedialità
Nel corso degli ultimi mesi abbiamo utilizzato il canale YouTube, la pagina Facebook, il canale Twitch e il podcast di Barbaroffa, il mio progetto di divulgazione di comunicazione e linguistica. VPH si fonda sulla transmedialità e sulla convinzione che ogni medium ha la sua efficacia e dignità.
Forma
La forma di VPH può – e deve- variare a livello di registro a seconda dei temi affrontati, senza la premura di evitare taboo ed eventuale turpiloquio. VPH si dissocia da ogni forma di censura.
Coralità
Il dislivello tra oratori ed ascoltatori è dannoso allo scambio intellettuale che avviene in VPH. Per questo motivo l’interazione – via commento durante le live su twitch, o sotto i video ricaricati sul canale YouTube Barbaroffa Live – è incoraggiata e costituisce il vero valore aggiunto di VPH.
Irripetibilità
L’irripetibilità di ogni singolo episodio di VPH è la conseguenza logica dell’interazione dei quattro punti citati precedentemente. La variazione a livello di pubblico, di forma, di medium e di chiacchierata rendono ogni episodio di VPH non ripetibile ed inedito.

Ripartiamo dal crowdsourcing: un vaccino anti COVID-19 per la ricerca umanistica italiana (di Antonello Fabio Caterino)

di Antonello Fabio Caterino (I semestre 2020)

È più complesso definire il crowdsourcing che applicarlo. In poche parole, si fa affidamento a una intelligenza collettiva – rappresentata da una comunità online – per realizzare un progetto a suon di scambio di informazioni. Come normalizzare i processi, i criteri di appartenenza alla comunità, e la standardizzazione delle informazioni è cosa ancora più complessa della definizione in sé.

Possiamo però per una volta, specie in fase emergenziale per la ricerca umanistica italiana, non affidarci troppo ai massimi sistemi teorici, e provare a essere più pratici e funzionali alla causa.

Durante la fase uno del contagio da COVID-19 tutto è stato chiuso, e le biblioteche sono risultate inaccessibili. Questo lockdown è stato indubbiamente provvidenziale per combattere un virus della portata del nuovo Coronavirus, ma ha di fatto rallentato all’inverosimile la ricerca italiana.

Con la fase due, assisteremo a una lenta riapertura, ma sempre con grandi rallentamenti, derivanti dallo scrupoloso e sacrosanto rispetto delle norme igieniche per evitare di tornare allo status quo ante. Ma comunque i viaggi saranno ancora molto limitati, e la possibilità di recarsi proprio laddove sono custoditi i libri di nostro interesse è sempre compromessa.

Cosa fare? Spesso oltre oceano è possibile affidarsi a un servizio chiamato “Ask a Librarian”: si può interagire con un bibliotecario e magari ottenere l’informazione desiderata. Forse non l’intero volume richiesto, ma per lo meno la risposta a una domanda.

Il nostro sistema bibliotecario è retto da gente volenterosa, ma dalla normalizzazione di un servizio simile in Italia siamo davvero lontani.

Cosa si può fare? Di certo si può mettere a disposizione consultativa (sic!) la biblioteca di ognuno di noi, e provare a costruire una rete in cui chi ha necessità di chiedere informazioni può porre domande, e chi ha le risorse per rispondere, risponde. A suon di messaggi privati, e senza violazioni di copyright, ci può essere un libero scambio di informazioni, metadati e dati fuor da copyright ovvero con licenze in open access tale da permettere alla ricerca umanistica di funzionare nella quasi-normalità.

Ed è ciò che è successo – ad esempio – nel gruppo Facebook di Filologia Risorse Informatiche.

Mi chiedo: e se questo principio, finita l’emergenza COVID, e tutte le sue fasi, restasse a facilitare il flusso dei nostri studi? Avremmo non solo limitato i danni di questa atroce pestilenza, ma anche – una volta tanto – imparato qualcosa da una disfatta per poco schivata. Schivata per poco grazie alle intelligenze collettive che nel crowdsourcing, nell’elearning e nello smartworking stanno de facto salvando l’istruzione e la ricerca del Bel Paese.

L’informatica umanistica – che fa del crowdsourcing uno dei suoi concetti chiave – ancora una volta si dimostra utile.

Vademecum digitale d’emergenza per umanisti in tempo di COVID-19 (di Antonello Fabio Caterino)

—comunicazione speciale–

Vi erano tempi – lo ricordo benissimo! – in cui gli umanisti sputavano veleno (a lezione, sui giornali etc.) sui social network, in preda al solito snobismo di classe. La moda della digitalizzazione – anche con la promessa di qualche fondo europeo aggiuntivo – ha presto cambiato le carte in tavola: l’informatica va bene, ma ciò nonostante l’umanista deve stare chiuso (quasi recluso) in biblioteca, a studiare, produrre e scrivere; ignorando ogni condizione economica (non avere uno stipendio fisso), sociale e politica all’esterno.

Oggi che siamo costretti a vivere reclusi in casa per evitare che la pandemia da Coronavirus mieta ancora più vittime, ci appaiono più che mai palesi e perniciosi gli errori del passato. Oggi, in un momento in cui la didattica deve essere svolta con tecnologie elearning (ma molte realtà non sono pronte: non prendiamoci in giro); oggi, in un momento in cui il materiale di ricerca deve essere reperito virtualmente. Forse una seppur minima dose di scuse agli informatici umanisti spetterebbe pure.

Bando agli sproloqui iniziali, questo articolo vorrebbe fungere da vademecum informatico per l’umanista che non vuole interrompere o rallentare le proprie ricerche in tempo di reclusione. Sarà diviso in punti, opportunamente titolati.

Il fattore network

Molti umanisti si sono offerti – nei gruppi Facebook dedicati alle humanae litterae – di mettere a disposizione le proprie risorse bibliografiche, reali o digitali. Questa solidarietà digitale spontanea è davvero qualcosa di magnifico, che speriamo non termini dopo la risoluzione di questi funesti problemi di contagio.

Chi ha necessità di richiedere un’opera, può dunque sfruttare il social di Zuckerberg e cercare gruppi tematici per fare opportune richieste. Noi umanisti non siamo abituati a lavorare in team: chissà che questo stato di necessità non cambi qualcosa per davvero.

Il fattore copyright

Spesso le opere ricercate da noi umanisti appartengono ad anni di edizione per cui il copyright è scaduto. Ogni paese ha le sue regole, dunque è complesso istaurare un discorso univoco e sintetico. Se l’opera non è immediatamente presente sulla rete, ricercare citazioni tratte dai testi in questione, se disponibili, su Google, tra virgolette alte (es. “citazione”), può ridurre i tempi di ricerca: se l’opera è presente su Internet Archive o Google Books, apparirà subito; altrimenti, occorrono ricerche più specifiche e articolate.

Il fattore green open access

Purtroppo non tutto è disponibile a scaffale digitale aperto, come ben sappiamo. Ci sono riviste o collane in Open Access dalla libera consultazione, ma per l’id quod plerumque accidit non è così. Epperò ci sono repository come Academia.edu, in cui i singoli ricercatori caricano i loro lavori più recenti, al di là della natura della sede scientifica su cui hanno scritto. A ciò si aggiungono i vari archivi universitari. Perciò, in conclusione, non bisogna partire dal presupposto di non trovare qualcosa in rete: c’è sempre la possibilità che sia stata inserita su Academia, ovvero su un repository universitario.

Il fattore proxy

Spesso il personale universitario ignora che se l’università è abbonata a determinati servizi, attraverso i proxy è possibile utilizzare un pc domestico con gli stessi privilegi di un pc interno a una biblioteca universitaria. Bisogna informarsi del servizio sulle pagine dell’università di afferenza.

Il fattore “solidarietà editoriale”

Funzionava prima, dovrebbe funzionare più che mai adesso: rivolgersi direttamente all’autore dell’opera, per chiederla in pdf, o all’editore, è sempre un’ottima idea di partenza.

Augurandoci che quest’emergenza passi al più presto, cerchiamo quanto meno di non rallentare la ricerca umanistica, già oltremodo vessata da morbi molto più astratti di COVID-19, ma non per questo meno pericolosi.

Difendere (o difendersi dal) il diritto d’autore? (di Alessandra Di Meglio)

semestre luglio-dicembre 2019 (21 settembre)

L’artificiale (o naturale?) evoluzione da homo sapiens a homo digitalis ha determinato mutamenti atti a favorire l’uso dei mezzi informatici in luogo di quelli tradizionali (la cui efficienza – si badi bene – non si intende mettere in dubbio). Problema che interessa chiunque si avvicini alla ricerca o alla produzione creativa, o chiunque promuova e investa – e soprattutto vesta i panni di mecenate dell’opera d’arte -, è tutelare il diritto d’autore, anche noto come copyright.

La rete del World Wide Web, la cui estensione è tale da non consentire più di riconoscerne i confini, ha concesso una diffusione di informazioni (articoli, video, musica) tanto grande da impedire uno scrupoloso controllo dei suoi contenuti e delle ‘citazioni’ d’autore, tutelate da un diritto riconosciutogli già nel XVI secolo ed evolutosi a seconda dei mutamenti storici e culturali.

Ecco che il digitale è espressione di un mutamento storico e culturale di notevole portata, per cui il diritto d’autore necessita oggi di una rettifica che tenga conto delle attuali esigenze.

Se finora è stato possibile condividere su qualsiasi piattaforma qualsivoglia contenuto senza veti, questa stessa libertà è oggi proibita: con 438 voti favorevoli, 226 contrari (tra cui l’Italia) e 39 astenuti, il Parlamento europeo ha approvato a fine marzo 2019 la riforma sul Copyright con l’obiettivo precipuo di stabilire una normativa comune che tuteli i diritti d’autore e risponda alle richieste degli editori, che accusano le grandi piattaforme (Google, Facebook, etc.) di servirsi dei loro articoli a scopo di lucro senza offrire un compenso adeguato.

«Con l’accordo di oggi» ha affermato Jean Claude Juncker, Presidente della Commissione europea, «rendiamo le regole del copyright adatte all’era digitale. L’Europa avrà ora regole chiare che garantiscono equa remunerazione ai creatori, diritti per gli utenti e responsabilità per le piattaforme», completando il mercato unico digitale.

Certo è che la riforma ha rivoluzionato il mercato e la ricezione delle informazioni, ma – è giusto chiarire – non ha creato nuovi diritti per gli autori (giornalisti e creativi), ha piuttosto garantito una migliore applicazione di quelli vigenti.

Degli articoli enunciati dalla riforma quelli che più di altri hanno fatto discutere sono l’11 (ora divenuto 15) e il 13 (ora 17). Il primo, noto anche come link tax, prevede che le grandi piattaforme diano un’equa remunerazione agli editori e agli autori le cui opere sono condivise, diversamente dagli snippet che non sono protetti da copyright e si possono condividere liberamente. L’art. 13, noto anche come censorship machine, impone alle piattaforme di controllare scrupolosamente i propri contenuti (come fa Content ID di Youtube) affinché non violino il diritto d’autore. Le piccole piattaforme sono esentate dagli accordi, mentre le medie hanno obblighi minori. Wikipedia, Open Source e Meme sono, invece, esclusi dal rispetto del copyright non avendo alcun fine commerciale.

Ciò vuol dire che: come è già accaduto in Spagna, se Google e gli altri Colossi decidono di non negoziare e pagare, ci sarà minore diffusione delle informazioni e minori introiti per quegli editori che tanto si sono battuti per la tutela del copyright a scopo apertamente economico; a ciò si aggiunge un maggiore controllo dei contenuti, che implica una sicura manipolazione degli stessi. Ci sarà, infatti, chi deciderà se un contenuto può o non può essere pubblicato, introducendoci in una dimensione orwelliana allarmante. A questo si aggiunge anche la limitazione alla libertà di panorama, che vieta di fare foto ai monumenti, ai palazzi e/o ai paesaggi.

Addio Torre di Pisa.

Se da una parte la riforma del copyright si pone il nobile obiettivo di tutelare quanti contribuiscono all’arricchimento culturale e informativo mediante il loro contributo artistico (che sia letterario, musicale o monumentale), nonché di uniformare le normative regolate dai singoli Stati in nome di un’unità europea ricercata (forse forzata); dall’altra rischia di limitare la diffusione delle informazioni; di innescare un capitalismo editoriale che si sostituisca a quello dei Colossi (tutto cambia per non cambiare); di vigilare – e manipolare – la scelta delle informazioni, col rischio di depauperare, piuttosto che di arricchire, la diffusione della cultura. Per questi motivi, la Direttiva europea ha spaccato l’opinione pubblica e quella parlamentare e – cosa evidente – poggiandosi sulla contrapposizione tra «il diritto del consumatore e del cittadino contro quello degli artisti e dei produttori di contenuti. I nuovi media digitali contro i media tradizionali. Gli interessi economici dell’Europa contro quelli degli USA. L’establishment (ovvero ‘la casta’) e i suoi privilegi contro i nuovi populismi digitali. La democrazia della comunicazione e la democrazia politica» (Cfr. Oliviero Ponte Di Pino, La legge europea sul Copyright, in Doppiozero, 28 marzo 2019).

Ciononostante, prim’ancora che la riforma sul diritto d’autore fosse discussa in Parlamento, alcune piattaforme, quali Apple (iTunes e iBooks), Amazon (Kindle), Netflix e Spotify hanno trovato soluzioni palliative al problema della gratuità della rete, nonché alla fruizione dei suoi contenuti, ponendo (e imponendo) agli utenti un abbonamento; analogamente i paywall, che consentono di accedere ai contenuti internet – e soprattutto giornalistici – soltanto a pagamento dopo che si siano effettuate un tot di visualizzazioni.

Ciò vuol dire che, come è norma che accada, in risposta a un naturale istinto di adattamento abile a trovare soluzioni comode a problemi scomodi, le piattaforme avevano già creato forme alternative di tutela dei diritti (Creative Commons, Copyleft) che sopperissero al problema – già percepito, ma solo ora discusso – della gratuità dei contenuti digitali.

Quanto ai ricercatori e agli studiosi (di qualsiasi disciplina liberale), se la tutela del diritto d’autore consente loro un giusto e – finalmente – dovuto riconoscimento dell’atto creativo – che non sia solo buona reputazione, ma anche profitto economico -, dall’altra offre una punitiva limitazione alla consultazione dei contenuti scientifici. Questo non perché sia impedito agli utenti di condividerli o usarli, ma perché la selezione dei contenuti digitali, in rispetto all’art. 13 (ora 17), sottintende una preliminare selezione che può fortemente limitarne la circolazione, censurando megadati utili. È invece indubbiamente comodo per lo studioso sapere di poter disporre di una numerosa quantità di dati che sta a lui saper consultare e selezionare.

Si aggiunga poi che: la retribuzione dei diritti d’autore andrà a beneficio di chi, se non degli editori affermati e degli autori oltremodo citati? Chi avrà l’onere di valutare il prestigio di un’opera, nonché la sua autorità economica? E secondo quali criteri: qualitativi – stabiliti da chi? – o quantitativi?

Se non ci saranno, poi, le auspicate negoziazioni tra Editoria e Colossi digitali, si potrà parlare ancora di promozione democratica dell’informazione o – com’è verosimile che sia – si approderà a un’aristocrazia culturale?

Occorre, quindi, davvero difendere il copyright o, al contrario, difendersi dalla tutela del copyright?

CAPERAM – Catalogo permanente degli artisti molisani (di Antonello Fabio Caterino e Roberto Cupido)

semestre gennaio-giugno 2019 (11 giugno)

INTRODUZIONE

CAPERAM – acronimo per CAtalogo PERmanente Artisti Molisani, www.caperam.it, ISBN 9788832173017, DOI 10.5281/zenodo.3236365 – è un progetto di public/digital humanities, interno all’associazione culturale “Lo Stilo di Fileta” (https://fileta.hypotheses.org), finalizzato a una mappatura dell’arte e degli artisti della regione Molise. Il catalogo sarà realizzato su di una piattaforma digitale direttamente connessa con la home dell’associazione, a sua volta ospitata da Hypotheses.org (supportato da CNRS, Université d’Aix-Marseille, EHESS, Université d’Avignon), e potrà avvalersi della rete accademico-editoriale in cui si muove “Lo stilo di Fileta”.

L’artista – aderendo all’associazione – potrà avere a disposizione uno spazio critico-descrittivo all’interno del portale, in cui sarà caricata una galleria fotografica in alta risoluzione, contenente un primo florilegio delle proprie opere. Sarà cura del singolo artista provvedere a una presentazione biografica, seguita da una sorta di breve manifesto della rispettiva filosofia artistica. L’associazione avrà cura di contattare critici ed esperti d’arte affinché a tutto ciò possano essere aggiunte expertise autorevoli.

CAPERAM è un progetto ideato e sviluppato da Antonello Fabio Caterino, a sua volta presidente ad interim – per i prossimi cinque anni – de “Lo Stilo di Fileta” ed annesso marchio editoriale (vedi statuto allegato), e Roberto Cupido. Gli stessi Caterino e Cupido andranno a costituire il project team dell’intero apparato. La responsabilità legale resta sempre della sullodata associazione culturale, al quale indirizzo postale CAPERAM risulterà domiciliata.

LO STILO DI FILETA

“Lo Stilo di Fileta” è un’associazione culturale no-profit che ha per leitmotiv la promozione della ricerca umanistica e delle arti. Ad essa è direttamente connesso il marchio editoriale “Al Segno di Fileta” (prefisso ISBN 987-88-32137, url: https://www.alsegnodifileta.com). CAPERAM si potrà avvalere, dunque, di un editore giovane, snello, dall’alto profilo scientifico, particolarmente esperto nella produzione culturale in ambito accademico e umanistico (vedi vademecum allegato). Si prevede – accanto al catalogo online – una serie di volumetti cartacei (in una collana creata ad hoc, con solidissimo comitato scientifico), che possano man mano approfondire gli aspetti più salienti messi in risalto dallo stesso CAPERAM.

Attualmente il direttivo dell’associazione sta prendendo contatti coi vari enti per l’ottenimento di collaborazioni e patrocini. Non appena CAPERAM sarà avviato e portato a uno sviluppo sufficiente, si provvederà a richiedere fondi e sovvenzioni, a seconda dei bandi a disposizione (vedi infra).

VALORI

In una società così complessa, il valore della trasparenza ha una funzione importante: CAPERAM sarà portatore di tale valore grazie alla filosofia decentralizzata del progetto, secondo la quale tutti i suoi attori ricopriranno ruoli d’informazione, pianificazione secondaria, proposizione, operatività, divulgazione. La centralizzazione avrà riscontro esclusivamente nella fase decisionale, non nella fase propositiva.

Il giusto vive nel concetto di eterogeneità, che è a sua volta un valore imprescindibile per un contesto ampio sia culturalmente, sia territorialmente. Fare ciò che è giusto e vantaggioso per tutti gli interessati. CAPERAM sarà promotore di migliori rapporti sociali tra persone e gruppi di persone sotto qualsivoglia forma associativa. Altresì di meritocrazia, vigilando sui processi valutativi del comitato scientifico interno.

Offrire pari opportunità a chi deciderà di mettere a disposizione il proprio talento, usufruendo di mezzi, strumenti e canali nuovi ed efficaci per la promozione artistica del Molise nel mondo.

Infine crescita collettiva, avvalendosi della potenza del network, inteso come rete di conoscenze.

MISSION

La costruzione del catalogo ha lo scopo principale di promuovere su base territoriale, nazionale e internazionale l’arte molisana, attraverso la costante interazione con istituzioni culturali, accademiche e artistiche nel senso più ampio del termine. In sintesi, di agire proattivamente e aumentare notevolmente la performance degli artisti, collegare potenzialità e passione, ridurre le interferenze dell’ambiente, creare canali e sistemi di divulgazione e valorizzazione del nostro patrimonio artistico.

Successivamente si penserà a CAPERAM secondo un’ottica più ampia, ovvero quale piattaforma/fulcro di una moltitudine di iniziative: eventi, rassegne, riviste, interviste, progetti scolastici e tutto ciò che potrà contribuire alla crescita culturale del territorio molisano e delle persone ad esso legate. Il team di sviluppo avrà interesse ad accrescere l’incidenza dell’aspetto digitale, in quanto uno dei fattori interdisciplinari che possono garantire la qualità superiore del progetto. Non a caso A.F. Caterino, membro del team, è impegnato da alcuni anni nella ricerca di una delle materie del futuro: l’informatica umanistica.

La società odierna si confronta ogni giorno con realtà nuove e inedite, che mutano molto velocemente, ma che devono subire le corrette trasformazioni. CAPERAM ha l’obiettivo di rendere tali trasformazioni idonee alla piena e alla corretta valorizzazione del patrimonio artistico/culturale del Molise.

PARTNERSHIP

Perché CAPERAM ha bisogno di partner solidi?

Ogni progetto culturale ha necessità di affrontare e vincere sfide che richiedono competenze specifiche ed innovative. A tal proposito il meccanismo di squadra (composta ideologicamente da nuove leve e fondamenta solide) è fondamentale per individuare e saper affrontare le sfide che sono di seguito indicate: gestire la velocità, abbattere o girare intorno ad ostacoli, prendere parte al cambiamento, criticare e mettere in discussione, includere le resistenze e trasformarle in resilienze, controllare il linguaggio per essere comprensibili, aggiornare vision e mission traducendoli in valori (es. trasparenza) autentici ma semplici, saper trasmettere tali valori alle nuove generazioni, imparare dagli errori per ambire alla qualità totale.

BANDI E FINANZIAMENTI

Chiaramente un progetto come CAPERAM risulta essere a lungo termine molto ambizioso, dunque si fa necessario che si avvalga di fondi e sovvenzioni. L’associazione culturale “Lo Stilo di Fileta” si impegna a un’opera scrupolosa di monitoraggio di tutti i bandi più appetibili per finanziare il progetto. Si terranno sotto controllo canali nazionali (con hosting istituzionale anche presso dipartimenti universitari) ma soprattutto europei (ERC), nonché finanziamenti mirati chiesti direttamente ai futuri partner. “Lo Stilo di Fileta” è un’associazione senza scopo di lucro: donazioni e campagne di autofinanziamento saranno sempre supportate. Sarà preso in conto – in aggiunta – anche il crowdfunding.

Note sparse e riflessioni a partire dalla voce “Informatica umanistica” di Wikipedia Italia (di Antonello Fabio Caterino)

semestre gennaio/giugno 2019 (9 giugno)

Il lettore che desideroso di informarsi sull’informatica umanistica nel modo più generale possibile, decidendo di rivolgersi alla sempreverde Wikipedia, si troverà davanti a una voce di dimensioni piuttosto ridotte, ripartita in soli tre campi, e con una bibliografia davvero limitata. Mi sto riferendo alla voce “Informatica umanistica” consultata oggi, 9 giugno 2019:

L’informatica umanistica, in inglese Humanities Computing o Digital Humanities, è un campo di studi, ricerca, insegnamento che nasce dall’unione di discipline umanistiche e informatiche. Comprende ricerca, analisi e divulgazione della conoscenza attraverso il computer e altri tipi di elaboratori. Oltre ad avere una solida formazione umanistica, chi studia informatica umanistica sa trattare contenuti culturali con gli strumenti informatici appropriati.

Dato il carattere di interdisciplinarità dell’informatica umanistica, fra gli esperti del settore sono compresi ricercatori e docenti delle discipline umanistiche (storia, filosofia, letteratura, arte, geografia) e di linguistica computazionale, specialisti e studiosi di editoria elettronica, produzione multimediale, grafica e analisi di dati.

Obiettivi [modifica | modifica wikitesto]

L’obiettivo di molti ricercatori nell’informatica umanistica è quello di integrare la tecnologia nelle proprie attività didattiche e di ricerca.

Molti ricercatori concordano con gli argomenti di Roberto Busa: il primo effetto dell’informatica non sarebbe quello di velocizzare la ricerca nel settore umanistico, ma quello di fornire nuovi approcci e nuovi paradigmi per affrontare gli storici problemi negli studi umanistici. Un altro effetto è aiutare la ricerca sintattica e sintagmatica della lingua italiana in aiuto ad aziende attente all’uso della lingua italiana.

Collegamenti esterni [modifica | modifica wikitesto]

R. Mordenti, Lo status accademico dell’informatica umanistica, Archeologia e calcolatori, 14 (2003), pp. 7-32.
A. Celentano, A. Cortesi, P. Mastandrea, Informatica Umanistica: una disciplina di confine, Mondo Digitale, vol. 4 (2004), pp. 44-55. Copia dell’Internet Archive
M. Lazzari, A. Betella, A. Bianchi, M. Cadei, C. Chesi, M. De Santo, S. Maffei, R. Peretta, Informatica umanistica, McGraw-Hill, 2014, pp. 334.
A.F. Caterino, La letteratura in rete e gli strumenti digitali, La rassegna della letteratura italiana, n.1-2 (2016), pp. 111-123.
M. Navone, G. Rodda, Editoria accademica e rivoluzione digitale: il caso dell’italianistica, La Rassegna della Letteratura Italiana, n. 1-2 (2016), pp. 124-144.

Qualcosa colpisce l’attenzione fin da subito, però. Si tratta di un paio di avvisi perentori, posti subito dopo il sito:

La neutralità di questa voce o sezione sull’argomento informatica è stata messa in dubbio. Motivo: propaganda, nessuna nota Per contribuire, correggi i toni enfatici o di parte e partecipa alla discussione. Non rimuovere questo avviso finché la disputa non è risolta. Segui i suggerimenti del progetto di riferimento.

Questa voce o sezione sull’argomento informatica non è ancora formattata secondo gli standard. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.

Si evince che la voce non rispetta gli standard wikipediani, ma cosa ancor più importante, che è soggetta a continue modifiche “di parte” e segnalazioni. Approfondiamo – Wikipedia ce lo consente! – l’iter di modifica della voce.

Si consideri il seguente prospetto:

number of edits 110

number of minor edits 33 (30.0%)

first edit 2007-07-14 14:54

most recent edit 2019-04-30 23:39

mean time between edits 39.2 d

average number of edits per year 9.3

average number of edits per month 0.8

unique editors 69 (32 IP addresses)

average number of edits per user 1.6

number of edits within previous day 0

number of edits within previous week 0

number of edits within previous month 0

number of edits within previous year 7

L’ultima modifica risulta effettuata un mese fa, come si evince all’interno della stessa voce. Da 2007 al mese scorso le modifiche sono state ben 110. Consideriamo che la voce “Giovanni Boccaccio” di modifiche dalla creazione ne ha avute 2298, con una percentuale di modifiche minori del 23,7%. La riflessione deve dunque essere ricalibrata.

Andando a curiosare all’interno delle giustificazioni delle modifiche, appare evidente il problema: la maggior parte delle modifiche sono tacciate di autopromozione. Buona parte delle più recenti modifiche prevedono, inoltre, aggiornamenti e rimozioni di bibliografia.

Rispettivamente il 12 agosto 2014, il 31 gennaio 2016, 12 maggio 2019 ci sono state severe riduzioni alla voce: nel passare del tempo sono stati eliminati i riferimenti ai corsi universitari, eliminate le menzioni alle riviste dedicate. Sì, insomma, un’operazione che ha man mano evitato che la voce divenisse sempre più una vetrina promozionale, ma che d’altra parte ne ha ridotto drasticamente dimensioni e principalmente funzionalità.

Che lo statuto dell’informatica umanistica in Italia sia ancora dibattuto è un dato di fatto. Che le però ci sia una serie di interessantissimi prodotti della ricerca è altrettanto vero. E alla luce di tutto ciò, come è possibile che la voce di Wikipedia dedicata alla disciplina sia così scarna, e presenti una bibliografia assolutamente non soddisfacente (e parlo contro il mio stesso interesse, poiché vi si cita un mio articolo)?

I dettrattori aprioristici delle digital humanities nel bel paese sono ancora troppi, lo sappiamo. Già questo dovrebbe bastare come problema: aggiungiamo anche dispute localistiche, peraltro ben visibili in una piattaforma popolare come Wikipedia?

Riflettiamoci su.

Piccolo vademecum sull’uso di Brepolis: le DH nella ricerca latina (di Alessandra di Meglio)

semestre gennaio-giugno 2019 (26 gennaio)

Nato nel 1991 con l’intento di produrre un database contenente l’intera letteratura cristiana latina, Brepolis è un portale di ricerca online con un triplice scopo: sfruttare le migliori tecnologie attualmente in uso; offrire agli studiosi di scienze umanistiche l’accesso a una vasta quantità di testi; fungere da ponte tra le biblioteche digitali e i database, per migliorare la ricerca e offrirle nuovi spunti e prospettive.

Brepolis contiene oggi tutti i progetti Brepols Publishers (e dei suoi partner) consentendo agli iscritti l’accesso all’Année philologique online, al Latin Library Texts – Series A (LLT-A) e al Latin Library Texts – Series B (LLT-B), nonché ad altri progetti affiliati. L’LLT-A, precedentemente conosciuto come CLCLT – Cetedoc Library of Christian Latin Texts, fondato dall’Univeristé Catholique de Louvain, contiene oggi testi dalle origini della letteratura latina (Livio Andronico, 240 a.C.) fino alle soglie dell’epoca moderna, rappresentando il più ampio database mai offerto agli studiosi. In continuità con l’LLT-A, il Latin Library Texts – B, contiene in formato elettronico testi di cronache, agiografie, racconti di viaggio, testi giuridici, trattati filosofici e scientifici, etc., di vario genere e periodo. Esso si configura come completamento dell’LLT-A, di cui estende i limiti cronologici originariamente impostati e ne potenzia notevolmente l’utilità.

La bipartizione in LLT-A e LLT-B si è avuta a partire dal 2009, a seguito della sostituzione del CLCLT con l’LLT-A, che contiene oggi oltre 63 milioni di parole latine, tratte da più di 3.200 opere attribuite a circa 950 autori, mentre l’LLT-B cresce piuttosto rapidamente e contiene più di 300 testi.

Entrambe le librerie digitali sono patrocinate dal Centre Traditio Litterarum Occidentalium di Turnhout (CTLO) e sottoposte alla direzione di Paul Tombeur.

I testi introdotti nel database sono selezionati tra le migliori edizioni disponibili – ad esempio la Bibliotheca scriptorum Romanorum Teubneriana – e, ove possibile, fissati secondo la migliore pratica accademica contemporanea. Si è tentato infatti di intervenire, quando necessario, sull’autenticità dell’attribuzione all’autore o sulla datazione e di correggere gli errori tipografici rilevati.

Brepolis non è open access, ma gli utenti degli enti convenzionati possono accedere gratuitamente dalla rete di Ateneo o da connessione remota e/o esterna alla LAN dopo aver eseguito la modifica dei dati proxy, secondo le indicazioni dell’Università di appartenenza, nonché l’inserimento dei propri dati personali (mail istituzionale e password).

Dopo aver cliccato su Enter Database si accede a una schermata contenente alcune icone – non tutte consultabili –, tra cui quella dell’LLT-A, dell’LLT-B e dell’Anné Philologique.

Ci occupiamo di seguito dell’LLT-A.

Effettuato l’accesso all’LLT-A, occorre anzitutto scegliere la lingua tra le quattro proposte dall’interfaccia del portale: inglese, francese, tedesco e italiano. Seguono poi quattro modalità di accesso ai testi:

Ricerca rapida;
Schermo di ricerca;
Indice dei testi;
Ripartizione delle forme.

ciascuna dotata di una propria particolarità e finalizzata all’ottenimento di uno specifico risultato.

Punto 1.

La Ricerca rapida consente di ricercare velocemente il lemma o il testo oggetto di interesse inserendo Autore, Opera e Testo. Ad esempio:

Autore: Cicero; Opera: De divinatione; Testo: divinatio

La ricerca così impostata rileva tutte le occorrenze del termine divinatio nel De divinatione di Cicerone, mentre le restanti forme declinate è possibile ricavarle barrando l’opzione ‘ricerca per somiglianza’ che consente al programma di ritrovare nell’opera tutti i termini affini a quello inserito:

Se la ricerca mira invece a individuare le occorrenze del lemma nell’intero corpus dell’autore, basta inserire Autore e Testo e selezionare l’opzione ‘ricerca per somiglianza’. In questo modo il programma trova le occorrenze del termine divinatio (et alia) all’interno di tutte le opere ciceroniane; ne indica il numero totale (118), il totale delle opere in cui il lemma compare (13) e specifica il numero di attestazioni rinvenute per ogni singola opera.

Cliccando poi su una delle opere elencate è possibile consultare direttamente i passi in cui il termine è attestato.

Punto 2.

Lo Schermo di ricerca dispone di una maggiore e più dettagliata quantità di filtri: Epoca, Autore, Titolo, Secolo, Clavis (ossia il numero con cui viene identificata un’opera nella terza edizione del Corpus patrum Latinorum (CPL) di E. Dekker).

L’epoca comprende otto livelli cronologici capaci di coprire un arco temporale molto ampio, che va dall’Antichità, 200 ca a. C., alla produzione latina contemporanea fino al 1965. Ai cinque filtri iniziali:

Antiquitas (< ca. 200), contenente le opere dell’antichità classica dalle origini alla fine del secondo secolo;
Aetas Patrum I (ca. 200-500) che comprende opere dalla tarda antichità fino al 500;
Aetas Patrum II (501-735), per opere composte tra il 501 e la morte del Venerabile Beta;
Medii aevi scriptores (736-1500), riferito alla tradizione latina medioevale datata tra il 736 e il 1500;
Recentior latinitas (1501-1965), contenente opere composte tra il 1501 e il 1965;

a questi cinque filtri iniziali sono state aggiunte negli anni tre suddivisioni tematiche riguardanti traduzioni dal greco appartenenti a vari periodi:

Conciclia oecumenica et generalia Ecclesiae catholicae (plerumque saec. 6-8), che comprende le traduzioni latine di testi parabiblici;
Biblia sacra iuxta Vulgatam (ca. saec. 4-5), contenente le traduzioni latine dei testi biblici o Vulgata;
Corpus Pseudepigraphorum latinorum Veteris Testamenti (ca. saec. 4-7), che comprende le traduzioni latine dei decreti emanati dai concili ecumenici dell’età patristica, che possono, interamente o in parte, appartenere a secoli diversi.

Una volta inserita l’epoca, occorre selezionare l’autore e il titolo dell’opera (qualora si voglia condurre una ricerca specifica, altrimenti è possibile omettere la segnalazione dell’opera per consentire una ricerca sull’intero corpus letterario dell’autore scelto).

La ricerca del lemma o dei lemmi può avvenire mediante operatori e caratteri jolly:

?: sostituisce 1 carattere, ad esempio: ?olumen

*: sostituisce 0 o più caratteri: voluptat*
+: corrisponde all’operatore ‘AND’: divinatio + fatum
,: corrisponde all’operatore ‘OR’: divinatio, fatum
#: corrisponde all’operatore ‘NOT’: divinatio #fatum

Molto interessante è l’opzione /n: questa stabilisce che “/” è seguito dal numero massimo di parole entro cui si desidera rintracciare un’occorrenza specifica. Ad esempio: /4 divinatio* + fat* rintraccia tutte le parole che iniziano per divinatio e tutte quelle che iniziano per fat-, quando si trovino in prossimità l’una dell’altra e separate al massimo da quattro parole, come nei seguenti esempi:

Cliccando poi su una delle sententiae, è possibile consultare l’intero brano da cui essa è tratta, altresì esportarla mediante l’icona posta in altro a destra che la converte in PDF.

A partire da Schermo di ricerca, altra norma è inserire il termine, o i termini scelti – ad esempio ancora divinatio* – e cliccare, poi, su Risultati/epoca. In questo modo il programma rintraccia il termine selezionato in tutti gli autori e nelle rispettive opere secondo una scansione cronologica; è poi possibile passare da un’epoca all’altra mediante il menu in alto, che scandisce gli otto livelli cronologici precedentemente indicati:

Ogni sententia è associata a un menu, posto a destra, che include: indice dei testi (di cui dopo); memento, che fornisce brevi e schematiche informazioni sull’autore e sull’opera; testo integrale, che restituisce il passo nella sua interezza; esporta in PDF, che consente di trasformare il passo in un documento PDF, nonché di scaricarlo; Anneé philologique, che rinvia alla pagina ufficiale dell’Anneé contenente titoli pertinenti all’autore e all’opera oggetto di ricerca per eventuali e ulteriori indagini.

A sinistra delle sententiae, l’opzione ‘posiziona su’ consente di trascrivere il numero della citazione che si vuole consultare, nonché di cliccare su Autore o su Titolo per poter scorrere più velocemente l’elenco delle occorrenze di autore in autore, di opera in opera, a seconda della preferenza dell’utente. In buona sostanza: se il termine scelto registra – ad esempio – 166 occorrenze e si intende consultare l’occorrenza numero 130, è possibile inserire questo numero in ‘posiziona su’ per raggiungere direttamente la posizione scelta. Se si intende procedere di autore in autore occorre cliccare sulle frecce poste accanto ad Autore. Discorso analogo per Titolo.

Le citazioni di maggiore interesse possono essere selezionate ed esportate in PDF, mediante l’opzione in basso a sinistra Esporta PDF, o inviate via mail.

Punto 3.

L’Indice dei Testi fornisce all’utente la successione in ordine alfabetico di tutti gli autori latini contenuti nel database. Cliccando, ad esempio, sulla C di Cicerone, è possibile selezionare l’autore: Cicero (Marcus Tullius Cicero), nonché l’opera desiderata, ad esempio il De fato, quindi accedere all’opera e consultarla nella sua interezza o nella specificità del singolo paragrafo.

Punto 4.

La Ripartizione delle forme è utile per individuare le concordanze nei testi. Basta cliccare su Epoca, selezionarne una e segnare l’Autore e il Titolo dell’opera che si preferisce (coerenti con il periodo storico scelto), oppure inserire direttamente il lemma nella sezione Forma, ad esempio fatum, e scoprire tutte le occorrenze del termine negli autori del periodo selezionato. Ad esempio, le 230 occorrenze di fatum si riscontrano in: Apuleius, Caesar, Cicero, Cirtius Rufus, Florus, etc. accanto ai quali è indicato il numero esatto di attestazioni. Per esaminare i loci in cui il lemma compare basta cliccare sull’autore e poi sull’opera che si intende consultare; compariranno in basso tutte le concordanze, che è possibile estendere – e contestualizzare – cliccando sull’opzione Maggiori Info.

Sitografia:

Brepolis, http://www.brepolis.net/

Library of Latin Texts, http://www.brepolis.net/pdf/Brepolis_LLT_EN.pdf

Library of Latin Texts – Series A, https://about.brepolis.net/library-of-latin-texts/

Library of Latin Texts – Series A. Database for the western latin tradition. User’s Guide 2018, http://clt.brepolis.net/llta/manuals/manual_en.pdf

number of edits	110
number of minor edits	33 (30.0%)
first edit	2007-07-14 14:54
most recent edit	2019-04-30 23:39
mean time between edits	39.2 d
average number of edits per year	9.3
average number of edits per month	0.8
unique editors	69 (32 IP addresses)
average number of edits per user	1.6
number of edits within previous day	0
number of edits within previous week	0
number of edits within previous month	0
number of edits within previous year	7