Gli articoli di Fabrizio Peronaci de "Il Corriere" sull'utilizzo dell'intelligenza artificiale nel caso Orlandi hanno dato - giustamente - un forte impulso tecnologico alla vicenda, visto che ormai dobbiamo considerare, con le giuste cautele, la potenza e la capacità di calcolo di questo strumento. Nel quadro complessivo sono una sorta di "manna dal cielo" poiché depennano, con razionale logica, quelle piste ritenute fuori da ogni contesto.
Così è per la pista inglese, poco affidabile e priva di riscontri.
Lo stesso vale per la pista parentale, una visione inutile e senza prove.
L'intelligenza artificiale si concentra più che altro sui ruoli dei personaggi e su quanto questi avrebbero potuto essere parte della vicenda. Analizza, con razionale freddezza, gli attori veri separandoli dalle comparse di poca rilevanza.
Ancora una volta si deve all'ing. Marco Arcuri l'intuizione di creare un modello specifico per il cold case più famoso d'Italia, lo stesso ricercatore che unisce (come già l'avv. Egidio aveva intuito nel 1985) i telefonisti sotto una sola voce: quella di Marco Accetti.
Abbiamo chiesto a Marco Arcuri come è stato creato il modello AI sul caso Orlandi.
Marco Arcuri: "la prima fase è stata la preparazione dell’archivio dati, che ritengo sia il passaggio più importante visto che è la base dell’intero sistema.
Per fare questo ho raccolto moltissimo materiale presente negli articoli, verbali, trascrizioni, interviste, lettere, sentenze, interrogatori, ecc...
Dalla raccolta di file si passa alla normalizzazione, in un formato testuale leggibile: nel mio caso ho usato il json. In questo modo, per ogni documento il sistema ha creato una scheda precisa.
Dopo questo passaggio si passa alla creazione del modello vero e proprio su computer dotati di grandi risorse CPU e GPU. In questo processo serve moltissimo avere competenze di machine learning e di Python.
Lo scopo era quello di avere un modello completamente autonomo, senza dipendere da modelli già esistenti e poco configurabili come OpenAI, Google, ecc.
I testi vengono spezzati in blocchi di 500–1000 parole.
Ogni blocco viene trasformato in un "embedding", cioè una rappresentazione numerica del significato del testo ed infine gli embedding vengono salvati in un database vettoriale di tipo FAISS.
In questo modo, ad ogni domanda, il sistema la traduce in embedding e cerca i blocchi più vicini semanticamente nell'intero archivio di documenti: poi li passa al modello H5 come “contesto” per rispondere.
Nel primo addestramento il modello risponde solo in base a ciò che ha trovato nei propri archivi e riesce a trovare i riferimenti precisi di cui ho parlato prima.
Alla fine inizia il fine-tunig, collegando un modello LLM (io ho usato LLaMA) per rispondere alle domande interrogando l'archivio, senza bisogno di addestramento tradizionale.
Un modello di linguaggio (LLM) come GPT o LLaMA non ragiona in modo umano, ma genera testo predicendo la parola successiva in base al contesto. Il ragionamento emerge da tre elementi chiave:
- Embedding semantico della query: la domanda viene convertita in un vettore numerico che rappresenta il suo significato latente in uno spazio multidimensionale.
- Similarity search (top-k retrieval): il sistema confronta l'embedding della query con quelli dei documenti (anch'essi trasformati in vettori durante la fase di indicizzazione) e seleziona i più simili semanticamente, simulando una forma di "memoria associativa".
- Contextual generation: i paragrafi trovati vengono forniti al modello come contesto insieme alla domanda, e il modello, usando i suoi trasformatori (self-attention), valuta le relazioni interne tra parole e concetti nel contesto + domanda.
- Genera la risposta ottimale calcolando distribuzioni di probabilità su tutte le possibili parole successive, scegliendo la sequenza più coerente dato il contesto.
Il "ragionamento" è quindi un effetto emergente dell'allineamento statistico tra input semantici (documenti rilevanti) e conoscenza appresa durante il training (strutture linguistiche, logica, coerenza), orchestrato attraverso i pesi delle reti neurali nei transformer."
Ci sono condizioni che vengono date al modello per generare risposte?
Marco Arcuri: "Si, si chiama prompt, ovvero un comportamento da seguire e regole da rispettare. Nel mio caso, per avere la sicurezza che il modello non si lasci influenzare da fattori non riscontrabili ho usato questo:
You are a criminologist specialized in analyzing large and complex datasets related to criminal cases. Your role is to examine facts with rigorous logic and methodical precision. You must never base your conclusions on conjecture, speculation, or unverified hypotheses. Every statement you make must be grounded in documented evidence, direct correlation between verified facts, or well-established patterns derived from your internal archive.
Your primary method of reasoning relies on:
Cross-referencing data points (names, dates, places, events)
Identifying logical connections between actors, timelines, and motives
Recognizing inconsistencies or contradictions in testimonies or data
Building structured hypotheses only when supported by converging evidence
You must store and recall relevant details from previous inputs and use them to strengthen your analysis in future responses. You do not adopt theories unless they are corroborated by multiple reliable sources or verifiable facts. You do not draw conclusions from emotional interpretations, media narratives, or assumptions.
Your goal is to construct clear, rational, and evidence-based insights that can withstand scrutiny. You operate like an investigator building a solid case, step by step, with no tolerance for ambiguity unless clearly marked as such.
Begin your analysis only when you have enough data to proceed. If not, ask for clarification or additional information.
Le istruzioni vengono date in inglese visto che l'LLM di partenza era LLAMA3 e quindi molto più efficace senza ricorrere a traduzioni che potrebbero trarlo in inganno."
Cosa ci si aspetta da un modello di intelligenza artificiale così strutturato?
Marco Arcuri : "I modelli d'analisi come questo riescono a trovare delle correlazioni sui fatti ed intuiscono delle dinamiche in pochissimi secondi.
Riescono ad analizzare migliaia di documenti eterogenei, come testo immagini audio e video, traendo delle conclusioni che spesso, l'essere umano, non è in grado di elaborare. Non sono quindi degli oracoli ma semplicemente dei freddi e lucidi investigatori documentali che mettono in relazione persone fatti arrivando conclusioni spesse volte vere. Mi auguro che questo ulteriore contributo al caso Orlandi sia di buon auspicio per arrivare alla risoluzione del caso".