HI
Hormuz Index

Metodologia statistica — Hormuz Index

Documento tecnico per revisione accademica e peer review

Versione 1.1 — Marzo 2026

0. Abstract

Hormuz Index è un sistema di early warning geopolitico che monitora la crisi Iran-USA-Israele attraverso l'analisi automatizzata di flussi informativi da 30+ fonti pubbliche. Il sistema produce 7 indici compositi di rischio (0-100) e 5 probabilità di scenario (somma = 100%), con bande di incertezza al 90%.

Questo documento descrive nel dettaglio ogni componente matematica e statistica del modello, i riferimenti accademici su cui si basa, e i limiti noti. Il modello è sperimentale e indicativo, non predittivo. Le probabilità rappresentano plausibilità relativa condizionata ai dati e alle assunzioni del modello.

1. Pipeline dati e costruzione degli eventi

Il sistema raccoglie notizie da fonti eterogenee, le normalizza, deduplica e classifica.

1.1 Fonti e affidabilità

Ogni fonte ha un punteggio di affidabilità fisso (source_reliability, 0-1). Il sistema di grading è ispirato al NATO Admiralty Code (STANAG 2511 / AJP-2.1), che usa lettere A-F per l'affidabilità della fonte e numeri 1-6 per la credibilità dell'informazione. La conversione in scala numerica 0-1 è un adattamento proprio degli autori, non una procedura standard NATO. La mappatura è: A=0.95, B=0.85, C=0.75, D=0.65, E=0.50, F=non usata.

LivelloFontiPunteggio
Tier 1 — Agenzie di stampaReuters, AP, AFP0.92 - 0.97
Tier 2 — Testate internazionaliBBC, Al Jazeera, Guardian, Haaretz0.85 - 0.90
Tier 3 — AggregatoriGDELT, NewsData, GNews0.70 - 0.85
Tier 4 — Think tankCarnegie, Brookings, IISS0.80 - 0.88
EscluseSocial media, fonti anonimeNon ingerite

Riferimento: NATO STANAG 2511 / AJP-2.1, "Evaluation of intelligence sources and information", Rating A-F per affidabilità della fonte.

1.2 Deduplicazione

Gli articoli vengono raggruppati per similarità testuale usando RapidFuzz (algoritmo Levenshtein normalizzato) con soglia di similarità all'88%. Questo produce cluster di articoli sullo stesso evento. Solo l'evento rappresentativo del cluster viene ingerito.

similarity(a, b) = 1 - levenshtein_distance(a, b) / max(len(a), len(b))
cluster se similarity ≥ 0.88

1.3 Classificazione eventi

Ogni evento viene classificato in una di 17 categorie tramite pattern matching regex contro il testo (titolo + sommario). La classificazione assegna:

  • category: tipo di evento (es. military_strike, enrichment_signal)
  • signal_keys: quali indici alimenta (es. GAI, BSI)
  • base_severity: gravità base della categoria (0-1)
  • confidence: quanti pattern hanno matchato / totale pattern della regola

La classificazione è rule-based (non LLM) per riproducibilità e trasparenza. Ogni categoria ha un filtro di rilevanza geografica: gli eventi non relativi all'area Iran/Golfo/Medio Oriente vengono esclusi per le categorie che lo richiedono.

2. Impatto evento (Event Impact)

Ogni evento classificato produce un punteggio di impatto composito:

impacti = source_reliabilityi × confidencei × severityi × noveltyi
FattoreRangeSignificatoFonte calibrazione
source_reliability0-1Credibilità della fonte (fisso per fonte)Adattamento proprio da NATO Admiralty Code (STANAG 2511)
confidence0-1Confidenza del classificatoreProporzione pattern matchati
severity0-1Gravità base della categoria eventoScala Goldstein (1992) adattata
novelty0-1Quanto l'evento è nuovo (fattore deduplicazione)Rapporto cluster/duplicati

Riferimento severità: Goldstein, J.S. (1992). "A Conflict-Cooperation Scale for WEIS International Events Data." Journal of Conflict Resolution, 36(2), 369-385. La scala originale va da -10 (massimo conflitto) a +10 (massima cooperazione).Il sistema usa solo la dimensione conflittuale (valori negativi della scala), normalizzata a (0, 1). Gli eventi cooperativi (positivi nella scala originale) non sono catturati dal fattore severity — la componente cooperativa è gestita separatamente dall'indice DCI (Diplomatic Channels Index). Questa scelta di design produce una asimmetria intenzionale: il modello è più sensibile ai segnali conflittuali.

3. Calcolo sotto-indici (Subindex)

Ogni indice aggrega i segnali degli eventi classificati tramite media pesata per impatto. Questo è lo standard per la costruzione di indici compositi (OECD/JRC Handbook on Constructing Composite Indicators, 2008, Cap. 4 "Weighting").

subindexk = Σi (impacti × signal_valuei,k) / Σi impacti

Dove signal_valuei,k è il valore del segnale k nell'evento i (es. BSI=95 per un evento di arricchimento). Se nessun evento ha il segnale k, il sotto-indice vale 0.

Riferimento: OECD/JRC (2008). Handbook on Constructing Composite Indicators: Methodology and User Guide.Paris: OECD Publishing. Sezione 4.2: "Weights based on statistical methods."

4. Finestra temporale mobile (Rolling Window)

Ogni indice finale è una combinazione pesata di tre finestre temporali discrete. Questa è una scelta euristica di design, non una derivazione formale da un modello statistico specifico:

Indext = 0.50 × score24h + 0.30 × score7d + 0.20 × score30d
FinestraPesoRazionale
Ultime 24 ore0.50 (50%)Massima reattività ai segnali recenti
Ultimi 7 giorni0.30 (30%)Trend a breve termine
Ultimi 30 giorni0.20 (20%)Baseline e contesto storico

Razionale: I pesi 50/30/20 danno priorità decrescente alle osservazioni più recenti, coerentemente con la velocità di evoluzione delle crisi geopolitiche. Questa è una discretizzazione a 3 bucket, non un EWMA (Exponentially Weighted Moving Average) formale su serie continua. L'analogia con schemi a decadimento esponenziale è pedagogica, non matematica: un EWMA classico ha formula St = α × Xt + (1-α) × St-1con half-life = ln(2)/ln(1/(1-α)), che non è direttamente equiparabile a 3 finestre discrete con pesi fissi.

5. Nuclear Opacity Index (NOI) — Indice composito a 6 componenti

Il NOI misura quanto il programma nucleare iraniano sia opaco alla verifica internazionale. È un indice composito con 6 sotto-componenti pesate, ispirato alla struttura del NTI Nuclear Security Index (Nuclear Threat Initiative, 2020-2024).L'allocazione dei pesi (A+B = 50%, C+D+E+F = 50%) riflette un giudizio di esperti (expert elicitation) secondo cui la verifica fisica (accesso ai siti + conoscenza dei materiali) è la dimensione più critica dell'opacità nucleare. Questa scelta non è derivata da una formula NTI specifica ma dalla valutazione degli autori sulle priorità dell'IAEA safeguards.

NOI = 0.25×A + 0.25×B + 0.20×C + 0.10×D + 0.10×E + 0.10×F
Comp.NomePesoCosa misuraRif. NTI
ASite Access Loss25%Perdita di accesso fisico IAEA ai siti dichiaratiSecurity & Control Measures
BMaterial Knowledge Loss25%Perdita di conoscenza su quantità/localizzazione materialiQuantities and Sites
CEnrichment Verification Gap20%Gap nella verifica dei livelli di arricchimentoIAEA Safeguards Reports
DUnderground Activity Signal10%Attività in siti sotterranei/bunkerizzati (Fordow)IAEA reports su Fordow
ETechnical Diplomatic Breakdown10%Rottura della cooperazione tecnica con IAEANTI Global Norms
FConflicting Narratives10%Narrazioni contrastanti sullo stato del programmaIntelligence analysis metric

5.1 Hard Rules (effetti soglia)

Il NOI include regole non-lineari per catturare effetti soglia documentati storicamente:

RegolaCondizioneEffettoPrecedente storico
HR-1A >= 75 AND B >= 90NOI = max(NOI, 80)Corea del Nord pre-test 2006: perdita totale accesso + materiali
HR-2C >= 75 AND D >= 50NOI += 5Iran 2012: gap arricchimento + attività Fordow = rischio composto
HR-3E >= 80 AND F >= 70NOI += 3Iraq 2002: rottura diplomatica + narrative contrastanti = incertezza

5.2 Soglie interpretative

Allineate alle categorie di conclusione IAEA Safeguards:

RangeLivelloSignificato IAEA equivalente
0-24VerdeBroader Conclusion: tutto il materiale è contabilizzato
25-49GialloGap di verifica parziali
50-69ArancioneGap di verifica significativi
70-84RossoImpossibile verificare la natura pacifica
85-100Rosso scuroOpacità quasi totale

Riferimenti: NTI Nuclear Security Index (ntiindex.org); IAEA Safeguards Implementation Reports (serie GOV/); Albright, D. & Burkhard, S. (2021). "Iran's Nuclear Program: Status and Uncertainties." Institute for Science and International Security.

6. Modello scenari — Weighted additive scoring model

Il modello produce 5 probabilità mutuamente esclusive (somma = 100%) che rappresentano la plausibilità relativa di ciascuno scenario condizionata ai valori correnti degli indici.

6.1 Baseline scores (valori base informati dalla letteratura)

Ogni scenario parte da un valore base (baseline score) informato dalla letteratura. Sono valori iniziali di un modello additivo lineare, calibrati su tassi base storici per dare al modello un punto di partenza ragionevole.

ScenarioBaselineFonte calibrazione
Conflitto Contenuto50.0ICG CrisisWatch 2003-2024: ~70% delle crisi monitorate restano contenute. Ridotto a 50 per scelta soggettiva degli autori: i pesi positivi degli indici di rischio spostano la distribuzione verso scenari di escalation, quindi il baseline di "contenuto" deve partire più basso per compensare. Questa riduzione NON è una procedura formale documentata.
Guerra Regionale25.0ICG: spillover regionale in ~20-30% delle crisi serie storicamente.
Soglia Nucleare15.0Crisi con dimensione nucleare: pochissimi casi post-1945 (Cuba 1962, Kargil 1999).
Coercizione Nucleare7.0Segnalazione nucleare coercitiva: ~5-7 casi dal 1945 (Berlino 1948, Corea 1953, Taiwan 1954/58, Cuba 1962, Kargil 1999).
Uso Nucleare Effettivo2.0Zero casi dal 1945. Sondaggi esperti Global Challenges Foundation 2020: probabilità annualizzata 0.3-1.5%. Metaculus community forecast.

Riferimenti: International Crisis Group, CrisisWatch Database (2003-2024); Global Challenges Foundation (2020), "Global Catastrophic Risks 2020"; Metaculus, "At least 1 nuclear detonation in war by 2050" community forecast.

6.2 Matrice dei pesi (Weight Matrix)

La matrice dei pesi codifica i percorsi causali da ogni indice a ogni scenario. Il design è ispirato al framework GCRI (Global Conflict Risk Index) del Joint Research Centre della Commissione Europea (2014), ma con una differenza strutturale importante: il GCRI deriva i suoi pesi empiricamente tramite regressione logistica su dati storici di conflitto, mentre i nostri pesi sono assegnati manualmente attraverso ragionamento causale e giudizio di esperti. Non esiste un dataset storico di "crisi Iran-Golfo con esiti noti" sufficientemente ampio per fare regressione. I pesi riflettono la logica causale della letteratura, non una calibrazione statistica.

IndiceContenutoRegionaleSogliaCoercizioneUso Nucl.Razionale
NOI-0.15+0.06+0.25+0.150.00Opacità nucleare iraniana: guida 'soglia' (avvicinamento a capacità). Peso ZERO su 'uso effettivo' perché l'Iran non possiede armi nucleari.
GAI-0.12+0.30+0.04+0.03+0.01Attacchi convenzionali: driver primario di guerra regionale. Non causa direttamente escalation nucleare.
HDI-0.10+0.25+0.06+0.04+0.02Disruption Hormuz: amplifica guerra regionale. Effetto indiretto limitato su scenari nucleari.
PAI-0.08+0.20+0.03+0.02+0.01Proxy: alimentano guerra regionale ma non causano escalation nucleare direttamente.
SRI-0.08+0.08+0.15+0.25+0.10Retorica strategica: driver primario di 'coercizione' (minacce nucleari da stati armati). Più forte driver di 'uso effettivo' — la retorica precede l'azione.
BSI-0.12+0.04+0.30+0.22+0.08Breakout/postura nucleare: driver primario di 'soglia'. Secondo driver di 'uso effettivo' — postura nucleare attiva da USA/Israele.
DCI+0.25-0.15-0.20-0.18-0.12Diplomazia: unico driver positivo per 'contenuto'. Frena tutti gli scenari di escalation.

Principi di design della matrice:

  1. GAI e HDI sono i driver primari della guerra convenzionale regionale (+0.30, +0.25).
  2. NOI traccia l'opacità del programma iraniano. Poiché l'Iran NON ha armi nucleari, NOI guida solo "soglia" (avvicinamento alla capacità). NOI ha peso ZERO su "uso effettivo".
  3. BSI traccia sia il percorso iraniano verso un dispositivo SIA i segnali di postura nucleare da stati già armati (USA, Israele). BSI guida "soglia" (+0.30) ed è il secondo driver di "uso effettivo" (+0.08).
  4. SRI cattura la retorica escalatoria da stati con armi nucleari. È il driver più forte di "uso effettivo" (+0.10) perché la retorica precede l'azione.
  5. DCI (diplomazia) è l'unico freno. È l'unico indice con peso positivo su "contenuto" (+0.25) e negativo su tutti gli altri scenari.
  6. L'uso nucleare effettivo può provenire SOLO da USA/Israele (che possiedono armi nucleari) o da un trasferimento Russia/Cina all'Iran (monitorato ma estremamente improbabile).

Riferimento: EU Joint Research Centre (2014). "Global Conflict Risk Index (GCRI): A quantitative model — Concept and methodology." JRC Technical Reports. Il GCRI usa regressione logistica su dati storici per derivare i pesi empiricamente.I nostri pesi NON sono derivati allo stesso modo — sono assegnati manualmente tramite analisi causale del teatro Iran-Golfo. Il GCRI è citato come ispirazione concettuale per l'approccio a matrice indici→scenari, non come metodologia replicata.

6.3 Calcolo dello score grezzo

Per ogni scenario s:

scores = baselines + Σk (Wk,s × Indexk)

Dove baselines è il valore base dello scenario s (Sezione 6.1), Wk,s è il peso dell'indice k sullo scenario s (Sezione 6.2), e Indexk è il valore corrente dell'indice (0-100). Questa è un'aggregazione lineare additiva, non un aggiornamento bayesiano.

6.4 Regole trigger (effetti non-lineari)

La matrice di pesi è lineare e non cattura le dinamiche non-lineari dell'escalation. Le regole trigger aggiungono boost additivi o fattori moltiplicativi quando più indici superano simultaneamente soglie critiche.

RegolaCondizioneEffettoRazionale
TR-1NOI >= 75 AND BSI >= 65threshold += 5Opacità nucleare + breakout signals = crisi soglia nucleare più probabile
TR-2SRI >= 75 AND BSI >= 70coercive += 4Retorica estrema da stati armati + postura attiva = coercizione nucleare
TR-3SRI >= 85 AND BSI >= 80 AND GAI >= 80actual += 3Convergenza estrema: retorica + postura + conflitto convenzionale intenso. Unico path verso uso effettivo.
TR-4DCI >= 65regional, threshold, coercive, actual x 0.90Diplomazia attiva riduce del 10% tutti gli scenari escalatori

6.5 Normalizzazione

Gli score grezzi vengono clampati a ≥ 0 e normalizzati a somma 100:

scores = max(0, scores)

P(s) = scores / Σj scorej × 100

Le probabilità risultanti sono plausibilità relative, non probabilità calibrate nel senso di Brier score. Rappresentano la distribuzione della plausibilità tra gli scenari dato lo stato corrente degli indici.

7. Intervalli di confidenza — Monte Carlo Bootstrap

7.1 Monte Carlo per gli scenari

Per quantificare l'incertezza delle probabilità di scenario, il modello esegue una simulazione Monte Carlo con N=500 iterazioni, seguendo il framework di analisi di sensibilità globale di Saltelli et al. (2004).

Ad ogni iterazione:

  1. Perturbazione indici: ogni valore di indice viene moltiplicato per un fattore casuale uniforme U(0.85, 1.15), cioè ±15%, poi clampato a [0, 100].
  2. Perturbazione pesi: ogni peso della matrice viene moltiplicato per un fattore casuale normale N(1.0, 0.20), clippato a [0.6, 1.4], cioè ±20% con max ±40%.
  3. Le probabilità vengono ricalcolate con i valori perturbati.
Indexk' = clamp(Indexk × U(0.85, 1.15), 0, 100)
Wk,s' = Wk,s × clip(N(1.0, 0.20), 0.6, 1.4)

CI90% = [percentile5, percentile95] su 500 iterazioni

Il seed è fissato (seed=42) per riproducibilità all'interno dello stesso snapshot. La perturbazione simultanea di input e parametri del modello segue il principio della "global sensitivity analysis" — superiore alla perturbazione one-at-a-time (OAT) perché cattura le interazioni tra parametri.

Riferimento: Saltelli, A., Tarantola, S., Campolongo, F. & Ratto, M. (2004). Sensitivity Analysis in Practice: A Guide to Assessing Scientific Models. Wiley. Cap. 2: "Why should one perform sensitivity analysis?" e Cap. 5: "Global sensitivity analysis."

7.2 Bootstrap per gli indici

I singoli indici hanno bande di incertezza calcolate con bootstrap non-parametrico (Efron & Tibshirani, 1993). Con N=200 iterazioni, gli eventi nella finestra 24h vengono ricampionati con sostituzione e il sotto-indice viene ricalcolato.

Per ogni iterazione b = 1, ..., 200:
  eventsb = campione con sostituzione da events24h
  subindexb = compute_subindex(eventsb, signal_key)

CI90% = [subindex(10), subindex(190)]
(5° e 95° percentile: posizione 0.05×200=10 e 0.95×200=190)

Per indici con meno di 5 eventi, il CI viene allargato analiticamente (±40% del valore o ±10 punti, il maggiore) per riflettere l'elevata incertezza da campione piccolo.

Riferimento: Efron, B. & Tibshirani, R. (1993). An Introduction to the Bootstrap. Chapman & Hall/CRC. Cap. 13: "Bootstrap confidence intervals."

8. Asimmetria nucleare — Iran non possiede armi nucleari

Un aspetto critico del modello è la corretta modellazione dell'asimmetria nucleare in questa crisi. L'Iran non possiede armi nucleari e il suo programma è lontano dal produrne. Le uniche potenze nucleari nel teatro sono USA e Israele.

Questo si riflette nel modello in tre modi:

  1. NOI ha peso ZERO su "Uso Nucleare Effettivo": l'opacità del programma iraniano non può causare uso nucleare perché l'Iran non ha armi da usare.
  2. SRI è il driver primario di "Uso Effettivo" (+0.10): cattura la retorica nucleare da USA/Israele — gli unici attori che possono effettivamente usare armi nucleari.
  3. Categoria "nuclear_transfer_signal": il classificatore monitora segnali di trasferimento nucleare da Russia/Cina all'Iran (l'unico path attraverso cui l'Iran potrebbe ottenere un dispositivo nucleare a breve termine). Severità 0.98 — la più alta del sistema.

Fonti sulla capacità nucleare iraniana: IAEA Director General Reports (GOV/2024 series); Albright, D. (2024), ISIS Reports; Bulletin of the Atomic Scientists; U.S. Intelligence Community Annual Threat Assessment 2024-2025.

9. Calibrazione Storica (v2.0)

A partire dalla versione 2.0, i pesi della matrice scenario e le soglie dei trigger sono stati calibrati su 20 eventi anchor storici (2019-2026) utilizzando la minimizzazione del Brier Score con regolarizzazione L2 (lambda=0.05) e cross-validazione leave-one-out.

Risultati della calibrazione:

  • Brier Score: 0.106 → 0.002 (miglioramento del 98.4%)
  • Accuratezza: 65% → 100% sugli eventi storici
  • Cross-validated Brier Score: 0.017

Principale scoperta: il DCI (canali diplomatici) è il predittore più forte per le transizioni tra scenari. Il collasso della diplomazia (DCI basso) è più predittivo della guerra regionale rispetto a qualsiasi singolo indice convenzionale, confermando la letteratura sulla gestione delle crisi (Lebow 1981, George 1991).

Vincoli causali applicati: l'ottimizzazione rispetta vincoli di segno derivati dalla conoscenza del dominio (es. NOI → actual = 0 perché l'Iran non possiede armi nucleari; DCI → contained > 0 perché la diplomazia favorisce il contenimento).

Soglie trigger calibrate: NOI ≥ 60 AND BSI ≥ 55 → threshold +5 (precedente: 75/65); SRI ≥ 65 AND BSI ≥ 60 → coercive +4 (precedente: 75/70). Le soglie più basse catturano crisi nucleari precedenti (Natanz 2021, censura IAEA 2022).

Fonti di ground truth: ACLED Middle East, CENTCOM, IAEA Board of Governors, ICG CrisisWatch, GPR Index (Caldara-Iacoviello, Federal Reserve).

10. Limiti noti e caveat

Limite 1: Pesi non validati empiricamente

La matrice dei pesi segue la logica causale della letteratura (GCRI, NTI) ma non è stata calibrata con back-testing su crisi storiche. Non esiste un dataset di "crisi Iran-Golfo passate con esiti noti" sufficientemente ampio per fare regressione. I pesi sono informati dalla teoria, non dai dati.

Limite 2: Classificatore rule-based

Il classificatore usa pattern matching regex, non NLP avanzato. Questo garantisce trasparenza e riproducibilità ma può generare falsi positivi (eventi irrilevanti classificati come rilevanti) e falsi negativi (eventi rilevanti non catturati).

Limite 3: Bias delle fonti

Il sistema ingesta solo fonti pubbliche in lingua inglese. Questo introduce bias: la copertura mediatica anglofona sovra-rappresenta la prospettiva occidentale e può sotto-rappresentare sviluppi interni iraniani o posizioni della Cina/Russia.

Limite 4: Probabilità non calibrate

Le probabilità prodotte sono plausibilità relative, non forecast calibrati. Non hanno superato test di calibrazione (Brier score, reliability diagram). Un modello calibrato richiederebbe dati storici di risoluzione che non esistono per eventi di questa natura.

Limite 5: Monte Carlo su modello, non su realtà

Le bande di incertezza Monte Carlo quantificano l'incertezza del modello(sensibilità a perturbazioni degli input e dei pesi), non l'incertezza della realtà. Un evento imprevedibile (cigno nero) può far saltare qualsiasi banda di confidenza.

Limite 6: Indipendenza degli indici

Gli indici sono trattati come indipendenti nella matrice dei pesi, ma nella realtà sono correlati (es. un attacco militare GAI può causare retorica escalatoria SRI). Le regole trigger catturano parzialmente queste interazioni ma non completamente.

Limite 7: Latenza dati

Il sistema aggiorna gli indici ad ogni ciclo Celery (default: ogni 15 minuti per RSS, 30 min per API). Eventi che si sviluppano rapidamente possono non essere catturati in tempo reale.

Limite 8: Nessuna distinzione tattico/strategico

Il modello tratta "uso nucleare" come categoria unica, senza distinguere tra un'arma tattica a basso rendimento (es. B61 mod 12 contro un'infrastruttura sotterranea) e uno scambio strategico su larga scala. Nella crisi attuale, un eventuale uso nucleare sarebbe quasi certamente tattico — con conseguenze e soglia decisionale radicalmente diverse da un impiego strategico. Questa distinzione non è catturabile con fonti aperte.

Limite 9: Retorica nucleare e deterrenza

L'indice SRI (Strategic Rhetoric) è il driver primario degli scenari di coercizione e uso nucleare, ma non può distinguere tra retorica deterrente strumentale e segnali di preparazione reale. Storicamente, la retorica nucleare è stata usata costantemente come strumento di deterrenza senza intenzione di uso effettivo. Il modello può quindi sovrastimare la probabilità degli scenari nucleari durante fasi di retorica intensa.

Limite 10: Trasferimento nucleare (edge case)

Lo scenario di trasferimento di un dispositivo nucleare da Russia o Cina all'Iran è monitorato tramite la categoria nuclear_transfer_signal (severità massima 0.98). Se rilevato, una trigger rule dedicata (TR-5) aumenta significativamente la plausibilità degli scenari nucleari. Tuttavia, il modello lineare additivo non cattura pienamente il salto qualitativo che un trasferimento comporterebbe: l'Iran passerebbe istantaneamente da "non possiede armi nucleari" a "potenza nucleare de facto", invalidando l'assunzione di asimmetria (peso NOI = 0 su uso effettivo) su cui il modello è costruito. Questo resta lo scenario peggiore possibile ma anche il meno probabile.

Limite 11: Calibrazione dei baseline

Le probabilità a priori degli scenari (es. "Uso Nucleare Effettivo" parte da ~1%) derivano da sondaggi esperti e letteratura (0.3-1.5% annualizzato), ma non sono direttamente comparabili con l'output di un modello additivo normalizzato a 100%. Durante una crisi acuta con indici tutti elevati, il modello può produrre valori di "uso effettivo" che appaiono alti in termini assoluti (es. 5-8%) ma che sono in realtà artefatti della normalizzazione a somma 100% tra scenari. Le probabilità vanno sempre lette come plausibilità relative, mai come previsioni assolute.

Limite 12: Rolling window arbitraria

I pesi della finestra temporale (50% ultime 24h, 30% ultimi 7 giorni, 20% ultimi 30 giorni) sono una scelta euristica dichiarata come tale, non derivano da un'analisi formale EWMA. In una crisi che evolve rapidamente il peso del 50% sulle 24h potrebbe essere troppo basso; in una fase di stallo potrebbe essere troppo alto. Non esiste una ragione quantitativa per cui 50/30/20 sia ottimale rispetto ad altre distribuzioni (es. 45/35/20 o 55/25/20).

Limite 13: Effetti a cascata tra indici

Nella realtà, un attacco militare (GAI) causa simultaneamente escalation retorica (SRI), disruption dello Stretto (HDI) e attivazione proxy (PAI). Il modello tratta queste comecoincidenze statistiche, non come effetti a cascata causali. Le trigger rules (TR-1 a TR-5) catturano parzialmente queste interazioni non-lineari, ma la correlazione strutturale tra indici durante una crisi acuta resta non modellata.

11. Guida all'interpretazione

I trend sono più informativi dei valori assoluti. Un indice che sale da 30 a 50 in 24 ore è un segnale più forte di un indice stabile a 60.

Le bande di incertezza sono essenziali. Una probabilità di "Soglia Nucleare" al 25% con CI [15%-35%] è molto diversa da 25% con CI [24%-26%]. Bande larghe indicano alta sensibilità del modello a piccole variazioni.

Lo scenario dominante è relativo, non assoluto. Se "Guerra Regionale" è al 45%, non significa che c'è il 45% di probabilità di guerra. Significa che, tra i 5 scenari del modello, la guerra regionale è il più plausibile date le informazioni correnti.

Confrontare sempre con analisi esperte. Questo sistema è un complemento, non un sostituto, dell'analisi umana. Le fonti primarie (rapporti IAEA, dichiarazioni ufficiali, analisi ICG) restano il gold standard.

12. Riferimenti bibliografici

  1. Albright, D. & Burkhard, S. (2021). "Iran's Nuclear Program: Status and Uncertainties." Institute for Science and International Security.
  2. Efron, B. & Tibshirani, R. (1993). An Introduction to the Bootstrap. Chapman & Hall/CRC.
  3. EU Joint Research Centre (2014). "Global Conflict Risk Index (GCRI): A quantitative model." JRC Technical Reports.
  4. Global Challenges Foundation (2020). "Expert Survey on Global Catastrophic Risks."
  5. Goldstein, J.S. (1992). "A Conflict-Cooperation Scale for WEIS International Events Data." Journal of Conflict Resolution, 36(2), 369-385.
  6. International Crisis Group. CrisisWatch Database (2003-2024). crisisgroup.org
  7. NATO. STANAG 2511 / AJP-2.1: Evaluation of Intelligence Sources and Information.
  8. NTI (Nuclear Threat Initiative). Nuclear Security Index (2020-2024). ntiindex.org
  9. OECD/JRC (2008). Handbook on Constructing Composite Indicators: Methodology and User Guide. Paris: OECD Publishing.
  10. Saltelli, A., Tarantola, S., Campolongo, F. & Ratto, M. (2004). Sensitivity Analysis in Practice. Wiley.
  11. IAEA. Safeguards Implementation Reports (GOV/ series, annual).
  12. Metaculus. "At least 1 nuclear detonation in war by 2050." Community forecast.
Hormuz Index — Documento metodologico v1.1 — Marzo 2026
Questo documento è parte integrante del sistema e viene aggiornato ad ogni revisione del modello.