L’obiettivo del presente lavoro è stato quello di proporre ed applicare una metodologia di analisi statistica innovativa basata su tecniche multivariate in grado di individuare ed interpretare, in maniera univoca e quantitativa, la struttura di correlazione fra le diverse variabili misurate in più stazioni di osservazione nella regione Basilicata e lungo un intervallo temporale decennale (1997-2011). I dati sono stati organizzati in una matrice tridimensionale a scala giornaliera [H anni x M stazioni di misura x N variabili misurate], valutando la presenza (in termini di quantità e di distribuzione lungo l’intervallo di tempo considerato) dei dati mancanti. In questo tipo di analisi purtroppo la presenza di data missing può fortemente influenzare l’efficacia dell’analisi e la qualità dei risultati prodotti. A partire da questa matrice dei dati, oltre ad una analisi descrittiva delle variabili misurate, sono state poi individuate le migliori sottomatrici bidimensionali [stazioni di misura x variabili misurate] dalle quali determinare la struttura di correlazione implicita nel database. In particolare sono state prima applicate, congiuntamente e ricorsivamente per tutti gli anni investigati, l’analisi delle componenti principali (PCA) ed una tecnica di clustering; poi sono stati applicati ai risultati degli indici sintetici recentemente sviluppati, l’indice NPCI (Normalized Principal Component Index) e l’indice CI (Cluster Index) che consentono di confrontare quantitativamente i risultati ottenuti per i diversi anni. In questo lavoro per classificare le stazioni di misura in sottogruppi omogenei (clusters) è stato applicato un algoritmo di clustering gerarchico agglomerativo non supervisionato. Infine sono stati applicati gli indici sintetici NPCI e CI che hanno consentito di quantificare il peso di ciascuna variabile e di ogni cluster nella rispettiva struttura di correlazioni multidimensionale e quindi di leggere lungo l’arco di tempo investigato l’evolversi di questa ed il verificarsi di eventi particolari.
Tecniche statistiche multivariate per l'analisi meteo-climatica a scala regionale
RAGOSTA, Maria;SCAVONE, Giuseppina;TELESCA, Vito
2013-01-01
Abstract
L’obiettivo del presente lavoro è stato quello di proporre ed applicare una metodologia di analisi statistica innovativa basata su tecniche multivariate in grado di individuare ed interpretare, in maniera univoca e quantitativa, la struttura di correlazione fra le diverse variabili misurate in più stazioni di osservazione nella regione Basilicata e lungo un intervallo temporale decennale (1997-2011). I dati sono stati organizzati in una matrice tridimensionale a scala giornaliera [H anni x M stazioni di misura x N variabili misurate], valutando la presenza (in termini di quantità e di distribuzione lungo l’intervallo di tempo considerato) dei dati mancanti. In questo tipo di analisi purtroppo la presenza di data missing può fortemente influenzare l’efficacia dell’analisi e la qualità dei risultati prodotti. A partire da questa matrice dei dati, oltre ad una analisi descrittiva delle variabili misurate, sono state poi individuate le migliori sottomatrici bidimensionali [stazioni di misura x variabili misurate] dalle quali determinare la struttura di correlazione implicita nel database. In particolare sono state prima applicate, congiuntamente e ricorsivamente per tutti gli anni investigati, l’analisi delle componenti principali (PCA) ed una tecnica di clustering; poi sono stati applicati ai risultati degli indici sintetici recentemente sviluppati, l’indice NPCI (Normalized Principal Component Index) e l’indice CI (Cluster Index) che consentono di confrontare quantitativamente i risultati ottenuti per i diversi anni. In questo lavoro per classificare le stazioni di misura in sottogruppi omogenei (clusters) è stato applicato un algoritmo di clustering gerarchico agglomerativo non supervisionato. Infine sono stati applicati gli indici sintetici NPCI e CI che hanno consentito di quantificare il peso di ciascuna variabile e di ogni cluster nella rispettiva struttura di correlazioni multidimensionale e quindi di leggere lungo l’arco di tempo investigato l’evolversi di questa ed il verificarsi di eventi particolari.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.