From the beginning of the spread of the novel coronavirus that emerged in Lombardy (Italy), at the end of February 2020, we are developing and comparing different models for time series with count data. In particular, we are considering models able to provide stable predictions with real time data, having only few observations updated day by day. The official data may have problems due to the collection process that is made from the local healthcare public company of the local area for each of the 21 Italian regions. In particular, during this emergency some date referred to more days of collection have been officialised in a single day, causing irregularity on the observed time series. We used a Poisson model and a model based on a Negative Binomial distribution to consider the univariate time series of the official COVID-19 data provided by the Civil Protection Agency and in particular of the patients in a specific condition such as in intensive care at national or at regional level. The models have been formulated with a temporal trend through polynomials and splines. We fitted the models considering also autoregressive components of first and second order. We introduced intervention effects through suitable covariates or nodes for the splines as to account for the effects of the disease control made by the local and national authorities on the temporal trend. With the time passing we realized that a main interest of the community, and of the policy makers is to know daily the number of ill patients, and at the same time, how many people need to be hospitalized and need especially intensive care. We developed a multivariate Multinomial autoregressive model to account simultaneously for different typologies of patients and as observational categories also for those deceased and recovered. The proposed model allows us to study the transitions between different mutually exclusive typologies of individuals day by day and it provides reliable predictions of the future daily counts in each category. We notice that the model assumes a Markovian structure with absorbing states, as that of deceased, even if it is estimated according to aggregate data. Therefore, we employ the marginals of the contingency table with respect to the patients transit from one category to another. The proposed model is also suitable to be interpreted as an epidemiological model in line with the more common SIRD (Susceptible-Infective-Recovered-Dead) models. It is able to provide an estimate of the reproducibility number (R0, average number of people infected by a person with the virus). The model parameters are estimated through a Bayesian approach with the algorithm Markov Chain Monte Carlo which allows us to dispose of the simulated posterior probabilities of the model parameters. The implemented algorithm is based on two steps which are iteratively repeated where at the second step the acceptance rule defined by the proposal of Metropolis-Hastings is considered. The Bayesian approach is particularly suitable when prior probabilities are available. In the context of COVID-19, we use data provided by China from where the spreading process of COVID-19 started. This approach allows us to dispose of credibility intervals for the parameters and to compare models with and without interventions to evaluate the efficacy of the restrictive measures due to context-specific interventions. A substantial very good prediction within a short term is demonstrated by exercises of Bayesian leave-one-out cross-validation performed during these days. The proposal of the Multinomial autoregressive model is an attempt to provide an instrument to support decisions during the emergency and we intend to continue to develop the model to make it suitable and available for the scientific community also by providing a friendly R package.

Sin dai primi giorni della diffusione dell’epidemia COVID-19 in Italia, stiamo sviluppando e confrontando diversi modelli per l’analisi di serie storiche di conteggi. In particolare, ci siamo focalizzati su modelli in grado di fornire previsioni stabili in tempo reale, pur disponendo di esigue osservazioni che vengono aggiornate giorno per giorno e che possono presentare problemi dovuti a questioni legate alla rilevazione dei dati. In particolare, è noto che in alcune situazioni e a causa dell’emergenza, i dati riferiti a più giorni di rilevazione sono stati accumulati in uno stesso giorno di pubblicazione creando delle irregolarità per le serie storiche osservate. Inizialmente abbiamo utilizzato un modello di Poisson ed un modello basato sulla distribuzione Binomiale Negativa per analizzare le serie storiche univariate dei pazienti malati o in una specifica condizione in Italia o in alcune regioni, in particolare in Lombardia. Tali modelli sono stati formulati includendo un trend temporale attraverso dei polinomi e delle spline e anche includendo delle componenti autoregressive del primo e del secondo ordine. Inoltre, per tenere conto dell’effetto dei provvedimenti emanati dal Governo e dalle regioni, sono state introdotte delle covariate di intervento o dei nodi nel caso di utilizzo di spline per il trend temporale. In seguito, ci siamo resi conto che l’interesse della collettività, così come dei decisori pubblici, è quello di conoscere quante persone si ammalano e, nello stesso tempo, quante persone hanno bisogno delle diverse tipologie di assistenza, con particolare riferimento alla terapia intensiva. Abbiamo quindi pensato ad un approccio multivariato basato su un modello Multinomiale autoregressivo che considera simultaneamente le diverse tipologie di pazienti ed include anche i deceduti e i guariti come categorie di osservazione. Questo modello permette di studiare le transizioni tra diverse categorie esclusive, giorno per giorno, e di prevedere in modo attendibile, almeno nel breve termine, il fabbisogno di posti letto in ospedale ed in terapia intensiva. È interessante notare che il modello assume una struttura Markoviana avente degli stati assorbenti, come ovviamente quello dei decessi, pur essendo stimato sulla base dei dati a livello aggregato, ovvero delle distribuzioni marginali delle tabelle di contingenza relative al numero di pazienti che transitano da una categoria all’altra in giorni consecutivi. Si presta inoltre ad essere interpretato come modello epidemiologico in linea con i più comuni modelli SEIR (Susceptible – Exposed – Infected – Recovered) ed è in grado di fornire una stima di indicatori di diffusione dell’infezione collegati con il numero di riproduzione di base (R0, numero medio di persone contagiate da una persona infetta). I parametri vengono stimati utilizzando l’approccio Bayesiano attraverso un algoritmo di tipo Markov chain Monte Carlo che permette di ricavare, in forma simulata, la distribuzione a posteriori di questi parametri. L’algoritmo che abbiamo implementato è basato su due passi che vengono iterati ripetutamente e che contemplano l’utilizzo di regole di accettazione di tipo Metropolis-Hastings. L’inferenza Bayesiana è particolarmente vantaggiosa se si intende utilizzare anche le informazioni a priori, quando disponibili, derivanti da altri paesi dove l’epidemia si è sviluppata in precedenza. Nel caso di COVID-19, in particolare, è vantaggioso utilizzare i dati della Cina da dove è partita la diffusione del virus. È inoltre possibile fornire intervalli di credibilità per i parametri ed effettuare confronti tra modelli con e senza effetti di intervento per valutare l’efficacia degli stessi. Gli esercizi di cross-validation che abbiamo effettuato in questi giorni hanno permesso di evidenziare interessanti risultati in termini di affidabilità previsionale nel breve termine. Auspichiamo che la proposta del modello Multinomiale autoregressivo possa essere utilizzata come strumento di ausilio per coloro che si trovano ad affrontare questa emergenza ed intendiamo continuare a perfezionare la proposta per renderla fruibile a tutta la comunità scientifica, anche mettendo a disposizione un apposito pacchetto di facile utilizzo nell’ambiente R.

Bartolucci, F., Pennoni, F., Mira, A. (2020). Modelli univariati e multivariati per serie storiche di conteggi con applicazione a COVID-19. STATISTICA & SOCIETÀ, IX(1), 1-2.

Modelli univariati e multivariati per serie storiche di conteggi con applicazione a COVID-19

Pennoni, F;
2020

Abstract

From the beginning of the spread of the novel coronavirus that emerged in Lombardy (Italy), at the end of February 2020, we are developing and comparing different models for time series with count data. In particular, we are considering models able to provide stable predictions with real time data, having only few observations updated day by day. The official data may have problems due to the collection process that is made from the local healthcare public company of the local area for each of the 21 Italian regions. In particular, during this emergency some date referred to more days of collection have been officialised in a single day, causing irregularity on the observed time series. We used a Poisson model and a model based on a Negative Binomial distribution to consider the univariate time series of the official COVID-19 data provided by the Civil Protection Agency and in particular of the patients in a specific condition such as in intensive care at national or at regional level. The models have been formulated with a temporal trend through polynomials and splines. We fitted the models considering also autoregressive components of first and second order. We introduced intervention effects through suitable covariates or nodes for the splines as to account for the effects of the disease control made by the local and national authorities on the temporal trend. With the time passing we realized that a main interest of the community, and of the policy makers is to know daily the number of ill patients, and at the same time, how many people need to be hospitalized and need especially intensive care. We developed a multivariate Multinomial autoregressive model to account simultaneously for different typologies of patients and as observational categories also for those deceased and recovered. The proposed model allows us to study the transitions between different mutually exclusive typologies of individuals day by day and it provides reliable predictions of the future daily counts in each category. We notice that the model assumes a Markovian structure with absorbing states, as that of deceased, even if it is estimated according to aggregate data. Therefore, we employ the marginals of the contingency table with respect to the patients transit from one category to another. The proposed model is also suitable to be interpreted as an epidemiological model in line with the more common SIRD (Susceptible-Infective-Recovered-Dead) models. It is able to provide an estimate of the reproducibility number (R0, average number of people infected by a person with the virus). The model parameters are estimated through a Bayesian approach with the algorithm Markov Chain Monte Carlo which allows us to dispose of the simulated posterior probabilities of the model parameters. The implemented algorithm is based on two steps which are iteratively repeated where at the second step the acceptance rule defined by the proposal of Metropolis-Hastings is considered. The Bayesian approach is particularly suitable when prior probabilities are available. In the context of COVID-19, we use data provided by China from where the spreading process of COVID-19 started. This approach allows us to dispose of credibility intervals for the parameters and to compare models with and without interventions to evaluate the efficacy of the restrictive measures due to context-specific interventions. A substantial very good prediction within a short term is demonstrated by exercises of Bayesian leave-one-out cross-validation performed during these days. The proposal of the Multinomial autoregressive model is an attempt to provide an instrument to support decisions during the emergency and we intend to continue to develop the model to make it suitable and available for the scientific community also by providing a friendly R package.
Articolo in rivista - Articolo scientifico
Negative binomial distribution, Poisson model, Markov Chain Monte Carlo, Multinomial autoregressive model
Distribuzione Binomiale Negativa, Modello di Poisson, Markov Chain Monte Carlo, Modello multinomiale autoregressivo
English
Italian
4-mar-2020
2020
IX
1
1
2
open
Bartolucci, F., Pennoni, F., Mira, A. (2020). Modelli univariati e multivariati per serie storiche di conteggi con applicazione a COVID-19. STATISTICA & SOCIETÀ, IX(1), 1-2.
File in questo prodotto:
File Dimensione Formato  
Modelli_univariati_e_multivariati_per_serie_storiche_di_conteggi_con_applicazione_a_COVID-19 - Statistica e Società.pdf

accesso aperto

Tipologia di allegato: Publisher’s Version (Version of Record, VoR)
Dimensione 662.23 kB
Formato Adobe PDF
662.23 kB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10281/268486
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact