Epidemiological research aims to generate a better understanding of the health mechanisms and disease etiology. Nowadays, the abundance of clinical information collected via electronic medical records have made high-dimensional data extremely popular and the identification of predictive modeling of health risks and possible outcomes has become even more challenging. Therefore, many variable selection approaches have increased in importance and popularity. Nevertheless, the most frequently variable selection methods still used in epidemiology are based on prior knowledge or using stepwise automated selection approaches. However, when multiple exposures co-occur and have a strong complex correlation structure, traditional statistical approaches are limited in accounting for multi-collinearity or standard error inflation. To reduce this problem, dimensionality reduction methods –such as principal component and factor analyses– are very valuable. However, those approaches focus on the transformation of the original variables thus leading to an interpretability issue. In addition, multiple co-occurring predictors can have non-linear and non-additive relationships with the health outcome and most of the statistical methods fail to model properly those relationships. Penalized regression methods are used in this context, such as least absolute shrinkage and selection operator (LASSO) and its numerous variants, but recent research highlighted that they perform poorly when there exists some type of dependence structure between the covariates. In recent years, Bayesian variable selection methods have been developed to handle jointly multiple correlated predictors and both non-linear and non-additive relationships, allowing the inclusion of prior information. Among these Bayesian methods stand out those employing spike-and-slab priors or shrinkage priors for features selection. These methods are now widely studied and employed within the environmental and clinical epidemiological literature. In this thesis work, we considered and compared three Bayesian variable selection models: the Bayesian kernel machine regression (BKMR), the Bayesian semiparametric regression (BSR) and the Bayesian LASSO (BLASSO). BKMR models the outcome-predictors associations using a kernel function of predictors, BSR employing natural splines, while BLASSO using a linear function of predictors and considering a shrinkage parameter that aims to perform variable selection by setting the regression coefficient to zero. We firstly evaluated the models’ goodness of fit and selection ability simulating several predictors with a complex correlation structure and with disparate relationships with a continuous outcome, considering data with different sample sizes. Subsequently, based on the results obtained in the simulations we applied this methods to two real case studies. The first is the ROCAV study (Risk Of Cardiovascular diseases and abdominal aortic Aneurism in Varese), in collaboration with the University of Insubria of Varese, with the aim of studying the impact of long-term exposure to environmental pollutants with respiratory function assessed by spirometry. Results showed that no pollutant overcome the others in terms of effect, but rather all may contribute to the relationship with the respiratory outcome. The second, in collaboration with the Italian Auxological Institute, leveraged data on weight loss in hospitalized obesity affected women from the Follow Up OBese patients at AUXOlogico institute (FUOBAUXO) cohort, with the aim to select most important predictors in explaining the association between biochemical, anthropometric and clinical variables on weight loss percentage in these patients over a period of 40 days. The result of this work led to the identification of subsets of variables potentially associated with the weight loss outcome for different types of patients based on age, gender and BMI level.

La ricerca epidemiologica mira a generare una migliore comprensione dei meccanismi sanitari e dell'eziologia della malattia. L'abbondanza di informazioni raccolte tramite cartelle cliniche elettroniche ha generato un problema di Big Data, rendendo l'identificazione di modelli predittivi dei rischi per la salute e dei possibili outcome climici ancora più complessa. Pertanto, sono aumentati in importanza e popolarità gli approcci statistici di selezione delle variabili. Tuttavia, i metodi di selezione delle variabili ancora oggi più utilizzati in epidemiologia si basano su conoscenze pregresse o utilizzano approcci automatizzati (es. regressione Stepwise). Quando però si combinano contemporaneamente più variabili d’esposizione con una complessa struttura di correlazione e con potenziali relazioni di tipo non lineare e non additive con l’outcome studiato, questi approcci risultano limitati nel tenere conto della multicollinearità. In questo contesto vengono utilizzati metodi di regressione penalizzati, come il least absolute shrinkage and selection operator (LASSO) e le sue numerose varianti, ma ricerche recenti hanno evidenziato che funzionano male quando sussiste un qualche tipo di struttura complessa di dipendenza tra le covariate. Negli ultimi anni, sono stati sviluppati metodi di selezione delle variabili appartenenti al framework Bayesiano, capaci di gestire congiuntamente più predittori, anche altamente correlati tra loro e con legami non lineari e non additivi con l’outcome. Tra questi metodi Bayesiani spiccano quelli che utilizzano priori spike-and-slab o priori shrinkage. Questi metodi sono ora ampiamente studiati e impiegati all'interno della letteratura epidemiologica ambientale e clinica. In questo lavoro abbiamo considerato e confrontato tre modelli di selezione delle variabili di tipo Bayesiano: il Bayesian kernel machine regression (BKMR), il Bayesian semiparametric regression (BSR) e il Bayesian LASSO (BLASSO). Il BKMR modellizza le associazioni tra predittori e outcome attraverso l'uso di una funzione kernel dei predittori, il BSR utilizzando spline naturali, mentre il BLASSO attraverso una funzione lineare dei predittori, considerando un parametro di shrinkage che mira ad effettuare selezione delle variabili ponendo a zero il coefficiente di regressione. In primo luogo, abbiamo valutato la bontà di adattamento e la capacità di selezione dei modelli attraverso uno studio di simulazione, generando diversi scenari con complessa struttura di correlazione e con relazioni disparate tra predittori e outcome. Successivamente, sulla base dei risultati ottenuti nelle simulazioni, abbiamo applicato questi metodi a due casi di studio reali. Il primo è lo studio ROCAV (Rischio di malattie cardiovascolari e aneurisma dell'aorta addominale a Varese), in collaborazione con l'Università dell'Insubria di Varese, con l'obiettivo di studiare l'impatto dell'esposizione a lungo termine a inquinanti ambientali con funzione respiratoria valutata mediante spirometria. I risultati hanno mostrato come non ci sia un inquinante che predomini sugli altri in termini di effetto, ma che tutti contribuiscono all’impatto sulla funzionalità respiratoria. Nel secondo studio (Follow Up OBese patients at AUXOlogico institute (FUOBAUXO)), in collaborazione con l'Istituto Auxologico Italiano, abbiamo studiato la relazione tra variabili antropometriche, cliniche, biochimiche, infiammatorie e metaboliche sulla perdita di peso percentuale in pazienti affetti da obesità in un periodo di ospedalizzazione di 40 giorni. Il risultato di questo lavoro ha portato all'individuazione di subsets di variabili potenzialmente associate con l’outcome di perdita di peso per diverse tipologie di paziente in base all’età, il genere e livello di BMI.

(2022). STATISTICAL METHODS FOR CORRELATED PREDICTORS IN PUBLIC HEALTH, WITH APPLICATIONS IN ENVIRONMENTAL AND CLINICAL EPIDEMIOLOGY. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2022).

STATISTICAL METHODS FOR CORRELATED PREDICTORS IN PUBLIC HEALTH, WITH APPLICATIONS IN ENVIRONMENTAL AND CLINICAL EPIDEMIOLOGY

PESENTI, NICOLA
2022

Abstract

La ricerca epidemiologica mira a generare una migliore comprensione dei meccanismi sanitari e dell'eziologia della malattia. L'abbondanza di informazioni raccolte tramite cartelle cliniche elettroniche ha generato un problema di Big Data, rendendo l'identificazione di modelli predittivi dei rischi per la salute e dei possibili outcome climici ancora più complessa. Pertanto, sono aumentati in importanza e popolarità gli approcci statistici di selezione delle variabili. Tuttavia, i metodi di selezione delle variabili ancora oggi più utilizzati in epidemiologia si basano su conoscenze pregresse o utilizzano approcci automatizzati (es. regressione Stepwise). Quando però si combinano contemporaneamente più variabili d’esposizione con una complessa struttura di correlazione e con potenziali relazioni di tipo non lineare e non additive con l’outcome studiato, questi approcci risultano limitati nel tenere conto della multicollinearità. In questo contesto vengono utilizzati metodi di regressione penalizzati, come il least absolute shrinkage and selection operator (LASSO) e le sue numerose varianti, ma ricerche recenti hanno evidenziato che funzionano male quando sussiste un qualche tipo di struttura complessa di dipendenza tra le covariate. Negli ultimi anni, sono stati sviluppati metodi di selezione delle variabili appartenenti al framework Bayesiano, capaci di gestire congiuntamente più predittori, anche altamente correlati tra loro e con legami non lineari e non additivi con l’outcome. Tra questi metodi Bayesiani spiccano quelli che utilizzano priori spike-and-slab o priori shrinkage. Questi metodi sono ora ampiamente studiati e impiegati all'interno della letteratura epidemiologica ambientale e clinica. In questo lavoro abbiamo considerato e confrontato tre modelli di selezione delle variabili di tipo Bayesiano: il Bayesian kernel machine regression (BKMR), il Bayesian semiparametric regression (BSR) e il Bayesian LASSO (BLASSO). Il BKMR modellizza le associazioni tra predittori e outcome attraverso l'uso di una funzione kernel dei predittori, il BSR utilizzando spline naturali, mentre il BLASSO attraverso una funzione lineare dei predittori, considerando un parametro di shrinkage che mira ad effettuare selezione delle variabili ponendo a zero il coefficiente di regressione. In primo luogo, abbiamo valutato la bontà di adattamento e la capacità di selezione dei modelli attraverso uno studio di simulazione, generando diversi scenari con complessa struttura di correlazione e con relazioni disparate tra predittori e outcome. Successivamente, sulla base dei risultati ottenuti nelle simulazioni, abbiamo applicato questi metodi a due casi di studio reali. Il primo è lo studio ROCAV (Rischio di malattie cardiovascolari e aneurisma dell'aorta addominale a Varese), in collaborazione con l'Università dell'Insubria di Varese, con l'obiettivo di studiare l'impatto dell'esposizione a lungo termine a inquinanti ambientali con funzione respiratoria valutata mediante spirometria. I risultati hanno mostrato come non ci sia un inquinante che predomini sugli altri in termini di effetto, ma che tutti contribuiscono all’impatto sulla funzionalità respiratoria. Nel secondo studio (Follow Up OBese patients at AUXOlogico institute (FUOBAUXO)), in collaborazione con l'Istituto Auxologico Italiano, abbiamo studiato la relazione tra variabili antropometriche, cliniche, biochimiche, infiammatorie e metaboliche sulla perdita di peso percentuale in pazienti affetti da obesità in un periodo di ospedalizzazione di 40 giorni. Il risultato di questo lavoro ha portato all'individuazione di subsets di variabili potenzialmente associate con l’outcome di perdita di peso per diverse tipologie di paziente in base all’età, il genere e livello di BMI.
ZAMBON, ANTONELLA
VERONESI, GIOVANNI
Epidemiological research aims to generate a better understanding of the health mechanisms and disease etiology. Nowadays, the abundance of clinical information collected via electronic medical records have made high-dimensional data extremely popular and the identification of predictive modeling of health risks and possible outcomes has become even more challenging. Therefore, many variable selection approaches have increased in importance and popularity. Nevertheless, the most frequently variable selection methods still used in epidemiology are based on prior knowledge or using stepwise automated selection approaches. However, when multiple exposures co-occur and have a strong complex correlation structure, traditional statistical approaches are limited in accounting for multi-collinearity or standard error inflation. To reduce this problem, dimensionality reduction methods –such as principal component and factor analyses– are very valuable. However, those approaches focus on the transformation of the original variables thus leading to an interpretability issue. In addition, multiple co-occurring predictors can have non-linear and non-additive relationships with the health outcome and most of the statistical methods fail to model properly those relationships. Penalized regression methods are used in this context, such as least absolute shrinkage and selection operator (LASSO) and its numerous variants, but recent research highlighted that they perform poorly when there exists some type of dependence structure between the covariates. In recent years, Bayesian variable selection methods have been developed to handle jointly multiple correlated predictors and both non-linear and non-additive relationships, allowing the inclusion of prior information. Among these Bayesian methods stand out those employing spike-and-slab priors or shrinkage priors for features selection. These methods are now widely studied and employed within the environmental and clinical epidemiological literature. In this thesis work, we considered and compared three Bayesian variable selection models: the Bayesian kernel machine regression (BKMR), the Bayesian semiparametric regression (BSR) and the Bayesian LASSO (BLASSO). BKMR models the outcome-predictors associations using a kernel function of predictors, BSR employing natural splines, while BLASSO using a linear function of predictors and considering a shrinkage parameter that aims to perform variable selection by setting the regression coefficient to zero. We firstly evaluated the models’ goodness of fit and selection ability simulating several predictors with a complex correlation structure and with disparate relationships with a continuous outcome, considering data with different sample sizes. Subsequently, based on the results obtained in the simulations we applied this methods to two real case studies. The first is the ROCAV study (Risk Of Cardiovascular diseases and abdominal aortic Aneurism in Varese), in collaboration with the University of Insubria of Varese, with the aim of studying the impact of long-term exposure to environmental pollutants with respiratory function assessed by spirometry. Results showed that no pollutant overcome the others in terms of effect, but rather all may contribute to the relationship with the respiratory outcome. The second, in collaboration with the Italian Auxological Institute, leveraged data on weight loss in hospitalized obesity affected women from the Follow Up OBese patients at AUXOlogico institute (FUOBAUXO) cohort, with the aim to select most important predictors in explaining the association between biochemical, anthropometric and clinical variables on weight loss percentage in these patients over a period of 40 days. The result of this work led to the identification of subsets of variables potentially associated with the weight loss outcome for different types of patients based on age, gender and BMI level.
Selezione variabili; Alta correlazione; BKMR; Obesità; Inquinamento
Variable Selection; Correlated Exposures; BKMR; Obesity; Inquinamento
MED/01 - STATISTICA MEDICA
English
SANITA' PUBBLICA
34
2020/2021
(2022). STATISTICAL METHODS FOR CORRELATED PREDICTORS IN PUBLIC HEALTH, WITH APPLICATIONS IN ENVIRONMENTAL AND CLINICAL EPIDEMIOLOGY. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2022).
File in questo prodotto:
File Dimensione Formato  
phd_unimib_718414.pdf

embargo fino al 21/02/2025

Descrizione: STATISTICAL METHODS FOR CORRELATED PREDICTORS IN PUBLIC HEALTH, WITH APPLICATIONS IN ENVIRONMENTAL AND CLINICAL EPIDEMIOLOGY
Tipologia di allegato: Doctoral thesis
Dimensione 4.05 MB
Formato Adobe PDF
4.05 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10281/365518
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact