Graphical models based on Directed Acyclic Graphs (DAGs) are a very common tool in many scientific areas for the investigation of dependencies among variables. Typically, the objective is to infer models from the data or measuring dependence relationships between variables. The set of all (marginal and) conditional independencies encoded by a DAG determines its Markov property. However, it is well known that we cannot distinguish between DAGs encoding the same set of conditional independencies (Markov equivalent DAGs) using observational data. Markov equivalent DAGs are then collected in equivalence classes each one represented by an Essential Graph (EG), also called Completed Partially Directed Graph (CPDAG). When the interest is in model selection it is then convenient to explore the EG space, rather than the whole DAG space, even if the number of EGs increases super-exponentially with the number of vertices. An exhaustive enumeration of all EGs is not feasible and so structural learning in the EG space has been confined to small dimensional problems. However, to avoid such limit, several methods based on Markov chains have been proposed in recent years. In many applications (such as biology and genomics) we have both observational and interventional data produced after an exogenous perturbation of some variables or from randomized intervention experiments. The concept of intervention is strictly related to the causal interpretation of a DAG. Interventions destroy the original causal dependency on the intervened variables and modify the Markov property of a DAG. This results in a finer partition of DAGs into equivalence classes, each one represented by an Interventional Essential Graph (I-EG). Hence, model selection of DAGs in the presence of observational and interventional data can be performed over the I-EG space, thus improving the identifiability of the true data generating model. In this work we deal with the problem of Gaussian DAG model selection from a Bayesian perspective. In particular, we adopt an objective Bayes approach based on the notion of fractional Bayes factor. We then obtain a closed formula to compute the marginal likelihood of an I-EG given a collection of observational and interventional data. Next, we construct a Markov chain to explore the I-EG space possibly accounting for sparsity constraints. Hence, we propose an MCMC algorithm to approximate the posterior distribution of I-EGs and provide a quanti_cation of inferential uncertainty by measuring some features of interest, such as probabilities of edge inclusion. We apply our methodology, that we name Objective Bayesian Interventional Essential graph Search (OBIES) to simulation settings and to the analysis of protein-signaling data, where interventional data consists in a collection of observations measured under different experimental conditions.

I modelli grafici basati sull'utilizzo di grafi direzionati (Directed Acyclic Graphs, DAG) hanno acquisito negli ultimi decenni un'ampia popolarità per lo studio della dipendenza tra variabili in molteplici ambiti scientifici. Tipicamente lo scopo è fare inferenza su un modello attraverso i dati, ovvero misurare relazioni di dipendenza tra variabili. La famiglia di indipendenze (marginali) e condizionali codificate dal DAG determinano la sua proprietà markoviana. DAG che racchiudono le medesime indipendenze condizionali sono detti Markov equivalenti. È tuttavia noto che l'utilizzo di dati di natura puramente osservazionale non consenta di "distinguere" tra DAG Markov equivalenti. Questi sono quindi partizionati in classi di equivalenza, ciascuna delle quali viene rappresentata da un grafo a catena detto essential graph. Quando l'obiettivo è fare inferenza sul modello generatore dei dati è quindi più conveniente esplorare lo spazio degli essential graph (rispetto allo spazio dei DAG), sebbene la dimensione di questo cresca "più che esponenzialmente" nel numero di variabili (nodi del grafo). Per lungo tempo lo studio degli essential graph è stato quindi confinato a "dimensioni" modeste dello spazio. Tuttavia, per superare tale limite, negli ultimi anni sono stati proposti diversi metodi basati sull'utilizzo di catene di Markov. In diverse applicazioni (di carattere tipicamente biologico e genomico) si dispone di dati di tipo "interventistico", ossia prodotti a seguito di perturbazioni esogene di variabili o "esperimenti randomizzati". La nozione di intervento è strettamente legata all'interpretazione causale del DAG. Intervenendo su una variabile è possibile "rimuovere" la dipendenza di altre variabili sulla stessa, ossia modificare la proprietà markoviana del DAG. Questo determina una partizione dei DAG in classi di equivalenza di dimensione "più contenuta", ciascuna delle quali viene rappresentata da un interventional essential graph. Pertanto, laddove si disponga di dati di natura interventistica, la selezione del modello generatore dei dati può essere rivolta all'esplorazione di tale spazio; in tal modo è possibile "migliorare" l'identificazione del DAG generatore dei dati. Nel presente lavoro si affronta il problema della selezione di modelli grafici gaussiani attraverso una metodologia di tipo bayesiano. Nello specifico, si adotta un approccio oggettivo basato sulla nozione di fractional Bayes factor. A questo scopo, ricaviamo una formula per il calcolo della verosimiglianza marginale di un interventional essential graph in presenza di dati di natura osservazionale e interventistica. In seguito, procediamo alla costruzione di una catena di Markov per l'esplorazione dello spazio degli interventional essential graph sotto condizioni di sparsità. Proponiamo quindi un algoritmo di tipo MCMC per approssimare la posterior distribution degli interventional essential graph e "quantificare" misure di incertezza come la probabilità di inclusione di un edge. Applichiamo infine la metodologia proposta, denominata Objective Bayesian Interventional Essential graph Search, a studi di simulazione e per l'analisi di protein-signaling data, laddove dati di natura interventistica corrispondono a rilevazioni effettuate sotto differenti condizioni sperimentali.

(2018). Learning Markov Equivalence Classes of Gaussian DAGs via Observational and Interventional Data: an Objective Bayes Approach. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2018).

Learning Markov Equivalence Classes of Gaussian DAGs via Observational and Interventional Data: an Objective Bayes Approach

CASTELLETTI, FEDERICO
2018

Abstract

Graphical models based on Directed Acyclic Graphs (DAGs) are a very common tool in many scientific areas for the investigation of dependencies among variables. Typically, the objective is to infer models from the data or measuring dependence relationships between variables. The set of all (marginal and) conditional independencies encoded by a DAG determines its Markov property. However, it is well known that we cannot distinguish between DAGs encoding the same set of conditional independencies (Markov equivalent DAGs) using observational data. Markov equivalent DAGs are then collected in equivalence classes each one represented by an Essential Graph (EG), also called Completed Partially Directed Graph (CPDAG). When the interest is in model selection it is then convenient to explore the EG space, rather than the whole DAG space, even if the number of EGs increases super-exponentially with the number of vertices. An exhaustive enumeration of all EGs is not feasible and so structural learning in the EG space has been confined to small dimensional problems. However, to avoid such limit, several methods based on Markov chains have been proposed in recent years. In many applications (such as biology and genomics) we have both observational and interventional data produced after an exogenous perturbation of some variables or from randomized intervention experiments. The concept of intervention is strictly related to the causal interpretation of a DAG. Interventions destroy the original causal dependency on the intervened variables and modify the Markov property of a DAG. This results in a finer partition of DAGs into equivalence classes, each one represented by an Interventional Essential Graph (I-EG). Hence, model selection of DAGs in the presence of observational and interventional data can be performed over the I-EG space, thus improving the identifiability of the true data generating model. In this work we deal with the problem of Gaussian DAG model selection from a Bayesian perspective. In particular, we adopt an objective Bayes approach based on the notion of fractional Bayes factor. We then obtain a closed formula to compute the marginal likelihood of an I-EG given a collection of observational and interventional data. Next, we construct a Markov chain to explore the I-EG space possibly accounting for sparsity constraints. Hence, we propose an MCMC algorithm to approximate the posterior distribution of I-EGs and provide a quanti_cation of inferential uncertainty by measuring some features of interest, such as probabilities of edge inclusion. We apply our methodology, that we name Objective Bayesian Interventional Essential graph Search (OBIES) to simulation settings and to the analysis of protein-signaling data, where interventional data consists in a collection of observations measured under different experimental conditions.
CONSONNI, GUIDO
Bayesian_modelling; Fractional_Bayes; Gaussian_DAGs; Essential_graph; Interventional_data
Bayesian_modelling; Fractional_Bayes; Gaussian_DAGs; Essential_graph; Interventional_data
SECS-S/01 - STATISTICA
English
14-mar-2018
STATISTICA E MATEMATICA PER LA FINANZA - 82R
30
2016/2017
open
(2018). Learning Markov Equivalence Classes of Gaussian DAGs via Observational and Interventional Data: an Objective Bayes Approach. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2018).
File in questo prodotto:
File Dimensione Formato  
phd_unimib_798523.pdf

accesso aperto

Descrizione: tesi di dottorato
Tipologia di allegato: Doctoral thesis
Dimensione 1.64 MB
Formato Adobe PDF
1.64 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10281/199179
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact