Recent advances in several research fields of Life Sciences, such as Bioinformatics, Computational Biology and Medical Imaging, are generating huge amounts of data that require effective computational tools to be analyzed, while other disciplines, like Systems Biology, typically deal with mathematical models of biochemical networks, where issues related to the lack of quantitative parameters and the efficient description of the emergent dynamics must be faced. In these contexts, High-Performance Computing (HPC) infrastructures represent a fundamental means to tackle these problems, allowing for both real-time processing of data and fast simulations. In the latest years, the use of general-purpose many-core devices, such as Many Integrated Core coprocessors and Graphics Processing Units (GPUs), gained ground. The second ones, which are pervasive, relatively cheap and extremely efficient parallel many-core coprocessors capable of achieving tera-scale performance on common workstations, have been extensively exploited in the work presented in this thesis. Moreover, some of the problems described here require the application of Computational Intelligence (CI) methods. As a matter fact, the Parameter Estimation problem in Systems Biology, the Haplotype Assembly problem in Genome Analysis as well as the enhancement and segmentation of medical images characterized by a bimodal gray level intensity histogram can be viewed as optimization problems, which can be effectively addressed by relying on CI approaches. In the case of the Parameter Estimation problem, Evolutionary and Swarm Intelligence techniques were exploited and coupled with novel GPU-powered simulators-designed and developed in this thesis to execute both coarse-grained and fine-grained simulations-which were used to perform in a parallel fashion the biochemical simulations underlying the fitness functions required by these population-based approaches. The Haplotype Assembly and the enhancement of medical images problems were both addressed by means of Genetic Algorithms (GAs), which were shown to be very effective in solving combinatorial problems. Since the proposed approaches based on GAs are computationally demanding, a Master-Slave paradigm was exploited to distribute the workload, reducing the required running time. The overall results show that coupling HPC and CI techniques is advantageous to address these problems and speed up the computational analyses in these research fields.

Nuovi ed efficienti metodi computazionali sono attualmente necessari per elaborare la ingente mole di dati generata dalle più recenti tecnologie sviluppate in svariati settori delle scienze della vita, tra cui la biologia computazionale e l’imaging medicale. In altre discipline, come la biologia dei sistemi in cui si modellano matematicamente le reti biochimiche, è necessario affrontare problemi relativi alla mancanza di dati quantitativi, e allo stesso tempo simulare efficacemente le dinamiche emergenti di queste reti. In questi contesti applicativi, le infrastrutture di calcolo ad elevate prestazioni si stanno rivelando uno strumento fondamentale per affrontare e risolvere i problemi che insorgono, in quanto permettono sia di elaborare in tempo reale ingenti quantità di dati sia di eseguire simulazioni in modo efficace ed efficiente. Durante gli ultimi anni si sta sempre di più radicando l’uso di dispositivi general-purpose caratterizzati da decine, centinaia o migliaia di core di calcolo, come ad esempio i coprocessori Many Integrated Cores e le Graphics Processing Units (GPU). L’uso delle GPU è motivato sia dalla efficienza computazionale che possono raggiungere (nell’ordine dei teraflop) grazie alle migliaia di core a disposizione sia dall’efficienza energetica che le contraddistingue. Oltre al calcolo ad elevate prestazioni, in questa tesi si sono sfruttate tecniche di intelligenza computazionale per affrontare problemi di ottimizzazione, come ad esempio la stima di parametri nella biologia dei sistemi, l’inferenza degli aplotipi nella bioinformatica, l’enhancement e la segmentazione di immagini medicali caratterizzate da istogrammi bimodali dei livelli di grigio che costituiscono le immagini stesse. La stima di parametri è stata affrontata sfruttando approcci di computazione evolutiva e di swarm intelligence insieme a nuovi simulatori accelerati su GPU - sviluppati appositamente per eseguire in parallelo sia molte simulazioni corrispondenti a diverse parametrizzazione dei modelli matematici che una singola simulazione di reti biochimiche a larga scala - permettendo di ridurre drasticamente il tempo di calcolo richiesto per calcolare le funzioni di fitness di questi approcci. Grazie alla loro efficacia nel risolvere i problemi combinatori, gli Algoritmi Genetici sono stati utilizzati per risolvere i problemi relativi alla ricostruzione degli aplotipi e l’enhancement delle immagini medicali. I due metodi proposti sono stati sviluppati sfruttando il paradigma Master-Slave che permette di distribuire il gravoso carico computazionale richiesto per risolvere questi problemi, riducendo notevolmente i tempi di calcolo. I risultati ottenuti in questa tesi mostrano come l’utilizzo del calcolo ad elevate prestazioni, unito alle tecniche di intelligenza computazionale, rappresenti una strategia efficace per la risoluzione di questi problemi, permettendo di effettuare analisi computazionali complesse richieste nelle scienze della vita.

(2019). High-Performance Computing to tackle complex problems in life sciences. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2019).

High-Performance Computing to tackle complex problems in life sciences

TANGHERLONI, ANDREA
2019-02-15

Abstract

Nuovi ed efficienti metodi computazionali sono attualmente necessari per elaborare la ingente mole di dati generata dalle più recenti tecnologie sviluppate in svariati settori delle scienze della vita, tra cui la biologia computazionale e l’imaging medicale. In altre discipline, come la biologia dei sistemi in cui si modellano matematicamente le reti biochimiche, è necessario affrontare problemi relativi alla mancanza di dati quantitativi, e allo stesso tempo simulare efficacemente le dinamiche emergenti di queste reti. In questi contesti applicativi, le infrastrutture di calcolo ad elevate prestazioni si stanno rivelando uno strumento fondamentale per affrontare e risolvere i problemi che insorgono, in quanto permettono sia di elaborare in tempo reale ingenti quantità di dati sia di eseguire simulazioni in modo efficace ed efficiente. Durante gli ultimi anni si sta sempre di più radicando l’uso di dispositivi general-purpose caratterizzati da decine, centinaia o migliaia di core di calcolo, come ad esempio i coprocessori Many Integrated Cores e le Graphics Processing Units (GPU). L’uso delle GPU è motivato sia dalla efficienza computazionale che possono raggiungere (nell’ordine dei teraflop) grazie alle migliaia di core a disposizione sia dall’efficienza energetica che le contraddistingue. Oltre al calcolo ad elevate prestazioni, in questa tesi si sono sfruttate tecniche di intelligenza computazionale per affrontare problemi di ottimizzazione, come ad esempio la stima di parametri nella biologia dei sistemi, l’inferenza degli aplotipi nella bioinformatica, l’enhancement e la segmentazione di immagini medicali caratterizzate da istogrammi bimodali dei livelli di grigio che costituiscono le immagini stesse. La stima di parametri è stata affrontata sfruttando approcci di computazione evolutiva e di swarm intelligence insieme a nuovi simulatori accelerati su GPU - sviluppati appositamente per eseguire in parallelo sia molte simulazioni corrispondenti a diverse parametrizzazione dei modelli matematici che una singola simulazione di reti biochimiche a larga scala - permettendo di ridurre drasticamente il tempo di calcolo richiesto per calcolare le funzioni di fitness di questi approcci. Grazie alla loro efficacia nel risolvere i problemi combinatori, gli Algoritmi Genetici sono stati utilizzati per risolvere i problemi relativi alla ricostruzione degli aplotipi e l’enhancement delle immagini medicali. I due metodi proposti sono stati sviluppati sfruttando il paradigma Master-Slave che permette di distribuire il gravoso carico computazionale richiesto per risolvere questi problemi, riducendo notevolmente i tempi di calcolo. I risultati ottenuti in questa tesi mostrano come l’utilizzo del calcolo ad elevate prestazioni, unito alle tecniche di intelligenza computazionale, rappresenti una strategia efficace per la risoluzione di questi problemi, permettendo di effettuare analisi computazionali complesse richieste nelle scienze della vita.
BESOZZI, DANIELA
LEPORATI, ALBERTO OTTAVIO
Recent advances in several research fields of Life Sciences, such as Bioinformatics, Computational Biology and Medical Imaging, are generating huge amounts of data that require effective computational tools to be analyzed, while other disciplines, like Systems Biology, typically deal with mathematical models of biochemical networks, where issues related to the lack of quantitative parameters and the efficient description of the emergent dynamics must be faced. In these contexts, High-Performance Computing (HPC) infrastructures represent a fundamental means to tackle these problems, allowing for both real-time processing of data and fast simulations. In the latest years, the use of general-purpose many-core devices, such as Many Integrated Core coprocessors and Graphics Processing Units (GPUs), gained ground. The second ones, which are pervasive, relatively cheap and extremely efficient parallel many-core coprocessors capable of achieving tera-scale performance on common workstations, have been extensively exploited in the work presented in this thesis. Moreover, some of the problems described here require the application of Computational Intelligence (CI) methods. As a matter fact, the Parameter Estimation problem in Systems Biology, the Haplotype Assembly problem in Genome Analysis as well as the enhancement and segmentation of medical images characterized by a bimodal gray level intensity histogram can be viewed as optimization problems, which can be effectively addressed by relying on CI approaches. In the case of the Parameter Estimation problem, Evolutionary and Swarm Intelligence techniques were exploited and coupled with novel GPU-powered simulators-designed and developed in this thesis to execute both coarse-grained and fine-grained simulations-which were used to perform in a parallel fashion the biochemical simulations underlying the fitness functions required by these population-based approaches. The Haplotype Assembly and the enhancement of medical images problems were both addressed by means of Genetic Algorithms (GAs), which were shown to be very effective in solving combinatorial problems. Since the proposed approaches based on GAs are computationally demanding, a Master-Slave paradigm was exploited to distribute the workload, reducing the required running time. The overall results show that coupling HPC and CI techniques is advantageous to address these problems and speed up the computational analyses in these research fields.
Calcolo parallelo; Soft Computing; Biologia dei sistemi; Bioinformatica; Immagini biomedicali
HPC; Soft Computing; Systems Biology; Haplotype assembly; Immagini biomedicali
INF/01 - INFORMATICA
English
INFORMATICA - 87R
31
2017/2018
(2019). High-Performance Computing to tackle complex problems in life sciences. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2019).
File in questo prodotto:
File Dimensione Formato  
phd_unimib_742819.pdf

accesso aperto

Descrizione: tesi di dottorato
Dimensione 13.86 MB
Formato Adobe PDF
13.86 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: http://hdl.handle.net/10281/241217
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact