A Flexible Pipeline for Electroencephalographic Signal Processing and Management

Saibene, A

The electroencephalogram (EEG) provides the non-invasive recording of brain activities and functions as time-series, characterized by a temporal and spatial (sensor-dependent) resolution, and by brain condition-bounded frequency bands. Moreover, it presents some cost-effective device solutions. However, the resulting EEG signals are non-stationary, time-varying, and heterogeneous, being recorded from different subjects and being influenced by specific experimental paradigms, environmental conditions, and devices. Moreover, they are easily affected by noise and they can be recorded for a limited time, thus they provide a restricted number of brain conditions to work with. Therefore, in this thesis a flexible pipeline for signal processing and management is proposed to have a better understanding of the EEG signals and exploit them for a variety of applications. Moreover, the proposed flexible pipeline is divided in 4 modules concerning signal pre-processing, normalization, feature computation and management, and EEG data classification. The EEG signal pre-processing exploits the multivariate empirical mode decomposition (MEMD) to decompose the signal in oscillatory modes, called intrinsic mode functions (IMFs), and uses an entropy criterion to select the most relevant IMFs that should maintain the natural brain dynamics, while discarding uninformative components. The resulting relevant IMFs are then exploited for signal substitution and data augmentation. Even though MEMD is adapt to the EEG signal non-stationarity, further processing steps should be undertaken to mitigate these data heterogeneity. Therefore, a normalization step is introduced to obtain comparable data inter- and intra-subject and between different experimental conditions, allowing the extraction of general features in the time, frequency, and time-frequency domain for EEG signal characterization. Even though the use of a variety of feature types may provide new data patterns, they may also present some redundancies and increase the risk of incurring in classification problems like curse of dimensionality and overfitting. Therefore, a feature selection based on evolutionary algorithms is proposed to have a completely data-driven approach, exploiting both supervised and unsupervised learning models, and suggesting new stopping criteria for a modified genetic algorithm implementation. Moreover, the use of different learning models may affect the discrimination of different brain conditions. The introduction of deep learning models may provide a strategy to learn directly from the available data. By suggesting a proper input formulation it could be possible to maintain the EEG data time, frequency, and spatial information, while avoiding too complex architectures. Therefore, using different processing steps and approaches may provide general or experimental specific strategies to manage the EEG signal, while maintaining its natural characteristics.

L'elettroencefalogramma (EEG) fornisce registrazioni non-invasive delle attività e delle funzioni cerebrali sotto forma di serie temporali, a loro volta caratterizzate da una risoluzione temporale e spaziale (dipendente dai sensori), e da bande di frequenza specifiche per alcuni tipi di condizioni cerebrali. Tuttavia, i segnali EEG risultanti sono non-stazionari, cambiano nel tempo e sono eterogenei, essendo prodotti da differenti soggetti e venendo influenzati da specifici paradigmi sperimentali, condizioni ambientali e dispositivi. Inoltre, questi segnali sono facilmente soggetti a rumore e possono venire acquisiti per un tempo limitato, fornendo un numero ristretto di condizioni cerebrali sulle quali poter lavorare. Pertanto, in questa tesi viene proposta una pipeline flessibile per l'elaborazione e la gestione dei segnali EEG, affinchè possano essere più facilmente comprensibili e quindi più facilmente sfruttabili in diversi tipi di applicazioni. Inoltre, la pipeline flessibile proposta è divisa in quattro moduli riguardanti la pre-elaborazione del segnale, la sua normalizzazione, l'estrazione e la gestione di feature e la classificazione dei dati EEG. La pre-elaborazione del segnale EEG sfrutta la multivariate empirical mode decomposition (MEMD) per scomporre il segnale nelle sue modalità oscillatorie, chiamate intrinsic mode function (IMF), ed usa un criterio basato sull'entropia per selezionare le IMF più relevanti. Queste IMF dovrebbero mantenere le naturali dinamiche cerebrali e rimuovere componenti non-informative. Le risultati IMF rilevanti sono in seguito sfruttate per sostituire il segnale o aumentare la numerosità dei dati. Nonostante MEMD sia adatto alla non-stazionarietà del segnale EEG, ulteriori passi computazionali dovrebbero essere svolti per mitigare la caratteristica eterogeneità di questi dati. Pertanto, un passo di normalizzazione viene introdotto per ottenere dati comparabili per uno stesso soggetto o più soggetti e tra differenti condizioni sperimentali, quindi permettendo di estrarre feature nel dominio temporale, frequenziale e tempo-frequenziale per meglio caratterizzare il segnale EEG. Nonostante l'uso di un insieme di feature differenti fornisca la possibilità di trovare nuovi pattern nei dati, può altresì presentare alcune ridondanze ed incrementare il rischio di incorrere nella curse of dimensionality o nell'overfitting durante la classificazione. Pertanto, viene proposta una selezione delle feature basata sugli algoritmi evolutivi con un approccio completamente guidato dai dati. Inoltre, viene proposto l'utilizzo di modelli di apprendimento non o supervisionati e di nuovi criteri di stop per un algoritmo genetico modificato. Oltretutto, l'uso di diversi modelli di apprendimento automatico può influenzare il riconoscimento di differenti condizioni cerebrali. L'introduzione di modelli di deep learning potrebbe fornire una strategia in grado di apprendere informazioni direttamente dai dati disponibili, senza ulteriori elaborazioni. Fornendo una formulazione dell'input appropriata, le informazioni temporali, frequenziali e spaziali caratterizzanti i dati EEG potrebbero essere mantenute, evitando l'introduzione di architetture troppo complesse. Pertato, l'utilizzo di differenti processi ed approcci di elaborazione potrebbe fornire strategie più generiche o più legate a specifici esperimenti per gestire il segnale EEG, mantenendone le sue naturali caratteristiche.

(2022). A Flexible Pipeline for Electroencephalographic Signal Processing and Management. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2022).