Clustering is a cornerstone technique in many scientific disciplines, employed in the analysis of myriad data types. Its primary goal is to partition an unlabeled dataset into distinct, intrinsic groupings, revealing potential underlying structures or segmenting data based on researcher-defined significance. The emphasis is therefore on data understanding. Among the wide range of data types that can be clustered, this thesis focuses on mixed-type data, characterized by the simultaneous presence of diverse measurement scales within a singular dataset. Examples of such data can be drawn from healthcare, where a patient's record might encompass numerical measurements such as age or body mass index, binary indicators for the presence or absence of specific symptoms, categorical data like blood type, and ordinal values such as pain severity ratings. While mixed-type data presents a rich reservoir of information, its heterogeneity poses complex challenges, particularly in clustering, where striking a balance among these diverse data types is crucial. Building on the challenges of clustering mixed-type data, an additional layer of complexity arises from the inherent errors present in real-world data collection. It is an idealistic assumption for traditional clustering algorithms to expect error-free data, as the variability inherent in human recall or sensor inaccuracies underscores the ubiquity of such perturbations. While these measurement errors have the potential to profoundly influence the accuracy of clustering results, there is no assurance that the available and most used clustering methods are robust with respect to cluster recovery when the data pattern is hide by errors, since algorithms are not generally tested in these situations. Especially the intersection of measurement errors and mixed-type data clustering remains an underexplored domain. In this thesis, we investigated the relatively uncharted territory of mixed-data clustering in the presence of measurement errors and misclassification. Our primary objective was to comprehensively assess the performance of five pivotal clustering algorithms for mixed data: KAMILA, PDQ, k-prototypes, HyDaP, and Modha-Spangler. These were selected to span the range of available methods, each presenting distinct features and strengths. Leveraging advanced supercomputing resources, we conducted an extensive Monte Carlo study to examine these algorithms under diverse error scenarios. Our methodology involved designing functions to generate simulated mixed-type data and errors, adapting clustering evaluation measures like the Gamma index to cater to mixed-type data, and ensuring their compatibility across the chosen algorithms. Beyond simulations, the concept of measurement error in clustering was formalized, with relevant error definitions contextualized to this domain. Specifically, an error has been defined as non-differential or differential depending on its uniform or different influence on the clusters. Throughout the thesis, the former type was used. Our empirical exploration also delved into real-world datasets, analyzing how measurement errors and misclassification influence both the determination of optimal cluster count and the subsequent clustering outcomes. In particular, the Prediction Strength method was used ant it was tailored to each algorithm. This comprehensive analysis has illuminated the multifaceted behaviors of various clustering algorithms when confronted with perturbations. Each algorithm, with its unique design, has exhibited specific sensitivities and resilience, highlighting the heterogeneous impact of data errors on clustering results.

Il clustering è una tecnica fondamentale in molte discipline scientifiche, utilizzata nell'analisi di innumerevoli tipi di dati. Il suo obiettivo primario è di suddividere un insieme di dati non etichettato in gruppi distinti e intrinseci, rivelando potenziali strutture sottostanti o segmentando i dati in base all'importanza definita dal ricercatore. Tra l'ampia gamma di tipi di dati che possono essere usati nel clustering, questa tesi si concentra sui dati di tipo misto, caratterizzati dalla presenza simultanea di diverse scale di misurazione all'interno di un singolo set di dati. Esempi di tali dati possono essere tratti dall'ambito medico, dove il record di un paziente potrebbe includere misurazioni numeriche come età o indice di massa corporea, indicatori binari per la presenza o l'assenza di sintomi specifici, dati categorici come il gruppo sanguigno e valori ordinali come la valutazione della gravità del dolore. Sebbene i dati di tipo misto presentino una ricca fonte di informazioni, la loro eterogeneità pone sfide complesse, in particolare nel clustering, dove è cruciale trovare un equilibrio tra questi diversi tipi di dati. In aggiunta alle sfide di usare il clustering su dati di tipo misto, emerge un ulteriore strato di complessità dato dagli errori intrinseci presenti nei dati raccolti nel mondo reale. È un'ipotesi idealistica per gli algoritmi di clustering tradizionali aspettarsi dati senza errori. Fattori come le imperfezioni nella raccolta di dati dovute al ricordo umano o alle inesattezze degli strumenti rendono infatti tali errori ampiamente presenti. Sebbene questi errori di misurazione abbiano il potenziale di influenzare profondamente l'accuratezza dei risultati del clustering, non c'è certezza che i metodi di clustering disponibili e più utilizzati siano robusti rispetto al recupero del cluster quando il modello di dati è nascosto dagli errori, poiché gli algoritmi non sono generalmente testati in queste situazioni. In particolare, l'intersezione tra errori di misurazione e clustering di dati di tipo misto rimane un dominio poco studiato. Questa tesi si avventura nell'ambito poco esplorato del clustering di dati misti in presenza di errori di misurazione e misclassificazione. Il nostro obiettivo primario era di valutare complessivamente le prestazioni di cinque algoritmi di clustering fondamentali per dati misti: KAMILA, PDQ, k-prototypes, HyDaP e Modha-Spangler. Questi sono stati selezionati per coprire l'intera gamma di metodi disponibili, ognuno con caratteristiche e punti di forza distinti. Abbiamo condotto un ampio studio di Monte Carlo per esaminare questi algoritmi in diversi scenari di errore. La nostra metodologia ha coinvolto la progettazione di funzioni per generare dati simulati di tipo misto ed errori, adattando misure di valutazione del clustering come l'indice Gamma per soddisfare i dati di tipo misto e garantendo la loro compatibilità con gli algoritmi scelti. Oltre alle simulazioni, il concetto di errore di misurazione nel clustering è stato formalizzato, con definizioni di errore pertinenti contestualizzate a questo dominio. In particolare, un errore è stato definito come non differenziale o differenziale a seconda della sua influenza uniforme o diversa sui cluster. La nostra esplorazione empirica ha anche utilizzato un set di dati reali, analizzando come gli errori di misurazione e di misclassificazione influenzano sia la determinazione del numero ottimale di cluster sia i successivi risultati di clustering. In particolare, è stato utilizzato il Prediction Strength method, personalizzandone l'implementazione per ogni algoritmo. Questa analisi completa ha illuminato i diversi comportamenti degli algoritmi di clustering quando confrontati con perturbazioni. Ogni algoritmo, unico nella sua costruzione, ha mostrato specifiche caratteristiche di sensibilità e resilienza, evidenziando l'impatto eterogeneo degli errori sui dati sui risultati del clustering.

(2024). On the Effects of Measurement Error and Misclassification on Clustering Algorithms for Mixed-Type Data. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).

On the Effects of Measurement Error and Misclassification on Clustering Algorithms for Mixed-Type Data

VERONESI, VALENTINA
2024

Abstract

Clustering is a cornerstone technique in many scientific disciplines, employed in the analysis of myriad data types. Its primary goal is to partition an unlabeled dataset into distinct, intrinsic groupings, revealing potential underlying structures or segmenting data based on researcher-defined significance. The emphasis is therefore on data understanding. Among the wide range of data types that can be clustered, this thesis focuses on mixed-type data, characterized by the simultaneous presence of diverse measurement scales within a singular dataset. Examples of such data can be drawn from healthcare, where a patient's record might encompass numerical measurements such as age or body mass index, binary indicators for the presence or absence of specific symptoms, categorical data like blood type, and ordinal values such as pain severity ratings. While mixed-type data presents a rich reservoir of information, its heterogeneity poses complex challenges, particularly in clustering, where striking a balance among these diverse data types is crucial. Building on the challenges of clustering mixed-type data, an additional layer of complexity arises from the inherent errors present in real-world data collection. It is an idealistic assumption for traditional clustering algorithms to expect error-free data, as the variability inherent in human recall or sensor inaccuracies underscores the ubiquity of such perturbations. While these measurement errors have the potential to profoundly influence the accuracy of clustering results, there is no assurance that the available and most used clustering methods are robust with respect to cluster recovery when the data pattern is hide by errors, since algorithms are not generally tested in these situations. Especially the intersection of measurement errors and mixed-type data clustering remains an underexplored domain. In this thesis, we investigated the relatively uncharted territory of mixed-data clustering in the presence of measurement errors and misclassification. Our primary objective was to comprehensively assess the performance of five pivotal clustering algorithms for mixed data: KAMILA, PDQ, k-prototypes, HyDaP, and Modha-Spangler. These were selected to span the range of available methods, each presenting distinct features and strengths. Leveraging advanced supercomputing resources, we conducted an extensive Monte Carlo study to examine these algorithms under diverse error scenarios. Our methodology involved designing functions to generate simulated mixed-type data and errors, adapting clustering evaluation measures like the Gamma index to cater to mixed-type data, and ensuring their compatibility across the chosen algorithms. Beyond simulations, the concept of measurement error in clustering was formalized, with relevant error definitions contextualized to this domain. Specifically, an error has been defined as non-differential or differential depending on its uniform or different influence on the clusters. Throughout the thesis, the former type was used. Our empirical exploration also delved into real-world datasets, analyzing how measurement errors and misclassification influence both the determination of optimal cluster count and the subsequent clustering outcomes. In particular, the Prediction Strength method was used ant it was tailored to each algorithm. This comprehensive analysis has illuminated the multifaceted behaviors of various clustering algorithms when confronted with perturbations. Each algorithm, with its unique design, has exhibited specific sensitivities and resilience, highlighting the heterogeneous impact of data errors on clustering results.
ANTOLINI, LAURA
MARKATOU, MARIANTHI
Clustering; Dati di tipo misto; Errore di misura; Misclassificazione; Studio simulativo
Clustering; Mixed-type data; Measurement error; Misclassification; Monte Carlo study
MED/01 - STATISTICA MEDICA
English
27-feb-2024
36
2022/2023
embargoed_20250227
(2024). On the Effects of Measurement Error and Misclassification on Clustering Algorithms for Mixed-Type Data. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).
File in questo prodotto:
File Dimensione Formato  
phd_unimib_876340.pdf

embargo fino al 27/02/2025

Descrizione: On the Effects of Measurement Error and Misclassification on Clustering Algorithms for Mixed-Type Data
Tipologia di allegato: Doctoral thesis
Dimensione 13.85 MB
Formato Adobe PDF
13.85 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10281/465020
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact