Semantic Table Annotation for Large-Scale Data Enrichment

Cutrona, V

Data are the new oil, and they represent one of the main value-creating assets. Data analytics has become a crucial component in scientific studies and business decisions in the last years and has brought researchers to define novel methodologies to represent, manage, and analyze data. Simultaneously, the growth of computing power enabled the analysis of huge amounts of data, allowing people to extract useful information from collected data. Predictive analytics plays a crucial role in many applications since it provides more knowledge to support business decisions. Among the statistical techniques available to support predictive analytics, machine learning is the technique that features capabilities to solve many different classes of problems, and that has benefited the most from computing power growth. In the last years, more complex and accurate machine learning models have been proposed, requiring an increasing amount of current and historical data to perform the best. The demand for such a massive amount of data to train machine learning models represents an initial hurdle for data scientists because the information needed is usually scattered in different data sets that have to be manually integrated. As a consequence, data enrichment has become a critical task in the data preparation process, and nowadays, most of all the data science projects involve a time-costly data preparation process aimed at enriching a core data set with additional information from various external sources to improve the sturdiness of resulting trained models. How to ease the design of the enrichment process for data scientists is defying and supporting the enrichment process at a large scale. Despite the growing importance of the enrichment task, it is still supported only to a limited extent by existing solutions, delegating most of the effort to the data scientist, who is in charge of both detecting the data sets that contain the needed information, and integrate them. In this thesis, we introduce a methodology to support the data enrichment task, which focuses on harnessing the semantics as the key factor by providing users with a semantics-aided tool to design the enrichment process, along with a platform to execute the process at a business scale. We illustrate how the data enrichment can be addressed via tabular data transformations exploiting semantic table interpretation methods, discussing implementation techniques to support the enactment of the resulting process on large data sets. We experimentally demonstrate the scalability and run-time efficiency of the proposed solution by employing it in a real-world scenario. Finally, we introduce a new benchmark dataset to evaluate the performance and the scalability of existing semantic table annotation algorithms, and we propose an efficient novel approach to improve the performance of such algorithms.

I dati rappresentano uno dei principali asset che creano valore. L'analisi dei dati è diventata una componente cruciale negli studi scientifici e nelle decisioni aziendali negli ultimi anni e ha portato i ricercatori a definire nuove metodologie per rappresentare, gestire e analizzare i dati. Contemporaneamente, la crescita della potenza di calcolo ha permesso l'analisi di enormi quantità di dati, permettendo alle persone di estrarre informazioni utili dai dati raccolti. L'analisi predittiva gioca un ruolo cruciale in molte applicazioni poiché fornisce più conoscenza per supportare le decisioni aziendali. Tra le tecniche statistiche disponibili per supportare l'analitica predittiva, l'apprendimento automatico è una tecnica capace di risolvere molte classi diverse di problemi, e che ha beneficiato maggiormente della crescita della potenza di calcolo. Infatti, negli ultimi anni, sono stati proposti modelli di apprendimento automatico più complessi e accurati, che richiedono una quantità crescente di dati attuali e storici per funzionare al meglio. La richiesta di una quantità così massiccia di dati per addestrare i modelli di apprendimento automatico rappresenta un ostacolo iniziale per i data scientist, perché le informazioni necessarie sono di solito sparse in diversi set di dati che devono essere integrati manualmente. Di conseguenza, l'arricchimento dei dati è diventato un compito critico nel processo di preparazione dei dati, e al giorno d'oggi, la maggior parte dei progetti prevedere un processo di preparazione dei dati costoso in termini di tempo, volto ad arricchire un set di dati principali con informazioni aggiuntive da varie fonti esterne per migliorare la solidità dei modelli addestrati risultanti. Come facilitare la progettazione del processo di arricchimento per gli scienziati dei dati è una sfida, così come sostenere il processo di arricchimento su larga scala. Nonostante la crescente importanza dell'attività di arricchimento, essa è ancora supportata solo in misura limitata dalle soluzioni esistenti, delegando la maggior parte dello sforzo al data scientist, che è incaricato sia di rilevare i set di dati che contengono le informazioni necessarie, sia di integrarli. In questa tesi, introduciamo una metodologia per supportare l'attività di arricchimento dei dati, che si concentra sullo sfruttamento della semantica come fattore chiave, fornendo agli utenti uno strumento semantico per progettare il processo di arricchimento, insieme a una piattaforma per eseguire il processo su larga scala. Illustriamo come l'arricchimento dei dati può essere affrontato tramite trasformazioni di dati tabellari, sfruttando metodi di interpretazione semantica delle tabelle, e discutiamo le tecniche di implementazione per supportare l'esecuzione del processo risultante su grandi set di dati. Dimostriamo sperimentalmente la scalabilità e l'efficienza della soluzione proposta impiegandola in uno scenario del mondo reale. Infine, introduciamo un nuovo set di dati di riferimento per valutare le prestazioni e la scalabilità degli algoritmi di annotazione semantica delle tabelle, e proponiamo un nuovo approccio efficiente per migliorare le prestazioni di tali algoritmi.

(2021). Semantic Table Annotation for Large-Scale Data Enrichment. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2021).