Topic modeling for scientific paper recommendation

Amami, M

Scientific paper recommendation is a task that aims to enhance the exploitation of Digital Libraries (DL) and helps researchers to find relevant papers from a large pool of papers. However, reliable sources to model the researcher interests must be provided to have accurate recommendations. In this thesis, we focus on the extraction of the user topical interests from papers that the user is connected with (authored or rated) and also by using the social structure of the academic network of the user (relations among researchers in the same domain). We proposed a fully Content-Based Filtering (CBF) approach for scientific paper recommendation that relies on topic modeling: the profile of a researcher is modeled by a set of topics obtained by applying Latent Dirichlet Allocation (LDA) to the papers written by the researcher. The profile built by this model is easily interpretable, and can explain the recommendation results. Users in recommender systems of scientific papers have few ratings that do not allow CBF approaches to discriminate papers the user likes from others she/he doesn’t like. For this purpose, we proposed a recommendation model which measures the difference between two probability distributions between the topic model of the researcher’s corpus and the language models of new papers and rank papers by minimizing the difference. In recommender systems of scientific papers, the user-item rating matrix is very sparse and users are relatively few compared with the numerous available items. To overcome the issue of data sparsity in Collaborative Filtering (CF) approaches, we proposed a scientific paper recommendation approach which combines content analysis based on LDA, Social Networks (SN) techniques for neighborhood generation, and the relevance based language model to CF recommendation. This approach uses the topics in the researcher’s rated papers to define the user profiles, thus ignoring the numeric values of ratings, and applying a community detection algorithm method to group similar researchers according to their related topics instead of calculating similarities based on co-rated items. We conducted experimental studies on DBLP, by using ranking-oriented metrics which demonstrate that our approaches are performing well compared to the state of-the-art methods.

La raccomandazione di articoli scientifici è un compito che mira a migliorare lo sfruttamento delle biblioteche digitali (DL) e aiuta i ricercatori a trovare articoli pertinenti da un ampio pool di articoli. Tuttavia, devono essere fornite fonti affidabili per modellare gli interessi dei ricercatori in modo da avere raccomandazioni precise. In questa tesi, ci concentriamo sull’estrazione degli interessi attuali degli utenti dai articoli a cui l’utente è collegato (autore o valutato) e anche utilizzando la struttura sociale della rete accademica dell’utente (relazioni tra ricercatori nello stesso dominio). Abbiamo proposto un approccio di filtraggio basato sul contenuto per la raccomandazione di articoli scientifici che si basa sulla modellazione di temi: il profilo di un ricercatore è modellato da una serie di temi ottenuti applicando Latent Dirichlet Allocation (LDA) alli articoli scientifici dal ricercatore. Il profilo creato da questo modello è facilmente interpretabile e può spiegare i risultati della raccomandazione. Gli utenti nei sistemi di raccomandazione di articoli scientifici hanno poche valutazioni che non consentono agli approcci di filtraggio basato sul contenuto di discriminare gli articoli che l’utente ama da altri a cui non gli piacciono. A tale scopo, abbiamo proposto un modello di raccomandazione che misura la differenza tra due distribuzioni di probabilità tra il modello tematico del corpus del ricercatore e i modelli linguistici di nuovi documenti. Nei sistemi di raccomandazione di articoli scientifici, la matrice di valutazione è molto sparse e gli utenti sono relativamente pochi rispetto ai numerosi articoli disponibili. A superare il problema della scarsità di dati negli approcci di filtraggio collaborativo, noi ha proposto un approccio di raccomandazione di articoli scientifici che combina l’analisi del contenuto basato su tecniche LDA, reti sociali per la generazione di vicinati, e il modello linguistico basato sulla pertinenza alla raccomandazione sul filtraggio collaborativo. Questo approccio utilizza gli temi nei articoli valutati del ricercatore per definire il profili utente, ignorando così i valori numerici delle valutazioni e applicando una comunità metodo dell’algoritmo di rilevazione per raggruppare ricercatori simili in base al loro correlato temi invece di calcolare somiglianze basate su articoli co-valutati. Abbiamo condotto studi sperimentali su DBLP, utilizzando metriche che dimostrano che i nostri approcci si comportano bene rispetto allo stato di i metodi dell’arte.

(2018). Topic modeling for scientific paper recommendation. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2018).