Adaptation of Neural-enhanced Retrieval Models to Domain-specific Tasks

Espitia Mendoza, O

Information retrieval (IR) plays the role of ranking information items in search engines widely used in many scenarios. The criteria used to produce a rank of information items are matching signals between information needs, expressed as queries, and the items. These signals are related to the notion of relevance used to judge such items. This thesis studies how to design IR models in specific scenarios, characterized by their domains, based on contextual factors from particular instances. We have considered the task contexts of Clinical Trials Retrieval (CTR) and Scholarly Document Retrieval (SDR), specifically addressing search processes in clinical trials collections and collections of academic documents, respectively. Compared to traditional ad-hoc text retrieval, CTR and SDR exhibit different challenges: the queries could be much longer and more complex than common keyword-based queries; the definition of the relevance of a document to a query is beyond general topical relevance (i.e., the semantic relationship between texts), and as such, its assessment may require expert knowledge. Curriculum learning is an approach in machine learning that involves designing a curriculum to enable the model to learn concepts progressively from simple to complex, especially when a task can be decomposed. We proposed a curriculum learning approach to address the CTR problem, in which a model is first optimized based on topical relevance and then on eligibility classification (i.e., screening the criteria given in a trial for patient enrollment). This setting is used to establish a re-ranking pipeline. Our proposed re-ranking formula explicitly models the eligibility decisions instead of using only the topical relevance and shows additional performance improvement comparable to more expensive approaches. In the case of SDR, classifying scholarly documents according to their research themes is an important task to improve their retrievability. To establish a benchmark for research theme classification, we present experiments and evaluation results with traditional machine learning models and compare them to a more sophisticated ensemble with state-of-the-art models. A clear limitation is the overlap between disciplines that leads to incorrect predictions when considering mutually exclusive categories. We consider, then, a fine-grained theme distribution. We leverage the capabilities of large pre-trained Transformer models in an architecture that uses a sequence-to-sequence learning system to map text to fine-grained themes. We evaluate an approximation to Learned sparse retrieval (LSR) to directly introduce these theme annotations to a sparse model. Constraining search with theme classification can contribute to the performance of a retrieval system based on the results of the different tasks, and LSR has shown to be a potential channel to incorporate contextual domain-specific information in the IR system.

Information retrieval (IR) svolge il ruolo di classificare le informazioni nei motori di ricerca ampiamente utilizzati in molti scenari. I criteri utilizzati per produrre una classifica di elementi informativi sono segnali di corrispondenza tra i bisogni informativi, espressi come query, e gli elementi. Questi segnali sono legati alla nozione di rilevanza utilizzata per giudicare tali elementi. Questa tesi studia come progettare modelli IR in scenari specifici caratterizzati dai loro domini basati su fattori contestuali provenienti da istanze particolari. Abbiamo considerato i contesti di attività del recupero di studi clinici (CTR) e del recupero di documenti accademici (SDR). Rispetto al tradizionale recupero di testo ad hoc, CTR, e SDR presentano sfide diverse. Le query potrebbero essere molto più lunghe e complesse delle comuni query basate su parole chiave; la definizione della pertinenza di un documento rispetto a una questione va oltre la rilevanza generale dell'attualità e, come tale, la sua valutazione può richiedere conoscenze specialistiche. Abbiamo proposto un approccio di apprendimento del curriculum per affrontare il problema del CTR in cui un modello viene prima ottimizzato in base alla pertinenza dell'argomento e poi alla classificazione di ammissibilità. Questa impostazione viene utilizzata per stabilire una pipeline di riclassificazione. La nostra formula di riclassificazione proposta modella esplicitamente le decisioni di ammissibilità invece di utilizzare solo la pertinenza d'attualità e mostra un ulteriore miglioramento delle prestazioni paragonabile ad approcci più costosi. Nel caso dei SDR, classificare i documenti accademici in base ai loro temi di ricerca è un compito importante per migliorarne la recuperabilità. Per stabilire un punto di riferimento per la classificazione dei temi di ricerca, presentiamo esperimenti e risultati di valutazione con modelli tradizionali di apprendimento automatico e li confrontiamo con una pipeline più sofisticata con modelli all'avanguardia. Un chiaro limite è la sovrapposizione tra discipline che porta a previsioni errate quando si considerano categorie mutuamente esclusive. Consideriamo, quindi, una distribuzione tematica a grana fine. Sfruttiamo le capacità di grandi modelli Transformer pre-addestrati in un'architettura che utilizza un sistema di apprendimento sequence-to-sequence per mappare il testo su temi a grana fine. Valutiamo un'approssimazione al Learned Sparse Retrieval (LSR) per introdurre direttamente queste annotazioni tematiche in un modello sparso. Vincolare la ricerca con la classificazione del tema può contribuire alle prestazioni di un sistema di recupero basato sui risultati dei diversi compiti, e LSR ha dimostrato di essere un potenziale canale per incorporare informazioni contestuali specifiche del dominio nel sistema IR.

(2024). Adaptation of Neural-enhanced Retrieval Models to Domain-specific Tasks. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).