Bootstrapping Conversational Recommender Systems: A Methodology for Policy Learning Starting from an Item Dataset

Garavaglia, M

This thesis addresses the challenge of developing Conversational Recommender Systems (CRS) in specialized domains, such as educational technology, where the scarcity of user-item interaction data and semantic heterogeneity hinder traditional data-driven personalization. Conversational systems, which elicit user preferences through dialogue, typically require large, domain-specific datasets for training, a requirement that is often impractical. This research addresses two key questions: (1) Is it possible to develop a CRS without a dataset of interactions? (2) Is it possible to train a policy for conversational recommendation while starting only from a dataset of items? To answer these questions, a generalizable three-step methodology is proposed. First, a Zero-Shot CRS is developed, which relies exclusively on large, pretrained models (e.g., Large Language Models, semantic encoders) to provide baseline functionality. Second, this system is used as a data generator, either from logs of user interactions with the system or operating within a simulated environment to produce a synthetic dataset of conversational sessions, thereby bridging the data gap. Third, this newly gathered dataset is used to train a specialized, personalized policy, typically by first performing behavioral cloning and then refining the policy using Reinforcement Learning (RL) to optimize for long-term goals. To demonstrate and validate this methodology, it was applied to the educational technology domain. A Zero-Shot CRS was built using LLMs and encoders. A specialized policy was then trained on its synthetically generated data, consisting of two cooperating components. The first component, determining when to ask a question versus make a recommendation, was implemented as an RL agent (trained via Advantage Actor–Critic) that was warm-started using supervised models (XGBoost and GRU) that were trained to clone the zero-shot system's behavior. The second component, responsible for deciding what to ask, was developed as a Bi-Encoder model, fine-tuned using contrastive learning to effectively align conversation states with candidate keywords. This fine-tuned model also replaced the original embedder in the recommendation module due to its superior domain understanding. Experimental results demonstrate that the resulting architecture, which combines zero-shot components, contrastive learning, and RL, generates effective recommendations. The final policy trained with RL achieves significantly higher success rates, lower latency, and zero inference cost compared to a purely LLM-based policy. This work confirms the feasibility of bootstrapping an autonomous and adaptive CRS from a static resource dataset alone, validating the proposed methodology as a generalizable approach for any domain where only a catalog of items is available.

Questa tesi affronta la sfida dello sviluppo di Sistemi di Raccomandazione Conversazionali (CRS) in domini specializzati, come quello delle tecnologie per la didattica, dove la scarsità di dati sulle interazioni utente-oggetto e l'eterogeneità semantica ostacolano la tradizionale personalizzazione basata sui dati. I sistemi conversazionali, che ricavano le preferenze dell'utente attraverso il dialogo, richiedono tipicamente grandi dataset specifici del dominio per l'addestramento, un requisito che spesso è irrealizzabile. Questa ricerca affronta due domande chiave: (1) È possibile sviluppare un CRS senza un dataset di interazioni? (2) È possibile addestrare una policy per la raccomandazione conversazionale partendo unicamente da un dataset di soli oggetti? Per rispondere a queste domande, viene proposta una metodologia generalizzabile in tre fasi. Primo, viene sviluppato un CRS Zero-Shot, che si basa esclusivamente su modelli pre-addestrati di grandi dimensioni (ad es., Large Language Models, encoder semantici) per fornire una funzionalità di base. Secondo, questo sistema viene utilizzato come generatore di dati, sia a partire dai log delle interazioni degli utenti, sia operando all'interno di un ambiente simulato per produrre un dataset sintetico di sessioni conversazionali, colmando così il divario di dati. Terzo, questo dataset appena raccolto viene utilizzato per addestrare una policy specializzata e personalizzata, tipicamente eseguendo prima una behavioral cloning e poi affinando la policy tramite l'Apprendimento per Rinforzo (RL) per ottimizzare obiettivi a lungo termine. Per dimostrare e validare questa metodologia, essa è stata applicata al caso d'uso della tesi, il dominio delle tecnologie per la didattica. È stato costruito un CRS Zero-Shot utilizzando LLM ed encoder. Successivamente, è stata addestrata una policy specializzata sui dati generati sinteticamente, composta da due componenti cooperanti. Il primo componente, che determina quando porre una domanda rispetto a quando fornire una raccomandazione, è stato implementato come un agente di RL (addestrato tramite Advantage Actor-Critic) di cui è stato eseguito il warm-start utilizzando modelli supervisionati (XGBoost e GRU) addestrati per clonare il comportamento del sistema zero-shot. Il secondo componente, responsabile della decisione su cosa chiedere, è stato sviluppato come un modello Bi-Encoder, messo a punto tramite apprendimento contrastivo per allineare efficacemente gli stati della conversazione con le parole chiave candidate. Questo modello affinato ha anche sostituito l'embedder originale nel modulo di raccomandazione grazie alla sua superiore comprensione del dominio. I risultati sperimentali dimostrano che l'architettura risultante, il quale combina componenti zero-shot, apprendimento contrastivo e RL, è in grado di generare raccomandazioni efficaci. La policy finale, addestrata con apprendimento per rinforzo, ottiene tassi di successo più alti, una latenza inferiore e un costo di inferenza nullo rispetto alla policy basata su LLM. Questo lavoro conferma la fattibilità di avviare da zero un CRS autonomo e adattivo partendo unicamente da un dataset di risorse statiche, convalidando, inoltre, la metodologia proposta come un approccio generalizzabile per qualsiasi dominio in cui sia disponibile solo un catalogo di oggetti.

Garavaglia, M (2026). Bootstrapping Conversational Recommender Systems: A Methodology for Policy Learning Starting from an Item Dataset. (Tesi di dottorato, , 2026).