Machine Learning and Molecular Dynamics

Trizio, E

In this Thesis, we apply a combination of machine learning (ML) and enhanced sampling techniques to extend the scope of molecular dynamics (MD) simulations. One of the main limitations of MD is related to the time scale that standard simulations can cover. Most relevant processes indeed belong to the category of the so-called rare events, as they are characterized by several long-lived metastable states separated by large free energy barriers, which result in kinetic bottlenecks. The purpose of enhanced sampling methods is to alleviate this limitation and reduce the mismatch between real and simulated time scales. This is often done by adding external biasing potentials aimed at accelerating the dynamics of the process. Such potentials are defined as functions of a small set of collective variables (CVs), which are, in turn, functions of the atomic coordinates and should encode the relevant degrees of freedom of the system. The determination of proper CVs is of the utmost importance for these methods to be effective, and in the last years, it has been proposed to apply ML techniques to their design in a data-driven way. In this regard, we present the Deep Targeted Discriminant Analysis (Deep-TDA) method, in which the CVs are extracted via a classification criterion from information limited to the metastable states. We also explore the option of including information from the transition path ensemble into this framework to further improve the quality of the results. Moreover, these and many other methods from the literature were included in the mlcolvar library we created to provide a unified framework for developing and testing data-driven CVs. We also propose a method in which ML tools are used to build a bias potential to stabilize the region around the transition state (TS) to increase its sampling. This is done by approximating the behavior of the committor function of the system with a classifier-like CV of the Deep-TDA type and expressing the bias in terms of the gradient of such a function, thus allowing its localization on the TS region. Finally, we showcase the impact of the synergy of ML and MD simulations, studying the structures and mechanisms involved in the lambda-transition of liquid sulfur and its peculiar chemistry. This liquid-liquid phase transition has attracted much interest in the last century as it is associated with a living polymerization of eight-membered crown-shaped sulfur rings into long linear polymers. However, despite previous studies, a detailed picture of this phenomenon and the underlying processes is still missing. To improve in this sense, we combine enhanced sampling simulations based on data-driven CVs and ML interatomic potentials. This way, we perform fast simulations of quantum mechanical accuracy that allow us to finally shed light on this puzzling process.

In questa Tesi, abbiamo applicato una combinazione di metodi di machine learning (ML) e tecniche di campionamento potenziato per estendere la portata delle simulazioni di dinamica molecolare (MD). Una delle principali limitazioni della MD è legata alle scale di tempo che possono essere coperte con questo tipo di simulazioni. Infatti, la maggior parte dei processi rilevanti in natura appartiene alla categoria dei cosiddetti eventi rari, essendo caratterizzati da una serie di stati metastabili separati da alte barriere energetiche che impediscono transizioni spontanee tra di essi. Lo scopo dei metodi di campionamento potenziato è quello di alleviare questa limitazione e ridurre così la discrepanza tra le scale di tempo dei processi reali e quelle raggiungibili nelle simulazioni. In molti casi, questo risultato viene ottenuto applicando al sistema un potenziale esterno con la finalità di accelerarne la dinamica. Tali potenziali, solitamente, sono definiti come funzioni di poche variabili collettive (CV), le quali sono invece funzioni delle coordinate atomiche e devono codificare le informazioni relative ai principali gradi di libertà del sistema. L'identificazione di CV adeguate è fondamentale per poter applicare in maniera efficace questi metodi di campionamento potenziato e negli ultimi anni è stato proposto di impiegare tecniche di ML per poterle determinare in maniera semi-automatica partendo dai dati ottenuti nelle simulazioni. A questo proposito, presentiamo il metodo Deep Targeted Discriminant Analysis (Deep-TDA) in cui le CVs sono estratte sulla base di un principio di classificazione a partire da informazioni limitate ai soli stati metastabili. Esploriamo anche la possibilità di includere in questo approccio informazioni relative alla regione nei dintorni dello stato di transizione, al fine di migliorare le qualità del risultato finale. Questi e diversi altri metodi sono parte della libreria mlcolvar che abbiamo creato per fornire una piattaforma comune in modo da promuoverne l'utilizzo e ulteriori sviluppi. Inoltre, presentiamo anche un metodo in cui gli strumenti del ML sono impiegati per costruire un potenziale esterno per stabilizzare la regione attorno allo stato di transizione in modo da favorirne il campionamento. Per far questo, approssimiamo il comportamento della committor function del sistema con una CV simile ad un classificatore, nello stesso spirito di Deep-TDA, ed esprimiamo il potenziale esterno in termini del gradiente di tale funzione, permettendo così di localizzarne l'effetto nella zona di transizione. Per concludere, mostriamo l'impatto della sinergia tra ML e simulazioni MD studiando le strutture e i meccanismi coinvolti nella transizione lambda osservata nello zolfo liquido e la sua particolare chimica. Questa transizione di fase liquido-liquido ha infatti attratto molta attenzione negli ultimi anni, essendo associata con la polimerizzazione di anelli ad otto membri di zolfo per formare lunghe catene polimeriche lineari. Tuttavia, nonostante studi teorici precedenti, manca ancora una descrizione dettagliata di questo fenomeno e dei processi coinvolti. Per contribuire in tal senso, abbiamo combinato simulazioni basate su metodi di campionamento potenziato con CV e potenziali per le interazioni atomiche ottenuti con tecniche di ML. In questo modo, è stato possibile ottenere simulazioni veloci di un'accuratezza paragonabile a quella dei metodi basati su una descrizione quantistica delle interazioni interatomiche, permettendoci di gettare finalmente luce su questo misterioso processo.

(2024). Machine Learning and Molecular Dynamics. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).