QSAR study of aquatic toxicity by chemometrics methods in the framework of REACH regulation

Cassotti, M

Questo progetto ha avuto come obiettivo lo sviluppo di relazioni quantitative struttura-attività (QSAR) da applicare nell’ambito del regolamento REACH per stimare la tossicità acuta sulla Daphnia magna ed il Pimephales promelas di sostanze per le quali non sono disponibili valori sperimentali. Si è cercato di soddisfare i requisiti del REACH in modo da consentire la massima applicabilità dei modelli. I dati di tossicità sulla D. magna, ricavati da tre database e pubblicazioni scientifiche, sono stati trattati per identificare record ambigui e composti con un’elevata variabilità sperimentale. Il dataset finale (546 molecole organiche) è stato diviso in un training set (436 molecole) e un test set. Un modello (denominato MICHEM) basato sulla similarità (kNN) è stato calibrato sul training set selezionando 8 descrittori molecolari che hanno codificato la lipofilia, elettrofilia, nucleofilia, formazione di legami a idrogeno e polarizzabilità. Il dominio di applicabilità (AD) del modello è stato definito confrontando la distanza media di ogni molecola dalle più vicine con un valore di soglia fisso. Il modello ha mostrato buone statistiche in validazione interna (Q2cv = 0.78) ed esterna (Q2ext = 0.72), a scapito di una percentuale di composti considerati fuori dall’AD (39% e 31%, rispettivamente). Dati ottenuti successivamente hanno permesso di definire un ampio set di validazione, sul quale il modello ha dato risultati inferiori, ma comunque soddisfacenti, mentre la percentuale di molecole fuori dall’AD è risultata elevata (51%). Il set di validazione è stato unito al dataset iniziale per definire un nuovo training set (1331 molecole) e un test set (224 composti), utilizzati per ricalibrare il modello. Il modello MICHEM esteso ha mostrato performance inferiori in validazione interna ma migliori sul test set (Q2ext = 0.69), in particolare in merito alla percentuale di molecole fuori dall’AD (31%). Il training set esteso è stato anche utilizzato per calibrare un nuovo modello basato su binary fingerprints, in luogo degli 8 descrittori molecolari, che ha dato risultati inferiori (Q2cv = 0.67, Q2ext = 0.59). Infine, i modelli MICHEM esteso e fingerprints sono stati combinati in due modelli consensus che hanno permesso, uno di ampliare l’AD, l’altro di fornire predizioni più accurate (Q2cv = 0.78, Q2ext = 0.73). Un confronto con 58 modelli di letteratura basati su dataset eterogenei ha indicato performance confrontabili o migliori dei modelli proposti, che possono essere ritenuti soddisfacenti, specialmente considerando la numerosità del dataset e la semplicità dell’algoritmo. I dati di tossicità sul P. promelas, ottenuti da tre database¸ sono stati trattati in maniera analoga a quelli sulla D. magna ma in aggiunta è stato effettuato uno screening di miscele e sali. Il dataset finale (908 composti organici) è stato diviso in un training set (726 molecole) e un test set. Il migliore modello è stato ottenuto ancora con il metodo kNN basato su 6 descrittori molecolari che hanno codificato la lipofilia, elettrofilia e presenza di eteroatomi. Due valori di soglia, corrispondenti a due severità del criterio per la valutazione dell’AD, sono stati selezionati. Il modello ha mostrato statistiche soddisfacenti (Q2cv = 0.67, Q2ext = 0.73 con il criterio meno severo e Q2cv = 0.74, Q2ext = 0.77 con il criterio più severo), anche rispetto a 140 modelli di letteratura calibrati su dataset eterogenei. Il modello proposto può essere ritenuto soddisfacente anche in virtù della maggiore dimensione del dataset e della semplicità dell’algoritmo. I modelli sono stati sviluppati per soddisfare i principi OECD e quindi la loro applicazione in ambito REACH dovrebbe essere possibile.

(2015). QSAR study of aquatic toxicity by chemometrics methods in the framework of REACH regulation. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2015).