iSwap: a bioinformatics pipeline for index switching in Illumina sequencing platforms

De Marino, A

In Next generation sequencing technologies, hundreds or thousands of DNA samples can be sequenced simultaneously (multiplexing) and the obtained sequencing reads can be distinguished by the presence of sample-specific nucleotide sequences (indexes) embedded in the primers used for the DNA amplification. Custom bioinformatics pipelines, by reading the indexes present in the sequencing reads assign them to a specific sample (demultiplexing). Multiplexing however is plagued by index switching, a phenomenon occurring when free index primers are randomly fused to DNA sequences belonging to other unrelated samples of the library pool and resulting in the incorrect assignment of sequences to one or multiple wrong samples. In the field of gene therapy (GT) (see Appendix A), vector integration site (IS) studies heavily depend on sequencing of DNA fragments (containing proviral-cellular genome junctions) from several samples and are affected by index switching. This issue is particularly relevant in clonal tracking studies, where the level of shared IS between different cell lineages or different time points of the same GT patient are required to define the levels of multilineage reconstitution and estimate the number of stem cells and other calculations. Therefore, the spreading of IS between datasets caused by index switching could result in inflated sharing IS levels which could lead to misinterpretation of the results. To evaluate the extent of index switching in IS analyses, we analysed 123,431,269 sequencing reads originating from a pool composed by 54 samples amplified in triplicate, each tagged by two indexes fused to the ends of the PCR products containing the LTR and Linker Cassette (LC) sequences resulting in 162 index combinations (combining a total of 48 LTR and 32 LC indexes). From this analysis we found that >95% of sequencing reads belonged to the correct 162 index combinations while a the remaining 5% of reads belonging to 1374 false index combinations resulting from frank events of index swapping. The levels of swapping were similar among the different LTR and LC indexes with an average of 1709 ± 3469 reads (range 9 to 52000) for false index combinations. We then evaluated the levels of sharing of univocally mapped IS between different samples and found that essentially all samples had different levels of contamination. Overall, 91.5% of IS were assigned to a single sample, 7.25% were found shared in two samples and the remaining 1.25% were present in more than 2 samples. Focusing on a sample from a cell line with 6 knowns IS we calculated the spreading levels and their relative abundance on other samples. From this analysis we found that at least one of the 6 know IS were found in 13 unrelated samples out of 54 (24%). In 3 out of 13 samples the amount of contaminating reads from this cell line reached levels ranging from 13 to 40% of the entire dataset. These high levels of contaminations justified the development of new approaches for indexing switching correction in IS studies. To this aim we developed a set of probabilistic and logic algorithms that allows to remove contaminating sequences. This study started with the integration site analysis, but after was extended to other different fields. In the thesis is showed a new method for cleaning dataset from this kind of contaminations.

Nelle tecnologie di sequenziamento di nuova generazione, centinaia o migliaia di campioni di DNA possono essere sequenziati simultaneamente (multiplexing) e le letture di sequenziamento ottenute possono essere distinte dalla presenza di sequenze nucleotidiche specifiche del campione (indici) incorporate nei primer utilizzati per l'amplificazione del DNA. Pipeline bioinformatiche personalizzate, leggendo gli indici presenti nelle letture di sequenziamento li assegnano ad uno specifico campione (demultiplexing). Il multiplexing, tuttavia, è afflitto dal cambio di indice, un fenomeno che si verifica quando i primer di indice libero vengono fusi in modo casuale a sequenze di DNA appartenenti ad altri campioni non correlati del pool di librerie e determinano l'assegnazione errata delle sequenze a uno o più campioni errati. Nel campo della terapia genica (GT), gli studi sui siti di integrazione dei vettori (IS) dipendono fortemente dal sequenziamento di frammenti di DNA (contenenti giunzioni genomiche provirali-cellulari) da diversi campioni e sono influenzati dallo scambio dell'indice. Questo problema è particolarmente rilevante negli studi di tracciamento clonale, dove il livello di IS condiviso tra diverse linee cellulari o diversi punti temporali dello stesso paziente con GT è richiesto per definire i livelli di ricostituzione multilineare e stimare il numero di cellule staminali e altri calcoli. Pertanto, la diffusione dell'IS tra i set di dati causata dalla scambio dell'indice potrebbe comportare livelli di condivisione IS non veritieri che potrebbero portare a un'interpretazione errata dei risultati. Per valutare l'entità della scambio dell'indice nelle analisi IS, abbiamo analizzato 123.431.269 letture di sequenziamento provenienti da un pool composto da 54 campioni amplificati in triplice copia, ciascuno contrassegnato da due indici fusi alle estremità dei prodotti PCR contenenti LTR e Linker Sequenze di cassette (LC) risultanti in 162 combinazioni di indici (che combinano un totale di 48 indici LTR e 32 LC). Da questa analisi abbiamo scoperto che> 95% delle letture di sequenziamento apparteneva alle 162 combinazioni di indici corrette mentre il restante 5% di letture appartiene a 1374 combinazioni di falsi indici risultanti da eventi franchi di scambio di indici. I livelli di scambio erano simili tra i diversi indici LTR e LC con una media di 1709 ± 3469 letture (intervallo da 9 a 52000) per le combinazioni di falsi indici. Abbiamo quindi valutato i livelli di condivisione di IS mappato in modo univoco tra diversi campioni e abbiamo scoperto che essenzialmente tutti i campioni avevano diversi livelli di contaminazione. Complessivamente, il 91,5% di IS è stato assegnato a un singolo campione, il 7,25% è stato trovato condiviso in due campioni e il restante 1,25% era presente in più di 2 campioni. Concentrandoci su un campione di una linea cellulare con 6 IS noti, abbiamo calcolato i livelli di diffusione e la loro abbondanza relativa su altri campioni. Da questa analisi abbiamo scoperto che almeno uno dei 6 noti IS è stato trovato in 13 campioni non correlati su 54 (24%). In 3 campioni su 13 la quantità di letture contaminanti da questa linea cellulare ha raggiunto livelli che vanno dal 13 al 40% dell'intero set di dati. Questi livelli elevati di contaminazioni hanno giustificato lo sviluppo di nuovi approcci per l'indicizzazione della correzione della scambio negli studi IS. A questo scopo abbiamo sviluppato una serie di algoritmi probabilistici e logici che consente di rimuovere sequenze contaminanti. Questo studio è iniziato con l'analisi del sito di integrazione, ma successivamente è stato esteso ad altri campi diversi. Nella tesi viene mostrato un nuovo metodo per pulire i dataset da questo tipo di contaminazioni.

(2021). iSwap: a bioinformatics pipeline for index switching in Illumina sequencing platforms. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2021).