Scopo dello studio. Obiettivo principale di questo studio multicentrico è la valutazione delle performance di diverse metodologie di record linkage (RL) per l'integrazione di archivi di dati sanitari. È stata individuata una procedura standard di RL probabilistico con lo scopo di confrontarne la performance con quelle delle procedure utilizzate dai centri di servizi partecipanti, valutarne l'impatto su misure epidemiologiche e la realistica implementazione in base alle risorse informatiche disponibili. Metodi. Le tecniche di RL sono state implementate per integrare la banca dati delle schede di dimissione ospedaliera (SDO) dell'anno 2004 con l'anagrafica comunale o assistiti al 31 dicembre 2003, di competenza dei centri partecipanti, localizzati in diverse regioni italiane (Piemonte, Toscana, Lazio, Puglia). Al fine di valutare l'impatto degli errori di RL sulla stima di misure epidemiologiche, sono state considerate due differenti patologie: l'infarto miocardico acuto (IMA) e il diabete mellito. Ogni centro ha lavorato indipendentemente sui propri dati applicando la procedura di RL usualmente adottata, quella probabilistica e deterministica per l'appaiamento tra le due banche dati. La procedura probabilistica è stata implementata in una macro SAS e prevede due passi in parallelo definiti da differenti variabili di bloccaggio dei record. In ogni passo i livelli d'errore ammessi variano al fine di valutare come cambiano i risultati in termini di coppie appaiate e di valore predittivo positivo (VPP). La procedura probabilistica con soglie che garantiscono un VPP di almeno il 98% è stata scelta come standard di confronto. Il controllo manuale su un campione estratto casualmente dall'archivio delle SDO ha permesso di stimare sensibilità e specificità di ogni procedura. Infine, si è stimato l'impatto della scelta della tecnica di RL su misure epidemiologiche. Risultati. La procedura probabilistica, come era lecito attendersi, ha individuato un numero maggiore di eventi rispetto a quelli individuati con le altre procedure. Gli errori di primo e secondo tipo commessi da tale tecnica non sono standard tra i centri, in quanto è influenzate dal potere discriminante e dall'attendibilità dei campi confrontati, caratteristiche che ovviamente variano a seconda del contesto di integrazione. Per quanto riguarda il linkage con i ricoveri per IMA, la procedura probabilistica appaia in media il 10,5% di coppie in più rispetto alla semplice procedura deterministica, mentre l'8,3% per la selezione dei casi di diabete. La procedura probabilistica di integrazione tra banche dati con VPP di almeno il 98% è risultata essere la più efficiente nell'individuazione di eventi di IMA in tre centri su quattro. Nell'integrazione con la banca dati dei ricoveri per diabete, la procedura probabilistica ha valori di accuratezza superiori o uguali rispetto alle altre tecniche di integrazione. I tassi di incidenza (1.000 persone anno) stimati utilizzando le diverse procedure di integrazione conducono a conclusioni diverse. Utilizzando le procedure dei singoli centri, il Piemonte (1,354) e la città di Pisa (1,307) sono le aree a maggior rischio infarto, mentre se si considera la tecnica probabilistica i residenti di Roma hanno una velocità superiore di sperimentare l'evento (1,402). Con la procedura probabilistica le stime fornite dai centri sono affette da livelli di errore simili, ciò non avviene quando ogni centro utilizza la propria procedura. La tecnica probabilistica è eseguibile in quasi tutti i centri: i tempi di esecuzione variano in proporzione alle caratteristiche hardware a disposizione. Discussione. In assenza di codici univoci di identificazione e se le informazioni riportate negli archivi sono affette da errori e dati mancanti il RL probabilistico risulta preferibile a quello deterministico sia in termini di efficienza che di accuratezza. Il RL deterministico è caratterizzato dai più bassi livelli di sensibilità. La procedura di record linkage probabilistica è preferibile anche rispetto alle usuali tecniche utilizzate nei centri di servizio, tranne quando queste implementano un ulteriore controllo manuale o un sostanzioso lavoro sulla qualità dei dati. Le misure epidemiologiche derivanti dall'integrazione di banche dati e le conclusioni che si traggono, variano notevolmente a seconda della tecnica di linkage adottata. L'utilizzo di una procedura standard con prescelto livello di predittività permette un confronto non distorto tra misure prodotte da diversi centri di servizio. Conclusioni. La qualità dei dati è un presupposto fondamentale nel processo di integrazione di archivi elettronici. Tecniche di integrazione puramente deterministiche falliscono in presenza di dati mancanti o errati. Questa proprietà influenza la performance della tecnica probabilistica. Speso la qualità dei dati è ignota e varia notevole tra banche dati. L'individuazione di una procedura di RL standard con stessa predittività è quindi basilare al fine di ottenere misure epidemiologiche tra loro confrontabili.
Fornari, C., Madotto, F., Cesana, G., Demaria, M., Pepe, P., Raciti, M., et al. (2007). Valutazione delle performance di record linkage tra archivi per l'epidemiologia. In La ricerca clinica tra sperimentazione e osservazione. (pp.587-588). Padova : Coop. Libreria Editrice Università di Padova.
Valutazione delle performance di record linkage tra archivi per l'epidemiologia
FORNARI, CARLA;MADOTTO, FABIANA;CESANA, GIANCARLO;CORRAO, GIOVANNI
2007
Abstract
Scopo dello studio. Obiettivo principale di questo studio multicentrico è la valutazione delle performance di diverse metodologie di record linkage (RL) per l'integrazione di archivi di dati sanitari. È stata individuata una procedura standard di RL probabilistico con lo scopo di confrontarne la performance con quelle delle procedure utilizzate dai centri di servizi partecipanti, valutarne l'impatto su misure epidemiologiche e la realistica implementazione in base alle risorse informatiche disponibili. Metodi. Le tecniche di RL sono state implementate per integrare la banca dati delle schede di dimissione ospedaliera (SDO) dell'anno 2004 con l'anagrafica comunale o assistiti al 31 dicembre 2003, di competenza dei centri partecipanti, localizzati in diverse regioni italiane (Piemonte, Toscana, Lazio, Puglia). Al fine di valutare l'impatto degli errori di RL sulla stima di misure epidemiologiche, sono state considerate due differenti patologie: l'infarto miocardico acuto (IMA) e il diabete mellito. Ogni centro ha lavorato indipendentemente sui propri dati applicando la procedura di RL usualmente adottata, quella probabilistica e deterministica per l'appaiamento tra le due banche dati. La procedura probabilistica è stata implementata in una macro SAS e prevede due passi in parallelo definiti da differenti variabili di bloccaggio dei record. In ogni passo i livelli d'errore ammessi variano al fine di valutare come cambiano i risultati in termini di coppie appaiate e di valore predittivo positivo (VPP). La procedura probabilistica con soglie che garantiscono un VPP di almeno il 98% è stata scelta come standard di confronto. Il controllo manuale su un campione estratto casualmente dall'archivio delle SDO ha permesso di stimare sensibilità e specificità di ogni procedura. Infine, si è stimato l'impatto della scelta della tecnica di RL su misure epidemiologiche. Risultati. La procedura probabilistica, come era lecito attendersi, ha individuato un numero maggiore di eventi rispetto a quelli individuati con le altre procedure. Gli errori di primo e secondo tipo commessi da tale tecnica non sono standard tra i centri, in quanto è influenzate dal potere discriminante e dall'attendibilità dei campi confrontati, caratteristiche che ovviamente variano a seconda del contesto di integrazione. Per quanto riguarda il linkage con i ricoveri per IMA, la procedura probabilistica appaia in media il 10,5% di coppie in più rispetto alla semplice procedura deterministica, mentre l'8,3% per la selezione dei casi di diabete. La procedura probabilistica di integrazione tra banche dati con VPP di almeno il 98% è risultata essere la più efficiente nell'individuazione di eventi di IMA in tre centri su quattro. Nell'integrazione con la banca dati dei ricoveri per diabete, la procedura probabilistica ha valori di accuratezza superiori o uguali rispetto alle altre tecniche di integrazione. I tassi di incidenza (1.000 persone anno) stimati utilizzando le diverse procedure di integrazione conducono a conclusioni diverse. Utilizzando le procedure dei singoli centri, il Piemonte (1,354) e la città di Pisa (1,307) sono le aree a maggior rischio infarto, mentre se si considera la tecnica probabilistica i residenti di Roma hanno una velocità superiore di sperimentare l'evento (1,402). Con la procedura probabilistica le stime fornite dai centri sono affette da livelli di errore simili, ciò non avviene quando ogni centro utilizza la propria procedura. La tecnica probabilistica è eseguibile in quasi tutti i centri: i tempi di esecuzione variano in proporzione alle caratteristiche hardware a disposizione. Discussione. In assenza di codici univoci di identificazione e se le informazioni riportate negli archivi sono affette da errori e dati mancanti il RL probabilistico risulta preferibile a quello deterministico sia in termini di efficienza che di accuratezza. Il RL deterministico è caratterizzato dai più bassi livelli di sensibilità. La procedura di record linkage probabilistica è preferibile anche rispetto alle usuali tecniche utilizzate nei centri di servizio, tranne quando queste implementano un ulteriore controllo manuale o un sostanzioso lavoro sulla qualità dei dati. Le misure epidemiologiche derivanti dall'integrazione di banche dati e le conclusioni che si traggono, variano notevolmente a seconda della tecnica di linkage adottata. L'utilizzo di una procedura standard con prescelto livello di predittività permette un confronto non distorto tra misure prodotte da diversi centri di servizio. Conclusioni. La qualità dei dati è un presupposto fondamentale nel processo di integrazione di archivi elettronici. Tecniche di integrazione puramente deterministiche falliscono in presenza di dati mancanti o errati. Questa proprietà influenza la performance della tecnica probabilistica. Speso la qualità dei dati è ignota e varia notevole tra banche dati. L'individuazione di una procedura di RL standard con stessa predittività è quindi basilare al fine di ottenere misure epidemiologiche tra loro confrontabili.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.