banner

Notizia

Jul 30, 2023

Valutazione della portabilità di fenotipi computabili con elaborazione del linguaggio naturale nella rete eMERGE

Rapporti scientifici volume 13, numero articolo: 1971 (2023) Citare questo articolo

1055 accessi

6 Altmetrico

Dettagli sulle metriche

La rete elettronica di documentazione medica e genomica (eMERGE) ha valutato la fattibilità dell'implementazione di algoritmi portatili basati su regole di fenotipo con componenti di elaborazione del linguaggio naturale (NLP) aggiunti per migliorare le prestazioni degli algoritmi esistenti utilizzando cartelle cliniche elettroniche (EHR). Sulla base del merito scientifico e della difficoltà prevista, eMERGE ha selezionato sei fenotipi esistenti da migliorare con la PNL. Abbiamo valutato prestazioni, portabilità e facilità d'uso. Abbiamo riassunto le lezioni apprese da: (1) sfide; (2) migliori pratiche per affrontare le sfide sulla base delle prove esistenti e/o dell’esperienza eMERGE; e (3) opportunità per la ricerca futura. L'aggiunta della PNL ha comportato una precisione e/o un richiamo migliorati, o uguali, per tutti gli algoritmi tranne uno. La portabilità, il flusso di lavoro/processo di fenotipizzazione e la tecnologia erano i temi principali. Con la PNL, lo sviluppo e la validazione hanno richiesto più tempo. Oltre alla portabilità della tecnologia NLP e alla replicabilità degli algoritmi, i fattori che ne garantiscono il successo includono la protezione della privacy, la configurazione dell’infrastruttura tecnica, l’accordo sulla proprietà intellettuale e una comunicazione efficiente. I miglioramenti del flusso di lavoro possono migliorare la comunicazione e ridurre i tempi di implementazione. Le prestazioni della PNL variavano principalmente a causa dell'eterogeneità dei documenti clinici; pertanto, suggeriamo di utilizzare note semistrutturate, documentazione completa e opzioni di personalizzazione. La portabilità della PNL è possibile con prestazioni migliorate dell'algoritmo del fenotipo, ma un'attenta pianificazione e architettura degli algoritmi sono essenziali per supportare le personalizzazioni locali.

L’estrazione accurata di informazioni fenotipiche complete e dettagliate da dati di cartelle cliniche elettroniche (EHR) su larga scala migliora l’efficienza e l’accuratezza della ricerca sulla medicina di precisione. Tuttavia, i dati strutturati da soli sono spesso insufficienti per identificare o descrivere completamente molte condizioni, in particolare quando un attributo non viene comunemente fatturato o richiede un’interpretazione sfumata1,2,3,4. L'elaborazione del linguaggio naturale (NLP) e l'apprendimento automatico (ML) promettono di consentire una fenotipizzazione approfondita utilizzando narrazioni EHR sfumate5,6,7,8.

Entrambe le sofisticate pipeline di PNL, come MedLEE9, CLAMP10, cTAKES11 e MetaMap12,13; e approcci più semplici basati su regole che combinano espressioni regolari (RegEx) e logica; sono stati sempre più sfruttati per la fenotipizzazione approfondita14. Tuttavia, è difficile ottenere un’ampia generalizzabilità e portabilità dell’algoritmo del fenotipo dati i diversi sistemi EHR e gli approcci di documentazione eterogenei utilizzati dai medici15. Ad esempio, Sohn et al. hanno riferito come le variazioni nella documentazione clinica correlata all'asma tra due coorti influenzino la portabilità del sistema PNL16. Inoltre, i tipi e le strutture dei documenti variano tra le cartelle cliniche elettroniche (EHR) e alcuni siti dispongono di più dati non strutturati rispetto ad altri. Anche le abbreviazioni, le terminologie e altri usi linguistici variano a seconda dei siti, dei medici e del tempo. Ad esempio, Adekkanattu et al. hanno riportato variabilità nelle prestazioni del sistema a causa dell'eterogeneità dei formati di testo locali e dei termini lessicali utilizzati per documentare vari concetti, in tre diverse istituzioni che valutavano la portabilità di un sistema specializzato di estrazione di informazioni sull'ecocardiografia17.

La comunità biomedica della PNL ha sviluppato una serie di approcci per affrontare questi problemi, tra cui la misurazione della somiglianza semantica del testo, l’implementazione di sistemi di PNL insieme, l’utilizzo di dizionari termini completi e la conversione del testo in standard di dati, come Fast Health Interoperability Resources (FHIR) e il Modello comune di dati (CDM) dell'Observational Medical Outcomes Partnership (OMOP)18. Nello specifico, Liu et al.19 hanno dimostrato che insiemi di sistemi PNL possono migliorare la portabilità attraverso sia il riconoscimento di concetti fenotipici generici che l'identificazione di concetti fenotipici specifici del paziente sui singoli sistemi. Inoltre, Jiang et al. hanno sfruttato lo standard FHIR per sviluppare una pipeline scalabile di normalizzazione dei dati che integra dati clinici sia strutturati che non strutturati per la fenotipizzazione20. Infine, Sharma et al. ha sviluppato un sistema NLP portatile estraendo concetti di fenotipo, normalizzandoli utilizzando Unified Medical Language System (UMLS) e mappandoli sull'OMOP CDM21.

 2 h to run", in response to which the site extracted the Python code and deployed directly to the server with augmented memory and disk space. Filtering of notes was a prevalent performance related theme. Some NLP algorithms as deployed would process all clinical notes, which at some sites was not feasible because of the very large numbers of notes at those sites, which at least at 1 site, were over 1 million notes, even after filtering. To address this, sites applied filters either by pre-selecting patients for whom to process notes or narrowing down to the appropriate clinical note types to process. Pre-selection/filtering of patients was very broad, such as selecting all patients whom had any diagnosis code for, or related to, the given phenotype./p>

CONDIVIDERE