Un equip d'ISGlobal desenvolupa una eina per facilitar les anàlisis de 'big data'
L'equip va adaptar una plataforma existent per permetre l'anàlisi d'una gran quantitat i varietat de dades sense comprometre la seva protecció
09.04.2021El big data o, en altres paraules, la capacitat d'analitzar una gran quantitat i varietat de dades a gran velocitat, té el potencial de revolucionar la biomedicina i l'atenció mèdica. No obstant això, queden diversos obstacles per resoldre abans que el big data abasti el seu màxim potencial. Un d'ells és trobar la manera de compartir dades de les i els participants en estudis entre diferents equips investigadors o institucions, però respectant la protecció de dades i complint amb el marc legal de la Unió Europea o d'altres regions. Un altre repte és escollir entre enviar les dades a un repositori centralitzat (o magatzem de dades) per facilitar la seva anàlisi, o no. L'avantatge de no fer-ho, i de deixar-ho en els servidors originals, és que les dades físiques romanen sota el control del seu dipositari, i les dades es poden actualitzar ràpidament sense necessitat de tornar-los a enviar al servidor central.
La plataforma DataShield, desenvolupada al llarg dels últims deu anys al Regne Unit, permet aquest tipus d'anàlisi "federat": les dades dels estudis romanen al servidor respectiu de cada institució responsable dels mateixos, i la persona que analitza les dades no té accés a informació individual sobre els participants de l'estudi. "No obstant això, l'anàlisi de big data amb DataShield s'ha vist limitat per la manera en què s'emmagatzemen les dades i les capacitats d'anàlisi de la plataforma," comenta Juan Ramón González, investigador d'ISGlobal i coordinador de l'estudi.
Per resoldre aquest problema, González, en col·laboració amb Yannick Marcon d’Epigeny i l'equip de DataShield liderat per Paul Burton, van desenvolupar una nova arquitectura per DataShield (i el seu magatzem de dades anomenat Opal) per permetre l'ús de bases de dades grans i complexes des de la seva localització original , en el seu format original, i amb equips de còmput externs. L'equip més proporciona exemples reals de com es pot fer servir l'eina en projectes geoespacials o de genòmica. De fet, aquest estudi va comptar amb el suport del projecte VEIS (finançat per FEDER), que busca facilitar la integració i anàlisi de dades de l'Arxiu Genòmic Europeu. També podria utilitzar-se en moltes altres disciplines on hi hagi qüestions de confidencialitat, diuen les i els autors. Per exemple, en l'anàlisi de neuroimatges, o combinant big data amb intel·ligència artificial per al diagnòstic clínic.
"En particular, la nostra eina podria aplicar-se a la iniciativa europea del genoma anomenada Beyond One Million Genomes (B1MG)", diu González. L'objectiu d'aquesta iniciativa, signada per 22 països europeus, és donar accés transfronterer a un milió de genomes seqüenciats per al 2022 . Llançada per l'organització ELIXIR, també busca anar més enllà de la genòmica i avançar en el desenvolupament d'infraestructura per compartir dades que “ajudi el personal clínic a avançar en la medicina personalitzada i beneficiar els seus pacients, el personal científic a entendre millor les malalties, i les persones innovadores a contribuir i impulsar l'economia europea”. "L'estructura que descrivim en l'estudi respon bé a aquest objectiu", assenyala González.
L'equip desenvolupador ha generat un llibre en línia per ajudar els i les investigadors a utilitzar aquesta eina ( https://isglobal-brge.github.io/resource_bookdown ).
El projecte VEIEU ha estat cofinançat en un 50% pel Fons Europeu de Desenvolupament Regional de la Unió Europea en el marc de el Programa Operatiu FEDER de Catalunya 2014-2020, amb el suport de la Generalitat de Catalunya.
Referència
Marcon I, Bishop T, Avraam D, Escrigui-Montagut X, Ryser-Welch P, et al. (2021) Orchestrating privacy-protected big data analyses of data from different resources with R and DataSHIELD. PLOS Computational Biology 17 (3): e1008880. https://doi.org/10.1371/journal.pcbi.1008880