Proteinforschung Bioinformatikprojekt erschließt verborgene Datenschätze
Eine automatisierte Reanalyse soll mehr aus den Informationen in internationalen Datenbanken herausholen.
Die Proteinforschung erzeugt riesige Datenmengen, die in internationalen Datenbanken gesammelt werden. Die darin vorhandenen Informationen sind teils noch nicht ausgewertet und somit versteckt und bei Suchen nicht auffindbar. Das will ein Team um Dr. Julian Uszkoreit und Dr. Michael Turewicz vom Zentrum für Proteindiagnostik Prodi und dem Medizinischen Proteomcenter der RUB ändern. Sie planen eine automatisierte Reanalyse der eingespeisten Daten. Das von ihnen geleitete Projekt „Increasing the translational value of public proteomics datasets: Automatic metadata-driven reanalysis in cloud infrastructures” wird für zwei Jahre von ELIXIR gefördert.
ELIXIR
Daten, die in der Massenspektrometrie-basierten Proteinforschung weltweit gewonnen werden, werden in internationalen Datenbanken gesammelt. Jeder Datensatz wird dafür nach bestimmten Standards aufbereitet und mit einer Beschreibung versehen, die zum Beispiel Auskunft darüber gibt, von welchem Organismus das Protein stammt, mit welchem Gerät die Daten gewonnen wurden und welche Einstellungen daran vorgenommen wurden. So können auch andere Forschende auf die Information zugreifen und für eigene Arbeiten nutzen. „Allerdings ist es oft so, dass man nur finden kann, wonach man sucht“, sagt Julian Uszkoreit. Die Datensätze beinhalten weit mehr Informationen, als man zurzeit auswerten kann.
Das Team des Projekts will es daher ermöglichen, eine automatisierte Reanalyse aller in die Datenbank eingespeisten Datensätze vorzunehmen, um auch schlummernde Informationen nutzbar zu machen.