Kleiner Code schrubbt große Datenbank
Der Gewinnerbeitrag der Open Research Challenge 2020 liefert eine Methode, paläontologische Datensätze zu bereinigen
Wie reagierten Organismen auf klimatische Veränderungen in der Vergangenheit? Warum haben mache Spezies Massenaussterben überlebt? In der Paläontologie gibt es viele offene Fragen, die nur durch den Einsatz von Big Data beantwortet werden können. – Und auch nur dann, wenn die Datenbanken gut sortiert sind.
Ein Problem der Datenbanken ist die Zuordnung in die Klassen, die Taxonomie, denn diese verändert sich mit neuen Erkenntnissen. Die Änderungen zu dokumentieren ist schwierig und oft werden Korrekturen nicht in existierende Datenspeicher übernommen. Folglich sind Wissenschaftlerinnen und Wissenschaftler gezwungen sicherzustellen, dass ihre Daten auf dem neusten Stand sind bevor sie ihren eigentlichen Fragen nachgehen können. Forschende der FAU, die sehr oft mit Datenbanken arbeiten, haben junge Wissenschaftlerinnen und Wissenschaftler nach einer Lösung für dieses Problem gefragt.
Die Antwort kommt aus dem Vereinigten Königreich. Der Gewinner der Open Research Challenge 2020, Joseph Flannery Sutherland von der School of Earth Sciences der Universität Bristol, hat einen Code entwickelt, der Paläontologen helfen wird, Fehler und Ungereimtheiten in Datensätzen zu markieren. Dadurch können sich Wissenschaftlerinnen und Wissenschaftler auf ihre eigentliche Forschung konzentrieren.
Joe Flannery Sutherland hat einen Code geschrieben, der taxonomische Fehler in der Paleobiology Database (PBDB), der größten Datenbank der Disziplin, automatisch berichtigt. Die Daten werden von Forschenden aus aller Welt zusammengetragen und für quantitative Analysen zu Diversifizierung und Aussterben genutzt. Mittlerweile besteht die Datenbank aus mehr als 1,2 Millionen Datensätzen, von denen viele fehlerhaft oder veraltet sind. Der Code von Joseph Flannery Sutherland, der im Statistikprogramm R entwickelt wurde, wird falsche taxonomische Zuordnungen und Widersprüche in der Schichtzuordnung korrigieren und im Idealfall durch richtige Informationen ersetzen.
Wissenschaftlerinnen und Wissenschaftler müssen dadurch nicht mehr die einzelnen Einträge per Hand berichtigen, etwas, das viel Zeit kostet und fehleranfällig ist. Stattdessen können sie sich auf eine unkomplizierte und reproduktionsfähige Methode verlassen.
Prof. Dr. Wolfgang Kießling vom Lehrstuhl für Paläoumwelt an der FAU ist sich sicher, dass der Code die Qualität von Veröffentlichungen und Forschung verbessern wird. „Der Code den Joe Flannery Sutherland entwickelt hat, hilft sehr dabei, unschlüssige und falsche Informationen aus den Datensätzen zu entfernen. Ich bin mich sicher, dass hochspannende Papiere daraus entstehen werden, die die Gesamtqualität der Forschung steigern werden.“
Mehr Informationen über die Open Research Challenge gibt es auf der Website des Wettbewerbs.
Weitere Informationen
Pressestelle der FAU
09131/85-70229
presse@fau.de