Skip to content

Python Code to extract gene regulatory Information and create Boolean functions from PDFs using OCR and NLP, realized as a Django Website.

Notifications You must be signed in to change notification settings

brismonis/PDF-to-Rules

Repository files navigation

Known Bugs:

  • crashes when uploading anything other than PDF (File Validator needed)

Konzept:

Concept

Beschreibung:

Um langfristige Verhaltensweisen von biologischen Prozessen vorherzusagen, können Netzwerkmodelle simuliert und analysiert werden. Eine Möglichkeit dazu bilden die Bool’schen Netzwerke, deren Aufbau durch Bool’sche Funktionen, auch genannt Netzwerkregeln, erfolgt. Dabei können die Informationen, die zum Erstellen von Netzwerkregeln benötigt werden, aus biomedizinscher Literatur extrahiert werden. Dieser Vorgang ist jedoch zeitaufwendig, weshalb in dieser Arbeit ein Prototyp mit geeigneter Nutzeroberfläche entwickelt wurde, der die Generierung von Netzwerkregeln aus wissenschaftlichen Arbeiten im PDF-Format automatisiert. Dieser Vorgang erfolgt mit Hilfe von „Optical Character Recognition “ (OCR) und „Natural Language Processing “ (NLP), indem der enthaltene Text vollständig extrahiert und anschließend mit natürlicher Sprachverarbeitung untersucht wird. Zusammen mit „Integrated Network and Dynamical Reasoning Assembler“ (INDRA) können die Ergebnisse in das Format der Bool’schen Funktionen überführt werden. Eine Evaluation verschiedener Parameter hat gezeigt, dass der Prototyp in angemessener Zeit vollständige Publikationen verarbeiten und korrekte Netzwerkregeln generieren kann.

Kontakt:

susannebair@gmx.de

About

Python Code to extract gene regulatory Information and create Boolean functions from PDFs using OCR and NLP, realized as a Django Website.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published