Texte bilden einen wesentlichen Bestandteil aller verfügbaren Daten, häufig auch als unstrukturierte Daten bezeichnet. Die Bandbreite ist groß, von Literatur über Produktbeschreibungen bis hin zu Freitextfeldern in ansonsten strukturierten Datenbanken, um nur einige Beispiele zu nennen.
In dieser Veranstaltung geht es darum, Methoden kennenzulernen, um Informationen aus Texten zu extrahieren. Anwendungen gibt es viele, z.B. die automatische Verschlagwortung von Texten anhand der wichtigsten Begriffe im Text, die Identifizierung von Personen in einem Roman oder die Extraktion von Produktmerkmalen aus einer Beschreibung.
Wir behandeln die Grundlagen der maschinellen Sprachverarbeitung, kombiniert mit Ansätzen aus dem Data Mining. Der Schwerpunkt liegt dabei auf der Nutzung der Verfahren in spezieller Software (z.B. RapidMiner, GATE, Knime) und der praktischen Anwendung der Verfahren in eigenen Programmen.
Lernziele
- Grundlagen der maschinellen Sprachverarbeitung (NLP).
- Anwendung der Verfahren in eigenen Projekten.
Voraussetzungen
Grundlegende Programmierkenntnisse in einer Programmiersprache.
Prüfungsleistung
Ablauf der Veranstaltung
Lernmaterial / Skript
Parallel zur Veranstaltung wird ein Skript mit weiterführenden Informationen erstellt.