Beschreibung von Natural Language Processing [WS24]

Natural Language Processing [WS24]

Titel: Natural Language Processing

Veranstalter: Marco Pawlowski, Hendrik Annuth

Beschreibung: Nach der Computervision stellt die natürliche Sprachverarbeitung (NLP) die nächste Revolution im Bereich des Deep Learning dar. Das Thema kann aus verschiedenen Perspektiven betrachtet werden. Dazu gehören die technischen Aspekte und die Funktionalität dieser Modelle, die Fähigkeiten und Grenzen dieser Modelle sowie Anwendungsfälle. In diesem Seminar werden wir diese verschiedenen Bereiche genauer betrachten.

Erwartungen: Von jedem Teilnehmer wird erwartet, dass er eine maximal 45-minütige Präsentation mit anschließender Diskussion zu seinem Thema hält und eine 10-seitige schriftliche Version seines Vortrags erstellt. Alle Vorträge des Seminars finden unter Anwesenheitspflicht statt. Von den Teilnehmern wird erwartet, dass sie miteinander kommunizieren, um Themenüberschneidungen zu vermeiden und zu besprechen, wer welches Thema präsentieren wird. Der Abgabetermin für die schriftlichen Abgaben ist eine Woche vor Ihrer Präsentation. Das Dokument muss dem PDF-Dateistandard entsprechen.

Namenskonvention für die schriftliche Abgabe:

Seminar_[Themennummer mit führender Null]_[Semester/Jahr]_[Nachname]_[Titel].pdf

Beispiel: Seminar_04_SS24_Schmidt_Plasmakonverter.pdf

Die schriftliche Abgabe dient der Vorbereitung auf die Bachelorarbeit und sollte daher am wissenschaftlichen Standard orientiert werden. Texte sollten leicht verständlich und sinnvoll illustriert sein. Von den Teilnehmern wird erwartet, dass sie wichtige Quellen und Autoren benennen und Publikationen zitieren. Von den Teilnehmern wird erwartet, dass sie Quellenmaterial verwenden, das wissenschaftlichen Standards entspricht, wie z. B. wissenschaftliche Literatur und andere Formen wissenschaftlicher Veröffentlichungen.

Die schriftliche Einreichung darf einen Umfang von 10 Seiten nicht überschreiten, kann diesen allerdings unterschreiten. Hierbei wird jegliche Art und Form einer Seite gezählt, einschließlich beispielsweise Deckblättern oder Inhaltsverzeichnissen. Die Bewertung der Vorträge der Teilnehmer basiert nicht nur auf deren ausgewiesener Fachkompetenz, sondern auch auf der didaktischen Aufbereitung der Präsentation und des schriftlichen Materials.

Von den Teilnehmern wird daher erwartet, dass sie ihre inhaltlichen Erklärungen, Darstellungen und Illustrationen sinnvoll vorbereitet haben. Der Bewertungsschwerpunkt liegt auf der Präsentation. Bedenken Sie dabei unbedingt, dass die schriftliche Fassung und die mündliche inhaltlich voneinander abweichen dürfen. Dies ist insbesondere dann sinnvoll, wenn Sie im Vortrag zur besseren Verständlichen Themen vertiefen und zusätzliche Beispiele verwenden.

Ablauf: Das Seminar hat 5 ECTS-Punkte und damit einen vorgesehenen Arbeitsaufwand von 150 Arbeitsstunden. Um jede einzelne Arbeit zu würdigen, wird es maximal zwei Präsentationen pro Termin geben – unter besonderen Umständen möglicherweise drei – was zu voraussichtlich 6 Terminen führt.

Die Termine für die Präsentationen könnten bereits am ersten Semestertag beginnen! Dessen müssen sich die Teilnehmer bewusst sein, insbesondere bei der Wahl eines der ersten Themen. Wenn Sie wissen, dass Sie Ihre Präsentation nicht halten werden, informieren Sie uns bitte so früh wie möglich, damit keine Teilnehmer zu einem Seminar fahren, das nicht stattfindet.

Feedback: Das Seminar dient der Vorbereitung auf die Bachelorarbeit. Daher möchten wir Ihnen sowohl zu Ihrer Präsentation, als auch zu Ihrer schriftlichen Arbeit Feedback geben. Wir glauben, dass der Lerneffekt maximiert wird, wenn alle Seminarteilnehmer an diesem Prozess teilhaben. Wenn dies für Sie nicht akzeptabel ist, informieren Sie uns bitte vor Ihrer Präsentation.

Verfügbare Themen:

Entwicklung der Sprachübersetzung

Übersetzung ist ein wesentlicher Aspekt der Sprachverarbeitung. Die verfügbaren Ansätze, Schwierigkeiten und aktuelle/zukünftige Entwicklung der Sprachübersetzung sollten analysiert und präsentiert werden.

Entwicklung des Transferlernens in NLP

Mit möglicherweise Billionen von parametern ist GPT-4 eines der größten Sprachmodelle, die je erstellt wurden. Es ist nicht praktikabel, für jedes neue Problem ein Modell von Grund auf zu lernen. Daher ist Transferlernen ein wichtiges Thema für NLP.

NLP-Systeme in Anwendungen für den Kundenservice

Chatbots, Empfehlungssysteme und andere Kundenservices sind Bereiche, in denen KI und NLP viel Aufmerksamkeit erhalten haben. Dies führt zu speziellen Anwendungsfällen und zusätzlichen Barrieren für NLP-Systeme.

Plagiaterkennung mit NLP

Die Erkennung von Plagiaten umfasst neben der Ähnlichkeit von Texten auch die Ähnlichkeit der Bedeutung. Wie können neue Entwicklungen im NLP in diesem Bereich helfen?

Probleme durch generierte Texte

Texte die durch NLP generiert sind, können in verschiedener Hinsicht Probleme erzeugen. Diese können darin liegen, das Falschinformationen erzeugt und verbreitet werden, oder dass schulische oder universitäre Aufgaben gelöst werden, ohne dass der angegebene Autor sich mit dem Thema inhaltlich auseinandergesetzt hat. Gefälschte Texte sind besonders im juristischen Kontext ein Problem.

Erkennen von NLP generierten Texten

Um den im vorhinein beschriebenen Problemen Herr zu werden, bedarf es Erkennungsmechanismen für solche Texte. Welche Verfahren gibt es, wie gut funktionieren diese und wird es bald ein Werkzeug geben, das dieses Problem löst?

Vorurteile in NLP-Systemen

Vorurteile in Daten sind ein allgemeines Problem bei der Schulung neuronaler Netzwerke. Falsch gekennzeichnete Daten und Ungleichgewichte können zu falschen Vorhersagen führen.

Adversarial-Angriffe auf Natural Language Processing-Systeme

Wenn die Aktivierungskriterien eines neuronalen Netzwerks bekannt sind, können Daten so manipuliert werden, dass es zu falschen Klassifikationen kommt. Beeindruckende Beispiele auf dem Gebiet der Vision sind der One-Pixel-Angriff.

Datenauswertung aus Natural Language Processing-Systemen

Daten werden verwendet, um ein neuronales Netzwerk zu trainieren. Je nach Anwendung können diese Daten sensible Informationen enthalten. Zusätzlich stellt sich die Frage, wie viel der Informationen in den Gewichten der Netzwerke enthalten ist und ob sie extrahiert werden können.

Skalierung von Sprachmodellen

Die Anzahl der Gewichte neuronaler Netzwerke hat in den letzten Jahren enorm zugenommen. Können neuronale Netzwerke beliebig skaliert werden? Wo liegen die Grenzen? Was spricht für die Verwendung immer größerer Netzwerke und was spricht dagegen?

Meta-Lernen für NLP

Ein Versuch, die Einschränkungen neuronaler Netzwerke zu lösen, sind das sogenannte Meta-Lernen. Dabei geht es darum, Regeln oder Wissen aus Daten abzuleiten, um diese Regeln zur Lösung neuer Probleme verwenden zu können. Oder treffender ausgedrückt: "Lernen zu lernen".

NLP vs NLU

Die Verarbeitung von Sprache ist nicht (immer) gleichbedeutend mit dem Verständnis von Sprache.

Themenvergabe: 08.07.2024 12:15 Uhr, Online (bitte beachten Sie die Ankündigungen im Kurs.)

Trainer/in: Hendrik Annuth, Marco Pawłowski

Hier klicken, um den Kurs zu betreten