Überblick
Gesamtziel des Projekts ist die Entwicklung und Beforschung eines ChatBots für die Hochschule für Technik Stuttgart am Beispiel eines TransferBots für den Transfer und die Vermittlung von Wissenschafts- und Forschungsergebnissen der HFT Stuttgart. Im Hinblick auf diesen Anwendungszweck werden vorhandene Large Language Models (LLMs) und ihre Parametrisierung validiert, die relevanten Daten aggregiert und vorbereitet sowie der TransferBot in einem Prototyp realisiert und evaluiert.
![[Bild: HFT Stuttgart] Transferbot Logo](/fileadmin/Dateien/Forschung/_processed_/1/2/csm_Transferbot-Logo_e787236ed6.png)
Fragestellung
- Validierung vorhandener LLMs im Hinblick auf ihre Eignung und Ermittlung einer geeigneten Parametrisierung für die Anwendung als TransferBot auf der Homepage der HFT Stuttgart
- Auswahl und Aggregierung der relevanten Daten (u.a. von der Homepage, aus dem Forschungsmanagement usw.) in Kooperation mit den entsprechenden Expert:innen an der Hochschule und Aufbereitung in einer geeigneten Datenbank
- Implementation eines lauffähigen Prototyps, dabei Experimente mit lizenzbasierten, frei verfügbaren und ggf. auch selbst betriebenen Sprachmodellen,
verschiedenen Aufbereitungsmethoden für die abzudeckenden Informationen und verschiedenen Prompting-Strategien - Evaluation des TransferBots im Hinblick auf Richtigkeit und Abdeckung der Antworten
- Praxisfeste Erstellung der als nötig identifizierten technischen Ressourcen (Wissensdatenbank, ggf. LLM-Betrieb) und Einbindung des TransferBots in die Homepage der HFT Stuttgart
Wissenschaftliche Vorgehensweise und Methodik
ChatBots auf Grundlage der neuesten technischen Entwicklungen im Bereich der großen Sprachmodelle (Large Language Models) versprechen einen niederschwelligen Zugang zu Informationen.
Im Gegensatz zu vorgegebenen Texten z. B. auf einer Projekthomepage oder einer Schlagwortsuche formulieren LLMs anpassungsfähig und individuell maßgeschneiderte Antworten auf die Anfragen der Anwender:innen.
So bietet sich die Technologie auch dafür an, als zusätzlicher Kommunikationskanal Forschungsergebnisse inhaltlich und technisch leicht zugänglich in die Wissenschafts- und Zivilgesellschaft zu transportieren, wie an der HFT Stuttgart angestrebt.
Eine wichtige Herausforderung bei der Entwicklung eines solchen TransferBots ist die Tendenz von LLMs, Informationen zu halluzinieren und dabei so glaubwürdig zu präsentieren, dass die
Fehlinformationen nicht auf den ersten Blick erkennbar sind. Ein solcherart halluzinierender TransferBot wäre selbstverständlich kontraproduktiv. Daher wählen wir die Herangehensweise der Retrieval Augmented Generation (RAG), bei der in einem vorgeschalteten Schritt relevante und verlässliche Informationen identifiziert werden und das LLM nur noch die Aufgabe hat, diese Informationen flüssig und verständlich darzubieten.
Die RAG-Herangehensweise sorgt nicht nur für inhaltlich korrekte Ausgaben des TransferBots, sondern sichert ihn auch weitestgehend gegen böswillige Versuche ab, mittels der Prompt-Injection-Strategie durch fingierte Anfragen sachfremde oder anstößige Inhalte generieren zu lassen, da zu diesen Anfragen natürlich keine Informationen in der vertrauenswürdigen Datensammlung vorliegen.
Die Auswahl und Aufbereitung der verlässlichen Dokumente ist daher für die Qualität der Ausgaben wichtig und wird empirisch ermittelt.
Eine weitere wichtige Überlegung ist die Provenienz und Qualität des verwendeten LLMs. Lizenzbasierte Modelle sind garantiert qualitativ hochwertig und unaufwändig einzubinden,
verursachen aber laufende Kosten und sind aus Sicht des Daten- und Wissensschutzes fragwürdig.
Daher soll möglichst ein frei verfügbares (Open-Source-)LLM genutzt werden, das an einem vertrauenswürdigen Ort betrieben werden kann (ggf. auch von der HFT Stuttgart selber).
Die genaue Herangehensweise wird hier in einem Qualitätsvergleich (z.B. durch extrinsische Evaluation von Modellreaktionen auf Useranfragen) ermittelt.
Angestrebte Ergebnisse
Belastbares Wissen über die Qualität der betrachteten LLMs und über eine günstige Parametrisierung eines ChatBots im Kontext des geplanten Anwendungsfalls wurde gewonnen.
Die grundlegende Datenbank wurde erstellt und mit relevanten Daten befüllt; ein verbindlicher Anforderungskatalog zur weiteren Datenerhebung wurde abgeleitet.
Ein Prototyp wurde entwickelt und seine Verlässlichkeit wurde evaluiert. Der Prototyp wurde in die Homepagestruktur der HFT Stuttgart eingebunden.
Leitung | Prof. Dr.-Ing. Volker Coors, Prof. Dr. Ulrike Pado |
Partner | KM2 GmbH |
Förderkennzeichen | P2024-13-009 |
Fördergeber | Carl-Zeiss-Stiftung |
Programm | CZS Plus |
Ausschreibung | CZS Plus: Ausschreibung für Alumni der Carl-Zeiss-Stiftung |
Laufzeit | 01.04.2025–31.12.2025 |
Team
Name & Position | E-Mail & Telefon | Büro |
---|---|---|
Prorektor Forschung und Digitalisierung | +49 711 8926 2663 | 1/121 |
Professorin | +49 711 8926 2811 | 2/449 |