Sprachmodelle für Serviceroboter

Am 26. Mai 2023 ist Heft 4/2023 der Zeitschrift messtec drives Automation erschienen. Darin enthalten ist der Beitrag „Die Mächtigkeit von Sprachmodellen“ von Prof. Dr. Oliver Bendel. Er geht auf Anwendungen ein, die man noch wenig kennt, die aber relevant sein werden für Service- und Industrieroboter und für Brain-Computer-Interfaces. In diesem Bereich hat vor allem das Sprachmodell PaLM-E für Aufmerksamkeit gesorgt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität miteinander verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Aber nicht nur Google und TU Berlin forschen auf diesem Gebiet – in dem Paper „ChatGPT for Robotics“ hat auch Microsoft erste Ergebnisse vorgestellt. Sprachmodelle mit solchen Wahrnehmungs- und Steuerungsmöglichkeiten wären interessant für Lio und Optimus oder für soziale Roboter im Bildungsbereich, die nicht nur kommunizieren, sondern in vielfältiger Weise interagieren. Wichtig ist, dass den Fähigkeiten bei der Wahrnehmung und Steuerung entsprechende Fähigkeiten der Motorik gegenüberstehen. Der Zweiseiter kann über www.wileyindustrynews.com/messtec-drives-automation/messtec-drives-automation-04-23 heruntergeladen werden.

Abb.: Ein futuristischer Roboter

ChatGPT aus Sicht von Informations- und Maschinenethik

Am 26. Mai 2023 hält Prof. Dr. Oliver Bendel einen Gastvortrag beim scil-Modul „Dialogorientierte Lern- und Assistenzsysteme“ an der Universität St. Gallen. Er stellt aus Sicht von Informations- und Maschinenethik verschiedene Überlegungen zu ChatGPT an. Zunächst ist die Frage, woher die Daten für das zugrunde liegende Sprachmodell kommen und unter welchen Bedingungen das Reinforcement Learning from Human Feedback abläuft. Zudem dürfte relevant sein, welche Daten man beim Prompt preisgibt und welche Prompts auf welche Art und Weise zurückgewiesen werden. Ein weiteres Problemfeld ist das Halluzinieren der Sprachmodelle bzw. der darauf basierenden Anwendungen. Diese verdrehen Fakten und erfinden Referenzen. Nicht zuletzt ergeben sich für zahlreiche Anwendungsfelder wie Aus- und Weiterbildung besondere Herausforderungen … Mit Visual ChatGPT soll man man über Texteingaben Bilder generieren und dann einzelne Elemente editieren können. Solche und andere Bildgeneratoren wie DALL-E, Stable Diffusion und Midjourney werfen wiederum zahlreiche ethische Fragen auf. GPT-3 und GPT-4 bzw. ChatGPT sind nicht nur für bzw. als Chatbots und Contentgeneratoren relevant, sondern auch für Industrie- und Serviceroboter. In diesem Bereich hat indes vor allem das Sprachmodell PaLM-E Aufmerksamkeit erregt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Dabei sind wiederum Herausforderungen vorhanden, etwa mit Blick auf Verlässlichkeit und Haftung. Oliver Bendel hat vor einem Vierteljahrhundert an der Universität St. Gallen gearbeitet – als Leiter des CC E-Learning – und geforscht, zu Conversational Agents und Embodied Conversational Agents in Lernumgebungen, sogenannten Pedagogical Agents. Weitere Informationen zum scil über www.scil.ch.

Abb.: Was sagt der Chatbot und warum?

Sprachmodelle für Roboterarme

Forscher von Google und der TU Berlin haben am 6. März 2023 ein verkörpertes, multimodales Sprachmodell mit dem Namen PaLM-E vorgestellt, das virtuelle und physische Welt verbindet. So kann man per Spracheingabe einen Haushaltsroboter steuern und ihn dazu bringen, bestimmte Gegenstände zu holen oder andere Tätigkeiten zu verrichten. Der Prompt kann dabei vom Benutzer spontan aus seiner eigenen Beobachtung der Umwelt abgeleitet werden. Die Idee der PaLM-E-Architektur besteht laut Projektwebsite darin, kontinuierliche, verkörperte Beobachtungen wie Bilder, Zustandseinschätzungen oder andere Sensormodalitäten in den Spracheinbettungsraum eines vortrainierten Sprachmodells zu integrieren. Im Beispielvideo lautet die Instruktion in deutscher Übersetzung: „Bring mir die Reischips aus der Schublade“. Golem schreibt in einem Artikel: „Dazu analysiert Palm-E die Daten der Roboterkamera, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Damit entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, was eine autonomere Robotersteuerung ermöglicht.“ (Golem, 10. März 2023) Im Video fährt der Roboter – ein Roboterarm auf einer mobilen Plattform, ganz ähnlich wie Lio – zur Schublade und entnimmt ihr die Packung. In dem Paper „ChatGPT for Robotics: Design Principles and Model Abilities“ von Microsoft-Forschern wird eine ähnliche Strategie verfolgt, wobei ChatGPT verwendet wird, das wiederum auf GPT-3 basiert. Das Paper zu PaLM-E kann hier heruntergeladen werden.

Abb.: Über Sprachmodelle kann man Roboterarme steuern