Revisiting the Trolley Problem

On May 28, 2025, the „Proceedings of the 2025 AAAI Spring Symposium Series“ (Vol. 5 No. 1) were published. Oliver Bendel was involved in two papers at the symposium „Human-Compatible AI for Well-being: Harnessing Potential of GenAI for AI-Powered Science“. The paper „Revisiting the Trolley Problem for AI: Biases and Stereotypes in Large Language Models and their Impact on Ethical Decision-Making“ by Sahan Hatemo, Christof Weickhardt, Luca Gisler, and Oliver Bendel is summarized as follows: „The trolley problem has long served as a lens for exploring moral decision-making, now gaining renewed significance in the context of artificial intelligence (AI). This study investigates ethical reasoning in three open-source large language models (LLMs) – LLaMA, Mistral and Qwen – through variants of the trolley problem. By introducing demographic prompts (age, nationality and gender) into three scenarios (switch, loop and footbridge), we systematically evaluate LLM responses against human survey data from the Moral Machine experiment. Our findings reveal notable differences: Mistral exhibits a consistent tendency to over-intervene, while Qwen chooses to intervene less and LLaMA balances between the two. Notably, demographic attributes, particularly nationality, significantly influence LLM decisions, exposing potential biases in AI ethical reasoning. These insights underscore the necessity of refining LLMs to ensure fairness and ethical alignment, leading the way for more trustworthy AI systems.“ The renowned and traditional conference took place from March 31 to April 2, 2025 in San Francisco. The proceedings are available at ojs.aaai.org/index.php/AAAI-SS/issue/view/654.

Fig.: Revisiting the Trolley Problem

Revisiting the Trolley Problem for AI

The paper “Revisiting the Trolley Problem for AI: Biases and Stereotypes in Large Language Models and their Impact on Ethical Decision-Making“ by Sahan Hatemo, Christof Weickhardt, Luca Gisler (FHNW School of Computer Science), and Oliver Bendel (FHNW School of Business) was accepted at the AAAI 2025 Spring Symposium „Human-Compatible AI for Well-being: Harnessing Potential of GenAI for AI-Powered Science“. A year ago, Sahan Hatemo had already dedicated himself to the topic of „ETHICAL DECISION MAKING OF AI: An Investigation Using a Stereotyped Persona Approach in the Trolley Problem“ in a so-called mini-challenge in the Data Science degree program. His supervisor, Oliver Bendel, had told the other scientists about the idea at the AAAI 2025 Spring Symposium „Impact of GenAI on Social and Individual Well-being“ at Stanford University. This led to a lively discussion. The student recruited two colleagues, Christof Weickhardt and Luca Gisler, and worked on the topic in a much more complex form in a so-called Challenge X. This time, three different open-source language models were applied to the trolley problem. In each case, personalities were created with nationality, gender, and age. In addition, the data was compared with that of the MIT Moral Machine project. Sahan Hatemo, Christof Weickhardt, and Luca Gisler will present their results at the end of March or beginning of April 2025 in San Francisco, the venue of this year’s event.

Fig.: Variants of the trolley problem (Image: Jonas Kubilius)

Eine weitere moralische Maschine

Tobias Buess, Yvo Keller und Alexander Shanmugam haben im Herbstsemester 2023 Data entwickelt, einen Chatbot für den Studiengang Data Science an der Hochschule für Technik FHNW. Betreuer waren Fernando Benites, ein Computerlinguist, und Oliver Bendel, ein Maschinenethiker. Der Chatbot kann Fragen zum Studiengang beantworten und mit Hilfe seiner künstlichen Moral auf die Sorgen und Bedürfnisse der Benutzer eingehen. Dem Chatbot stehen folgende Informationen aus dem Studiengang zur Verfügung: Spaces-Inhalte (Spaces ist die In-formations- und Kommunikationsplattform des Studiengangs), Handbuch, Ausbildungskonzept, Modulübersicht und Studienreglement. Als Sprachmodell wurde u.a. Mistral 7B genutzt. Fernando Benites gehört – wie seine frühere Hochschule festgestellt hat – „zu den Besten seines Fachs“. Oliver Bendel erfand 2012 den GOODBOT, einen regelbasierten Chatbot, der dann 2013 von drei Studenten der Hochschule für Wirtschaft FHNW implementiert wurde. Er konnte Probleme des Benutzers erkennen und auf mehreren Stufen eskalieren, bis hin zur Herausgabe einer Notfallnummer. Tobias Buess, Yvo Keller und Alexander Shanmugam haben diese Idee aufgegriffen. Wenn der Benutzer sich als labil erweist, wird er von Data an die Psychologische Beratungsstelle FHNW oder an Die Dargebotene Hand verwiesen. Der Chatbot ist ein Prototyp und wird im Moment von Studierenden getestet. Die Abschlusspräsentation des Teams findet am 26. Januar 2024 statt.

Abb.: Data ist eine moralische Maschine (Bild: DALL-E 3)

Working Paper zu @ve

Im Jahre 2022 wurde das Projekt @ve durchgeführt. Der Chatbot läuft auf der Website www.ave-bot.ch und auf Telegram. Er basiert auf GPT-3.0 von OpenAI, also auf einer älteren Version des Sprachmodells. Initiiert hat das Projekt Prof. Dr. Oliver Bendel, der sich verstärkt toten, ausgestorbenen und gefährdeten Sprachen widmet. Entwickelt wurde @ve von Karim N’diaye, der an der Hochschule für Wirtschaft FHNW Wirtschaftsinformatik studiert hat. Man kann sich mit ihr auf Lateinisch unterhalten, also in einer toten Sprache, die dadurch gewissermaßen lebendig wird, und ihr Fragen zur Grammatik stellen. Getestet wurde sie von einer einschlägigen Expertin. Ein Nutzen besteht laut Karim N’diaye darin, dass man rund um die Uhr auf Latein kommunizieren kann und dabei überlegen muss, was und wie man schreibt. Eine Gefahr sei, dass immer wieder Fehler in den Antworten enthalten sind. So ist zuweilen die Wortreihenfolge nicht korrekt. Zudem kann es sein, dass der Sinn verdreht wird. Dies kann bei einem menschlichen Lehrer freilich auch passieren, und der Lernende sollte in jedem Falle wachsam sein und nach Fehlern suchen. Ohne Zweifel ist @ve ein Tool, das mit Gewinn in den Lateinunterricht integriert werden kann. Dort können die Schüler berichten, was sie mit ihr zu Hause erlebt haben, und sie können mit ihr vor Ort alleine oder in der Gruppe, vom Lehrer begleitet, einen Schwatz halten. Seit Ende November 2023 liegt ein Working Paper mit dem Titel „@ve: A Chatbot for Latin“ vor. Es wurde bereits im Sommer verfasst. Der Chatbot läuft voraussichtlich noch bis Ende des Jahres.

Abb.: Mit @ve kann man auf Latein plaudern (Bild: Ideogram)

Claude nutzt Constitutional AI

Die Maschinenethik kennt ganz unterschiedliche Ansätze. Man kann moralische Regeln und Werte in Systeme und Maschinen einpflanzen. Sie können vom Entwickler stammen oder von einer Ethikkommission. Sie können auch in einem mehrstufigen Verfahren von verschiedenen Interessengruppen entwickelt worden sein. Die Maschinen halten sich strikt an die moralischen Regeln und Werte – dies ist der Normalfall und der Fall bei Maschinen wie GOODBOT, BESTBOT oder HAPPY HEDGEHOG – oder passen sie selbst an. Wenn sie sie selbst anpassen, kann Machine Learning zum Einsatz kommen. Eine Ergänzung ist das Moralmenü, das dem Benutzer oder Besitzer die Auswahl verschiedener Optionen erlaubt. Bei Sprachmodellen gibt es ebenfalls mehrere Möglichkeiten. Dass sie bestimmte Prompts verweigern, wurde ihnen i.d.R. einprogrammiert. Dass sie in eine bestimmte Richtung tendieren, etwa was Atomkraft angeht, kann am Reinforcement Learning from Human Feedback (RLFH) liegen. Das Unternehmen Anthropic, gegründet von ehemaligen Open-AI-Mitarbeitern, trainiert laut The Verge seinen Chatbot Claude – der auf einem Sprachmodell basiert – mit Hilfe von ethischen Prinzipien. Es greift u.a. auf die Allgemeine Erklärung der Menschenrechte der Vereinten Nationen und die Nutzungsbedingungen von Apple zurück. Es handelt sich laut Mitgründer Jared Kaplan um Constitutional AI – im Grunde nichts anderes als eine spezifische Methode der Maschinenethik. Er erklärt: „The basic idea is that instead of asking a person to decide which response they prefer [with RLHF], you can ask a version of the large language model, ‚which response is more in accord with a given principle?'“ (The Verge, 9 May 2023) Im Paper „Constitutional AI: Harmlessness from AI Feedback“ erklärt eine Forschergruppe um Yuntao Bai: „We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as ‚Constitutional AI‘. The process involves both a supervised learning and a reinforcement learning phase.“ Das Paper erwähnt Maschinenethik nicht einmal – aber diese Disziplin wird durch die Anwendung bei Sprachmodellen einen weiteren Aufschwung erleben.

Abb.: Der Chatbot Claude (Foto: Anthropic)