A Use Case for Moral Prompt Engineering

On May 28, 2025, the „Proceedings of the 2025 AAAI Spring Symposium Series“ (Vol. 5 No. 1) were published. Oliver Bendel was involved in two papers at the symposium „Human-Compatible AI for Well-being: Harnessing Potential of GenAI for AI-Powered Science“. The paper „Miss Tammy as a Use Case for Moral Prompt Engineering“ by Myriam Rellstab and Oliver Bendel is summarized as follows: „This paper describes an LLM-based chatbot as a use case for moral prompt engineering. Miss Tammy, as it is called, was created between February 2024 and February 2025 at the FHNW School of Business as a custom GPT. Different types of prompt engineering were used. In addition, RAG was applied by building a knowledge base with a collection of netiquettes. These usually guide the behavior of users in communities but also seem to be useful to control the actions of chatbots and make them competent in relation to the behavior of humans. The tests with pupils aged between 14 and 16 showed that the custom GPT had significant advantages over the standard GPT-4o model in terms of politeness, appropriateness, and clarity. It is suitable for de-escalating conflicts and steering dialogues in the right direction. It can therefore contribute to users’ well-being and is a step forward in human-compatible AI.“ The renowned and traditional conference took place from March 31 to April 2, 2025 in San Francisco. The proceedings are available at ojs.aaai.org/index.php/AAAI-SS/issue/view/654.

Fig.: Miss Tammy

Towards Moral Prompt Engineering

The paper „Miss Tammy as a Use Case for Moral Prompt Engineering“ by Myriam Rellstab and Oliver Bendel from the FHNW School of Business was accepted at the AAAI 2025 Spring Symposium „Human-Compatible AI for Well-being: Harnessing Potential of GenAI for AI-Powered Science“. It describes the development of a chatbot that can be available to pupils and de-escalate their conflicts or promote constructive dialogues among them. Prompt engineering – called moral prompt engineering in the project – and retrieval-augmented generation (RAG) were used. The centerpiece is a collection of netiquettes. On the one hand, these control the behavior of the chatbot – on the other hand, they allow it to evaluate the behavior of the students and make suggestions to them. Miss Tammy was compared with a non-adapted standard model (GPT-4o) and performed better than it in tests with 14- to 16-year-old pupils. The project applied the discipline of machine ethics, in which Oliver Bendel has been researching for many years, to large language models, using the netiquettes as a simple and practical approach. The eight AAAI Spring Symposia will not be held at Stanford University this time, but at the San Francisco Airport Marriott Waterfront, Burlingame, from March 31 to April 2, 2025. It is a conference rich in tradition, where innovative and experimental approaches are particularly in demand.

Abb.: Dieser Avatar wurde wieder verworfen (Bild: Ideogram)

Die Maschinenethik ist Alltagsgeschäft

Die Maschinenethik, die vor zehn Jahren oft noch als Kuriosität abgetan wurde, ist inzwischen Alltagsgeschäft. Sie ist etwa gefragt, wenn man bei Sprachmodellen bzw. Chatbots sogenannte Guardrails einzieht, über Alignment in der Form von Finetuning oder über Prompt Engineering. Wenn man GPTs erstellt, also „custom versions of ChatGPT“, wie Open AI sie nennt, hat man das „Instructions“-Feld für das Prompt Engineering zur Verfügung. Dort kann der Prompteur oder die Prompteuse bestimmte Vorgaben und Einschränkungen für den Chatbot erstellen. Dabei kann auf Dokumente verwiesen werden, die man hochgeladen hat. Genau dies macht Myriam Rellstab derzeit an der Hochschule für Wirtschaft FHNW im Rahmen ihrer Abschlussarbeit „Moral Prompt Engineering“, deren Zwischenergebnisse sie am 28. Mai 2024 vorgestellt hat. Als Prompteuse zähmt sie GPT-4o, mit Hilfe ihrer Anweisungen und – dies hatte der Initiator des Projekts, Prof. Dr. Oliver Bendel, vorgeschlagen – mit Hilfe von Netiquetten, die sie gesammelt und dem Chatbot zur Verfügung gestellt hat. Der Chatbot wird gezähmt, der Tiger zum Stubentiger, der ohne Gefahr etwa im Klassenzimmer eingesetzt werden kann. Nun ist es bei GPT-4o so, dass schon vorher Guardrails eingezogen wurden. Diese wurden einprogrammiert oder über Reinforcement Learning from Human Feedback gewonnen. Man macht also genaugenommen aus einem gezähmten Tiger einen Stubentiger. Bei bestimmten Open-Source-Sprachmodellen ist dies anders. Das wilde Tier muss erst einmal eingefangen und dann gezähmt werden. Und selbst dann kann es einen ernsthaft verletzen. Doch auch bei GPTs gibt es Tücken, und wie man weiß, können Stubentiger durchaus fauchen und kratzen. Im August liegen die Ergebnisse des Projekts vor. Bereits bei Data, einem Chatbot für den Studiengang Data Science an der Hochschule für Technik FHNW, war Moral Prompt Engineering angewandt worden.

Abb.: Ein noch ungezähmter Tiger