Vergleich von kontinuierlichen Single-Agent Reinforcement Learning-Steuerungen in einer simulierten Logistikumgebung mit NVIDIA Omniverse

Autor/innen

  • Mike Wesselhöft Institut für Technische Logistik, Technische Universität Hamburg
  • Philipp Braun Institut für Technische Logistik, Technische Universität Hamburg
  • Jochen Kreutzfeldt Institut für Technische Logistik, Technische Universität Hamburg

DOI:

https://doi.org/10.2195/lj_proc_wesselhoeft_en_202310_01

Schlagworte:

Autonome Roboter, Künstliche Intelligenz, Logistik 4.0, Reinforcement Learning, Robotik, artificial intelligence, autonomous mobile robots, logistics 4.0, reinforcement learning, robotics

Abstract

Mit dem Übergang zur Logistik 4.0 hat der zunehmende Bedarf an autonomen mobilen Robotern (AMR) in der Logistik die Komplexität der Flottensteuerung in dynamischen Umgebungen erhöht. Reinforcement Learning (RL), insbesondere dezentrale RL-Algorithmen, haben sich aufgrund ihrer Fähigkeit, in unsicheren Umgebungen zu lernen, als potenzielle Lösung erwiesen. Während sich diskrete RL-Strukturen bewährt haben, bleibt ihre Anpassungsfähigkeit in der Logistik aufgrund ihrer inhärenten Einschränkungen fraglich. In diesem Beitrag wird eine vergleichende Analyse kontinuierlicher RL-Algorithmen - Advantage Actor-Critic (A2C), Deep Deterministic Policy Gradient (DDPG) und Proximal Policy Optimization (PPO) - im Kontext der Steuerung eines Turtlebot3 in einem Lagerszenario vorgestellt. Unsere Ergebnisse zeigen A2C als Spitzenreiter in Bezug auf Erfolgsrate und Trainingszeit, während DDPG bei der Minimierung der Episodenlänge punktet und PPO lediglich mit einer geringen Trainingsdauer aufwarten kann. Diese Studie unterstreicht das Potenzial von kontinuierlichen RL-Algorithmen, insbesondere A2C, für die Zukunft des AMR-Flottenmanagements in der Logistik, wobei gerade im Bereich des Finetunings der Algorithmen noch viel Arbeit zu tun ist.

Downloads

Veröffentlicht

11.10.2023

Zitationsvorschlag

Wesselhöft, M., Braun, P., & Kreutzfeldt, J. (2023). Vergleich von kontinuierlichen Single-Agent Reinforcement Learning-Steuerungen in einer simulierten Logistikumgebung mit NVIDIA Omniverse. Logistics Journal: Proceedings, (19). https://doi.org/10.2195/lj_proc_wesselhoeft_en_202310_01