Seminar: Mathematische Methoden der Künstlichen Intelligenz

Lehrteam
Felix Benning, Prof. Dr. Leif Döring
Inhalt
16.11.2022, ab 8:30 in der Mathe Lounge (B6, B3.01)
Einführung in Multi-armed bandits, Exploration vs. Exploitation (Birdal Canel Cantekin)
Softmax Algorithmus für Multi-armed bandits (Elisa Rogers)
UCB Algorithmus für Multi-armed bandits (Lena Lincke)
Thompson-Sampling (Nils Bargtel)
Einführung MDP – policy iteration Verfahren (Arne Huckemann)
Einführung MDP – policy gradient Verfahren (Leif Döring)
23.11.2022, ab 8:30 in der Mathe Lounge (B6, B3.01)
Q-learning vs. Double-Q learning (Calvin Speiser)
Adversarial MDPs (Leo Vela)
(Almut Röder)
Trust Region Policy Optimization (Till Freihaut)
Natural Gradient Descent (Bene Wille)
Hinweise
Einen kurzen Leitfaden zur Vorbereitung und erfolgreichen Durchführung eines Seminarvortrags finden ihr hier.