Genel Bilgi
Kod | CENG045 |
Ad | Reinforcement Learning |
Dönem | 2024-2025 Eğitim-Öğretim Yılı |
Dönem | Güz |
Süre (T+U) | 3-0 (T-U) (17 Hafta) |
AKTS | 6 AKTS |
Yerel Kredi | 3 Yerel Kredi |
Eğitim Dil | Türkçe |
Seviye | Yüksek Lisans Dersi |
Tür | Normal |
Öğretim Şekli | Yüz Yüze Öğretim |
Bilgi Paketi Koordinatörü | Mehmet SARIGÜL |
Dersin Öğretim Elemanı |
Mehmet SARIGÜL
(A Grubu)
(Sor. Öğr. Ele.)
|
Dersin Amacı / Hedefi
Takviyeli öğrenme kursunun amacı, öğrencilere makine öğreniminin bir alt alanı olan pekiştirmeli öğrenmenin temellerini öğretmektir. Takviyeli öğrenme, ajanların belirli bir hedefe ulaşmak için bir ortamda karar vermeyi nasıl öğrenebilecekleri ile ilgilidir.
Dersin İçeriği
Bu ders Takviyeli Öğrenmeye Giriş, Takviyeli Öğrenmenin Temel Kavramları, Denetimli ve Denetimsiz Öğrenme ile Karşılaştırma ve Takviyeli Öğrenme Problemlerinin Türleri, Markov Karar Süreçleri (MDP'ler), MDP'lerin Biçimciliği, Ödül Fonksiyonu, Durum Geçişleri, Politika, Değer Fonksiyonu ve Bellman denklemleri, Dinamik Programlama (DP): İlke değerlendirmesi, ilke yinelemesi, değer yinelemesi ve Monte Carlo yöntemleri. Zamansal Fark (TD) Öğrenimi: Politika içi ve politika dışı öğrenme, Q-learning, SARSA ve uygunluk izleri. Fonksiyon Yaklaşımı: Doğrusal ve doğrusal olmayan fonksiyon yaklaşımı ve derin pekiştirmeli öğrenme. Keşif ve Sömürü: epsilon-greedy, softmax ve UCB gibi keşif stratejileri.
Dersin Ön Koşulu
Temel programlama, lineer cebir ve olasılık teorisi bilgisi.
Kaynaklar
Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.
Notlar
Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.
Dersin Öğrenme Çıktıları
Sıra | Dersin Öğrenme Çıktıları |
---|---|
ÖÇ01 | Takviyeli öğrenmenin temellerinin anlaşılması |
ÖÇ02 | Problemleri Markov Karar Süreçleri (MDP'ler) olarak modelleyebilme |
ÖÇ03 | Takviyeli öğrenme algoritmalarını uygulayabilme |
ÖÇ04 | Takviyeli öğrenme algoritmalarını değerlendirebilme ve karşılaştırabilme |
Program Öğrenme Çıktıları ile İlişkisi
Sıra | Tür | Program Öğrenme Çıktıları | Duzey |
---|---|---|---|
PÖÇ01 | Bilgi - Kuramsal, Olgusal | Lisans düzeyinde kazanılan yetkinlikler temelinde Bilgisayar Mühendisliği temel alanında özgün çalışmalar için gerekli temeli sağlayan ileri düzeyde bilgi ve kavrayışa sahiptir. | 3 |
PÖÇ02 | Bilgi - Kuramsal, Olgusal | Mühendislik alanında bilimsel araştırma yaparak bilgiye genişlemesine ve derinlemesine ulaşır, bilgiyi değerlendirir, yorumlar ve uygular. | 3 |
PÖÇ03 | Yetkinlikler - Öğrenme Yetkinliği | Mesleğinin yeni ve gelişmekte olan uygulamalarının farkında olup, gerektiğinde bunları inceler ve öğrenir. | 3 |
PÖÇ04 | Yetkinlikler - Öğrenme Yetkinliği | Mühendislik problemlerini kurgular, çözmek için yöntem geliştirir ve çözümlerde yenilikçi yöntemler uygular. | 2 |
PÖÇ05 | Yetkinlikler - Öğrenme Yetkinliği | Analitik, modelleme ve deneysel esaslı araştırmaları tasarlar ve uygular, bu süreçte karşılaşılan karmaşık durumları çözümler ve yorumlar. | 3 |
PÖÇ06 | Yetkinlikler - Öğrenme Yetkinliği | Yeni ve/veya özgün fikir ve yöntemler geliştirir, sistem, parça veya süreç tasarımlarında yenilikçi çözümler geliştirir. | 2 |
PÖÇ07 | Beceriler - Bilişsel, Uygulamalı | Öğrenme becerilerine sahip olur. | 2 |
PÖÇ08 | Beceriler - Bilişsel, Uygulamalı | Bilgisayar Mühendisliğinin yeni ve gelişmekte olan uygulamalarının farkında olup gerektiğinde bunları inceler ve öğrenir. | 3 |
PÖÇ09 | Beceriler - Bilişsel, Uygulamalı | Çalışmalarının süreç ve sonuçlarını Bilgisayar Mühendisliği alanındaki veya alan dışındaki ulusal ve uluslararası ortamlarda açık bir şekilde yazılı veya sözlü olarak aktarır. | |
PÖÇ10 | Beceriler - Bilişsel, Uygulamalı | Bilgisayar Mühendisliğinde uygulanan güncel teknik ve yöntemler ile bunların kısıtları hakkında kapsamlı bilgiye sahip olur. | 1 |
PÖÇ11 | Beceriler - Bilişsel, Uygulamalı | Bilgisayar Mühendisliğinin gerektirdiği düzeyde bilgisayar yazılımı ile birlikte bilişim ve iletişim teknolojilerini ileri düzeyde etkileşimli olarak kullanır. | 2 |
PÖÇ12 | Bilgi - Kuramsal, Olgusal | Mesleki tüm etkinliklerde toplumsal, bilimsel ve etik değerleri gözetir. | 2 |
Haftalık Akış
Hafta | Konu | Ön Hazırlık | Yöntemler |
---|---|---|---|
1 | Takviyeli öğrenmeye giriş | Ders Notlarını Okumak | |
2 | Markov Karar Süreçleri (MDP'ler), ödül fonksiyonu, durum geçişleri. | Ders Notlarını Okumak | |
3 | Politika, değer fonksiyonu ve Bellman denklemleri. | Ders Notlarını Okumak | |
4 | Dinamik Programlama (DP), ilke değerlendirmesi, ilke yinelemesi | Ders Notlarını Okumak | |
5 | Değer iterasyonu ve Monte Carlo yöntemleri. | Ders Notlarını Okumak | |
6 | Zamansal Fark (TD) Öğrenme, politika dahilinde ve politika dışı öğrenme | Ders Notlarını Okumak | |
7 | Q-learning, SARSA ve uygunluk izleri. | Ders Notlarını Okumak | |
8 | Ara Sınavlar | ||
9 | Fonksiyon Yaklaşımı, doğrusal ve doğrusal olmayan fonksiyon yaklaşımı. | Ders Notlarını Okumak | |
10 | Keşif ve Sömürü, epsilon-greedy, softmax ve UCB gibi keşif stratejileri. | Ders Notlarını Okumak | |
11 | Politika Degradeleri, doğrudan politika arama yöntemleri. | Ders Notlarını Okumak | |
12 | REINFORCE algoritması, aktör-eleştirmen yöntemleri ve A3C. | Ders Notlarını Okumak | |
13 | Çoklu Etmen Takviyeli Öğrenme, sıfır olmayan toplamlı oyunlar. | Ders Notlarını Okumak | |
14 | Nash dengesi ve çok etmenli sistemlerde koordinasyon. | Ders Notlarını Okumak | |
15 | Gözden Geçirme | Ders Notlarını Okumak | |
16 | Yarıyıl Sonu Sınavları | ||
17 | Yarıyıl Sonu Sınavları |
Öğrenci İş Yükü - AKTS
Çalışmalar | Sayısı | Süresi (Saat) | İş Yükü (Saat) |
---|---|---|---|
Ders ile İlgili Çalışmalar | |||
Ders (Sınav haftaları dahil değildir) | 14 | 3 | 42 |
Sınıf Dışı Ders Çalışma (Ön çalışma, pekiştirme) | 14 | 5 | 70 |
Değerlendirmeler ile İlgili Çalışmalar | |||
Ödev, Proje, Diğer | 0 | 0 | 0 |
Ara Sınavlar (Yazılı, Sözlü, vs.) | 1 | 14 | 14 |
Yarıyıl/Yıl Sonu/Final Sınavı | 1 | 28 | 28 |
Toplam İş Yükü (Saat) | 154 | ||
Toplam İş Yükü / 25 (s) | 6,16 | ||
AKTS | 6 AKTS |