Genel Bilgi
| Birim | FEN BİLİMLERİ ENSTİTÜSÜ |
| BİLGİSAYAR MÜHENDİSLİĞİ (YL) (TEZLİ) (İNGİLİZCE) | |
| Kod | CENG524 |
| Ad | Advanced Paradigms in NLP |
| Dönem | 2026-2027 Eğitim-Öğretim Yılı |
| Dönem | Bahar |
| Süre (T+U) | 3-0 (T-U) (17 Hafta) |
| AKTS | 6 AKTS |
| Yerel Kredi | 3 Yerel Kredi |
| Eğitim Dil | İngilizce |
| Seviye | Belirsiz |
| Tür | Normal |
| Öğretim Şekli | Yüz Yüze Öğretim |
| Bilgi Paketi Koordinatörü | Prof. Dr. UMUT ORHAN |
| Dersin Öğretim Elemanı |
Güncel dönem ders programı henüz yapılmamıştır.
|
Dersin Amacı / Hedefi
Bu dersin temel amacı, Doğal Dil İşleme alanında standart Transformer modellerinin ötesine geçen en güncel (State-of-the-Art) mimarileri ve paradigmaları incelemektir. Ders, öğrencilerin son dönemdeki üst düzey araştırma makalelerini eleştirel bir şekilde analiz etme, büyük dil modeli (LLM) ekosistemindeki mimari değişimleri kavrama ve bu ileri düzey kavramları üretken yapay zeka alanındaki karmaşık araştırma problemlerini çözmek için uygulama becerilerini geliştirmeyi hedeflemektedir.
Dersin İçeriği
Araştırma odaklı bu ders, modern NLP'deki en son gelişmelere ve yapısal değişimlere odaklanmaktadır. İşlenen temel konular arasında standart Transformer'ların karesel (quadratic) darboğazlarını aşmayı hedefleyen Durum Uzayı Modelleri (State Space Models - örn. Mamba); Uzmanların Karışımı (MoE) ve Derinliğin Karışımı (MoD) gibi dinamik işlem gücü tahsis stratejileri; çıkarım zamanı (inference-time) optimizasyonu ve "Sistem 2" mantıksal yürütme yaklaşımları bulunmaktadır. Ayrıca Parametre Verimli İnce Ayar (PEFT) yöntemlerinin matematiksel temelleri, otonom işletim sistemi etkileşimi sağlayan Büyük Eylem Modellerinin (LAMs) evrimi ve saf çoklu modlu (Omni) mimariler incelenmektedir. Dersin işleyişi ağırlıklı olarak literatür taraması, makale tartışmaları ve ileri düzey araştırma projeleri üzerinden yürütülmektedir.
Dersin Ön Koşulu
yok
Kaynaklar
- Scaling Laws for Neural Language Models (Kaplan et al., 2020) - Training Compute-Optimal Large Language Models [Chinchilla] (Hoffmann et al., 2022) - Attention Is All You Need (Vaswani et al., 2017) - FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (Dao et al., 2022) - LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021) - QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al., 2023) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., 2020) - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023) - From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions (Ji et al., 2023) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Gu & Dao, 2023) - Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022) - Let's Verify Step by Step (Lightman et al., 2023) - Mixtral of Experts (Jiang et al., 2024) - Mixture-of-Depths: Dynamically allocating compute in transformer-based language models (Raposo et al., 2024) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments (Xie et al., 2024)
Notlar
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling (Zhan et al., 2024)
Dersin Öğrenme Çıktıları
| Sıra | Dersin Öğrenme Çıktıları |
|---|---|
| ÖÇ01 | Büyük dil modellerinin (LLM) temel mimarilerini ve çalışma prensiplerini bilir |
| ÖÇ02 | Vektör uzaylarının, metin gömme (embedding) işlemlerinin ve anlamsal aramanın teorik altyapısını bilir |
| ÖÇ03 | Modellerin değerlendirme metriklerini ve halüsinasyon tespiti gibi optimizasyon süreçlerini bilir |
| ÖÇ04 | Vektör veritabanlarını kullanarak Retrieval-Augmented Generation (RAG) mimarisine dayalı uygulamalar geliştirmeyi becerir |
| ÖÇ05 | Açık kaynaklı modeller üzerinde parametre verimli ince ayar (PEFT/LoRA) süreçlerini yerel donanımda yürütmeyi becerir |
| ÖÇ06 | Harici API'ler ve araçlar kullanarak çok adımlı görevleri çözen otonom yapay zeka ajanları (agents) tasarlamayı becerir |
Program Öğrenme Çıktıları ile İlişkisi
| Sıra | Tür | Program Öğrenme Çıktıları | Duzey |
|---|---|---|---|
| PÖÇ01 | Bilgi - Kuramsal, Olgusal | Lisans düzeyinde kazanılan yetkinlikler temelinde Bilgisayar Mühendisliği temel alanında özgün çalışmalar için gerekli temeli sağlayan ileri düzeyde bilgi ve kavrayışa sahiptir. | 4 |
| PÖÇ02 | Bilgi - Kuramsal, Olgusal | Mühendislik alanında bilimsel araştırma yaparak bilgiye genişlemesine ve derinlemesine ulaşır, bilgiyi değerlendirir, yorumlar ve uygular. | 4 |
| PÖÇ03 | Yetkinlikler - Öğrenme Yetkinliği | Mesleğinin yeni ve gelişmekte olan uygulamalarının farkında olup, gerektiğinde bunları inceler ve öğrenir. | 3 |
| PÖÇ04 | Yetkinlikler - Öğrenme Yetkinliği | Mühendislik problemlerini kurgular, çözmek için yöntem geliştirir ve çözümlerde yenilikçi yöntemler uygular. | |
| PÖÇ05 | Yetkinlikler - Öğrenme Yetkinliği | Analitik, modelleme ve deneysel esaslı araştırmaları tasarlar ve uygular, bu süreçte karşılaşılan karmaşık durumları çözümler ve yorumlar. | 4 |
| PÖÇ06 | Yetkinlikler - Öğrenme Yetkinliği | Yeni ve/veya özgün fikir ve yöntemler geliştirir, sistem, parça veya süreç tasarımlarında yenilikçi çözümler geliştirir. | |
| PÖÇ07 | Beceriler - Bilişsel, Uygulamalı | Öğrenme becerilerine sahip olur. | |
| PÖÇ08 | Beceriler - Bilişsel, Uygulamalı | Bilgisayar Mühendisliğinin yeni ve gelişmekte olan uygulamalarının farkında olup gerektiğinde bunları inceler ve öğrenir. | |
| PÖÇ09 | Beceriler - Bilişsel, Uygulamalı | Çalışmalarının süreç ve sonuçlarını Bilgisayar Mühendisliği alanındaki veya alan dışındaki ulusal ve uluslararası ortamlarda açık bir şekilde yazılı veya sözlü olarak aktarır. | |
| PÖÇ10 | Beceriler - Bilişsel, Uygulamalı | Bilgisayar Mühendisliğinde uygulanan güncel teknik ve yöntemler ile bunların kısıtları hakkında kapsamlı bilgiye sahip olur. | 3 |
| PÖÇ11 | Beceriler - Bilişsel, Uygulamalı | Bilgisayar Mühendisliğinin gerektirdiği düzeyde bilgisayar yazılımı ile birlikte bilişim ve iletişim teknolojilerini ileri düzeyde etkileşimli olarak kullanır. | |
| PÖÇ12 | Bilgi - Kuramsal, Olgusal | Mesleki tüm etkinliklerde toplumsal, bilimsel ve etik değerleri gözetir. |
Haftalık Akış
| Hafta | Konu | Ön Hazırlık | Yöntemler |
|---|---|---|---|
| 1 | Information Theory & Scaling Laws | Makale okuma | Öğretim Yöntemleri: Anlatım |
| 2 | Transformer Mechanics & Bottlenecks | Attention makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 3 | Parameter-Efficient Fine-Tuning I (PEFT & LoRA) | LoRA makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 4 | Parameter-Efficient Fine-Tuning II & Alignment | QLoRA makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 5 | Advanced Retrieval Architectures I | RAG (Lewis et al., 2020) makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 6 | Graph RAG & Structured Retrieval | From Local to Global makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 7 | Hallucination & Model Evaluation | Hallucination in LLMs makaleleri | Öğretim Yöntemleri: Anlatım, Tartışma |
| 8 | Proje Görevleri | Task 1. Mamba vs. Attention | Ölçme Yöntemleri: Proje / Tasarım |
| 9 | Beyond Attention: State Space Models (SSMs) | Mamba makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 10 | Inference-Time Compute & System 2 Reasoning | Chain-of-Thought makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 11 | Dynamic Compute & Routing | Mixtral of Experts makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 12 | Large Action Models (LAMs) | OSWorld makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 13 | Omni Architectures (Multimodality) | AnyGPT makalesi | Öğretim Yöntemleri: Anlatım, Tartışma |
| 14 | Project presentations | Task 2. MoD, MoE ve o1 | Ölçme Yöntemleri: Proje / Tasarım |
| 15 | Project presentations-2 | Task 3. Any-to-Any (Omni), Text-to-Action, GUI okuyabilen Large Action Model (LAM) | Ölçme Yöntemleri: Proje / Tasarım |
| 16 | Yarıyıl Sonu Sınavları | exam | Ölçme Yöntemleri: Yazılı Sınav |
| 17 | Yarıyıl Sonu Sınavları | exam | Ölçme Yöntemleri: Yazılı Sınav |
Öğrenci İş Yükü - AKTS
| Çalışmalar | Sayısı | Süresi (Saat) | İş Yükü (Saat) |
|---|---|---|---|
| Ders ile İlgili Çalışmalar | |||
| Ders (Sınav haftaları dahil değildir) | 14 | 3 | 42 |
| Sınıf Dışı Ders Çalışma (Ön çalışma, pekiştirme) | 14 | 5 | 70 |
| Değerlendirmeler ile İlgili Çalışmalar | |||
| Ödev, Proje, Diğer | 3 | 5 | 15 |
| Ara Sınavlar (Yazılı, Sözlü, vs.) | 0 | 0 | 0 |
| Yarıyıl/Yıl Sonu/Final Sınavı | 1 | 25 | 25 |
| Toplam İş Yükü (Saat) | 152 | ||
| Toplam İş Yükü / 25 (s) | 6,08 | ||
| AKTS | 6 AKTS | ||