PEKİŞTİRMELİ ÖĞRENME

tarafından
204
PEKİŞTİRMELİ ÖĞRENME

Pekiştirmeli öğrenme, ne yapacağını ve durumları eyleme dönüştürüp nasıl haritalandıracağını öğretir. Sonuç, sayısal ödül sinyalini maksimize etmektir. Öğrenciye hangi eylemde bulunulması gerektiği aktarılmaz ama onun yerine hangi eylemlerin en çok ödül aldığı önemlidir.
Pekiştirmeli öğrenme bir konu hakkında çözüm yöntemi sınıfıdır. Sorun üzerinde iyi çalışır. Pekiştirmeli öğrenme problemini formalize ederken dinamik sistemlerden fikirler alınır, özellikle tamamlanmamış olan Markov kararını optimal süreç olarak alır. Ancak temel fikir bir problemle karşılaşan gerçek problemin en önemli yönlerini yakalamaktır. Bir öğrenim etkeni çevrenin durumunu ve devleti etkileyen eylemleri algılayabilmelidir.
Pekiştirmeli öğrenme denetimli öğrenmeden farklı olarak makine öğrenimi alanında en güncel araştırmaları öğrenir. Denetimli öğrenme, bilgili bir dış denetim ile etiketli öğrenimlerin eğitim setinden öğrenir. Yani pekiştirmeli öğrenmede herhangi bir aktör rol oynamazken denetimli öğrenmenin denetim için bir aracıya ihtiyacı vardır. Her örnek özelleştirme ile bir durumun tanımlanmasından oluşur. Bu tür öğrenmenin amacı sistemin durumları doğru bir şekilde davranması için tepkilerini tahmin etmek veya genelleştirmek eğitim setinde mevcut değildir. Bu önemli bir öğrenmedir ve etkileşimden öğrenmek için yeterli değildir. Etkileşimli problemler de genellikle pratik değildir. İstenilen davranışların örneklerini hem doğru hem de aracı tarafından belirlenmesi gerekir.
Pekiştirmeli öğrenme aynı zamanda denetimsiz öğrenmeden de farklıdır. Denetimsiz öğrenme genellikle etiketlenmemiş verilerin koleksiyonlarda gizli yapısını bulur. Denetimli ve denetimsiz öğrenmenin şartları arasında makine öğrenimi paradigmalarını kapsamlı bir şekilde sınıflandırmak vardır ancak bunu yapamazlar.
Pekiştirmeli öğrenmenin diğer bir özelliği ise bütünü açıkça ele almasıdır. Araştırmacılar teorileri geliştirir, bu teoriler faydalı sonuç vermesine rağmen, alt problemlere de sebebiyet verebilir. Burada pekiştirmeli öğrenme konuya dahil olarak sorunu kapsamlı bir şekilde kendisi çözmeye çalışır.
Örnekler daha açıklayıcı olacaktır:
Örneğin; bir satranç ana oyuncusu hamle yapacaktır ve seçimini planlar. Olası hamleleri ve karşı taraftan gelebilecek hamleleri sezgisel olarak konumu ve hareketi belirler.
Örneğin; bir çocuğun yürümeyi öğrenmesindeki adımlar incelenebilir:
1-Çocuğun gözlemleyeceği ilk şey nasıl yürüdüğünüzü fark etmektir. Bu konsepti kavrayınca çocuk sizi taklit edecektir.
2- Yürümeden önce çocuğu ayağa kalkmasını anlayacaktır. Yani çocuk ayağa kalkmaya ve sarsılmaya başlayacaktır fakat ayağa kalkmak halen belirleyici olacaktır.
3- Ayakta durmak kolaydır ama ayağa kalkmak başka bir iştir.
4-Son olarak çocuk için asıl görev yürümektir. Akılda tutması gereken vücut ağırlığını dengelemek, sonraki ayağını nereye koyacağını ve nereye koyacağına karar vermesi gibi sorular vardır.
Bu örnekleri göz ardı edilmeleri kolay olan çok temel özellikleri paylaşır. Her şey etkin bir karar verme ve çevresindeki etkileşimleri içerir. Aracının, çevre ile ilgili olan belirsizliklere rağmen sonuca ulaşması gerekir. Aracı kişinin eylemlerinin çevrenin gelecekteki durumunun etkilenmesine izin verilir.

Pekiştirmeli Öğrenme Unsurları:
Bir politika, öğrenen kişinin zamanla davranışlarını değiştirir. Yani bir politika çevreden alınacak tepkilere bir haritalanma yapılmasıdır. Bazı durumlarda politika basit bir işlev görebilir. Bazen ise kapsamlı hesaplamalar içerebilir. Politika, pekiştirmeli öğrenmede davranışı belirlemek için kullanıldığı için pekiştirmeli öğrenmenin özü denilebilir. Politikadaki her bir eylem pekiştirmeli öğrenmede bir olasılığa karşılık gelebilir.
Ödül sinyali pekiştirmeli öğrenmenin hedefini tanımlar. Her adımda, çevre pekiştirmeli öğrenme aktörüne ödül(reward) denilen tek bir numara gönderir. Ödül sinyali aktör için iyi ve kötü olayları tanımlar.
Sınırlamala ve Alan:
Kitapta düşünülen pekiştirmeli öğrenme fonksiyonları tahmin edilen değer fonksiyonları çevresinde yapılandırılır. Fakat pekiştirmeli öğrenme problemlerini çözmek için yapmaya çok da gerek yoktur. Örneğin, genetik algoritmalar, genetik programlama ve diğer optimizasyon metotları gibi çözüm metotları, değer fonksiyonlarını asla tahmin etmezler.
Çevre ile etkileşimdeyken öğrenen ve gelişim metotları yapmayan pekiştirmeli öğrenme metotları odak noktasıdır. Metotlar birçok bakımdan gelişimsel metotlardan daha fazla detay avantajları sağlar. Gelişim ve öğrenim bile birçok özellik paylaşır ve birlikte çalışırlar.
Tic-Tac-Toe Örneği:
Pekiştirmeli öğrenmenin genel amacını şekillendirmek istenirse detaylar arasından tek bir örneği seçmek denilebilir.
Çocukların tic-tac-toe oyunu toplamda 2 oyuncudan oluşan ve 3×3’lük bir tahta üzerinde oynan bir oyundur. Bir oyuncu X’leri diğer oyuncu ise O’ları oynar. Oyunculardan birinin taşlarının satır,sütun boyunca ya da çaprazlama olarak ardarda gelmesi sonucu oyunu kazanır. Eğer tahtadaki tüm boşluklar dolarsa oyun biter.

Oyunun akış şeması aşağıdaki gibidir.

Özet olarak pekiştirmeli öğrenme, hedefe yönelik öğrenme ve karar verme yaklaşımıdır. Bir ortamda etkileşimden dolayı öğrenirken ortaya çıkan hesaplama sorunlarını uzun vadeli hedeflere ulaşmak için bu öğrenme modeli ciddi bir şekilde ele alınması gereken ilk şeydir.

Pekiştirmeli öğrenme, Markov karar süreçlerinin resmi çerçevesini kullanır. Bu çerçeve, artistik zeka problemlerinin temel özelliklerinin basit bir temsil biçimini olması amaçlanmıştır.
Değer fonksiyonlarının kullanımı pekiştirmeli öğrenmeyi evrimsel yöntemlerden ayıt eder.

Yukarıdaki oyunun kaynak kodu için: https://github.com/erolsumeyra/Tic-Tac-Toe