Ո՞րն է տարբերությունը իմիտացիոն ուսուցման և ամրապնդման ուսուցման միջև:


պատասխանել 1:

Ընդհանուր.

Ընդհանուր առմամբ, երկուսն էլ առաջադրանքի սովորելու հաջորդական մեթոդներ են, որոնց միջոցով սովորողը փորձում է զարգացնել «քաղաքականություն» (որը միջոցներ է ձեռնարկում որոշակի պետության մեջ) լավագույն արդյունքի հասնելու համար:

Տարբերությունը.

Իմիտացիոն ուսուցման ընթացքում սովորողը նախ նկատում է ուսումնական փուլում (հաճախ մարդու) փորձագետի գործողությունները: Սովորողը այնուհետև օգտագործում է այս դասընթացի շարքը `սովորելու քաղաքականություն, որը փորձում է ընդօրինակել փորձագետի ցուցադրած գործողությունները` լավագույն կատարմանը հասնելու համար:

Ի հակադրություն ՝ ուժեղացման ուսուցման այդպիսի մասնագետ չկա: Փոխարենը, գործակալը ունի «պարգևատրման» գործառույթ և օգտագործում է ագահ / շահագործող ռազմավարությունները ՝ արդյունավետորեն ուսումնասիրելու իրավիճակը և գործողությունների շրջանակը և հասնելու օպտիմալ ուղեցույցի (փորձության և սխալի օգտագործմամբ):

Պատկերային օրինակ

Եկեք քննարկենք ինքնագնաց միջոցները: Պետական ​​տարածքը կարող է լինել այն, ինչ գործակալը տեսնում է ցանկացած պահի `փողոցը, նշանները, այլ մեքենաներ, հետիոտն: Գործողությունները կարող են ուղղվել, արագացնել, կոտրել:

Կեղծ ուսուցման գործակալը հետևում էր մարդկային փորձագետի վարորդին և իր գործողությունները գրանցում տարբեր նահանգներում: Այս հիմքի վրա կազմվում է ուղեցույց, որի հիման վրա միջոցներ են ձեռնարկվում որոշակի երկրում ՝ փորձագետի միջոցների հիման վրա: Գործարկման ժամանակ ամեն ինչ անելու է, որ քաղաքականությունը հիմնված լինի ճիշտ գործողությունների վրա, քանի որ պետությունները բոլորովին նույնը չեն, և հավանական հավանական տարրը սողում է:

Ամրապնդման ուսուցման գործակալը ստանում է պարգևատրման գործառույթ: Օրինակ ՝ անցնող յուրաքանչյուր վայրկյան գնահատվում է որպես դրական կետ: Եթե ​​նա վթարի է ենթարկվել կամ հարվածել հետիոտնին կամ այլ մեքենային, խնդիրն ավարտվում է զրոյական պարգևներով: Գործակալը այնուհետև սկսում է պատահական գործողություններով և սովորում է ՝ փորձելով, թե որ գործողությունները առավելագույնի են հասցնում պարգևատրումները և որ գործողությունները հանգեցնում են զրոյի: Որոշ ժամանակ անց, եթե քաղաքականությունը բավականաչափ լավ է (ելնելով կատարողականության չափանիշներից), գործակալը վարում է քաղաքականությունը վարելու համար:

Երկու մեթոդներն էլ հանգեցնում են գործարկման նույն ռազմավարության: Միայն այն ձևը, որով սովորում են քաղաքականությունը, տարբեր է: Ինչպես պատկերացնում եք, կան տարբեր առավելություններ և թերություններ, թե որ մեթոդն օգտագործել և երբ: Դատավարությունն ու սխալը կարող են լինել շատ թանկ կամ անարդյունավետ որոշ խնդիրների համար, մինչդեռ պատճենելը կարող է լինել շատ բարդ, անհնար կամ սահմանափակող այլոց:


պատասխանել 2:

Ամրապնդման ուսուցմամբ գործակալը փորձում է առավելագույնի հասցնել իր պարգևները շրջակա միջավայրում:

Հիմնականում գործակալի նպատակը օպտիմալ քաղաքականություն գտնելն է:

ԵՐԿՈՒ E մեխանիզմ.

Ես անձամբ այն անվանում եմ TWO-E մեխանիզմ իմ հետազոտական ​​աշխատանքների կամ իմ հաղորդակցության մեջ: Ըստ էության, գործակալը գտնում է «լավագույնը, որ նա կարող է անել» `խառնելով հետախուզման և շահագործման ռազմավարությունը, միաժամանակ հարցնելով պարգևատրման գործառույթ: Այսպիսով, մինչ գործակալը ստանում է ազդանշան / վերադարձը շրջակա միջավայրից, այն փորձում է առավելագույնի հասցնել այդ ազդանշանը / հատուցումը:

Մյուս կողմից, իմիտացիոն ուսումը բաղկացած է ցույցերի ընթացքում դիտարկվող փորձագիտական ​​ռազմավարության ընդհանրացում ընդհանրապես չայցելված պետություններից (և, հետևաբար, մոտ է դասակարգմանը, եթե առկա է հնարավոր որոշումների վերջնական շարք): Այսինքն, գործակալը փորձում է պարգևատրումների միջոցով հետևել «ուսուցիչ գործակալին» ՝ ենթադրելով, որ ուսուցիչ գործակալը առավելագույնի է հասցնում իր վարձատրությունները: Ենթադրվում է, որ այս քաղաքականությունը օպտիմալ է և կարող է տրվել մեկ այլ գործակալ կամ, հնարավոր է, մարդկային փորձագետի կողմից ՝ պարզելու, թե որն է վարձատրության գործառույթը: Այն, ինչ ցանկանում եք հասնել իմիտացիոն ուսուցման միջոցով, պարգևատրման գործառույթը վերականգնելն է:

Գործնականում «ուսուցիչների գործակալը» հաճախ կարող է լինել մեկ այլ ալգորիթմական գործողություն, որին գործակալը պետք է հետևի (օրինակ ՝ RL գործակալները, որոնք փորձում են սովորել SGD):

Աջակցություն իմիտացիոն ուսմանը

ինչու IL- ն օգտագործվում է ռոբոտաշինության մեջ:

Միշտ չգիտեք այն պարգևը, որը ստանում եք առաջադրանք կատարելիս, բայց կարող եք իմանալ «որն է ճիշտ (լավագույն ուղեցույց)»:

Դրա գործնական օրինակն այն է, եթե ցանկանում եք ստեղծել հաշվարկման մոդելներ կենդանիների կամ մարդու վարքի համար:

Հայեցակարգը ինտուիտիվ ձևով.

Կարելի է համեմատել ուսման շահն ու ուսման հակադարձ շահը, քանի որ.

Ամրապնդումը սովորելը սովորում է բաներ ձեր սեփական, այսինքն ՝ ԱՆՎԱՐ ՍԻՐՈՒՄ, մինչդեռ իմիտացիոն ուսումը մասնագետ է, ով առաջնորդում է ձեզ, թե ինչ անել: Այդ պատճառով այն նաև կոչվում է ուսանողների ուսուցում:

Անշուշտ