Ո՞րն է տարբերությունը iniինիի աղտոտման և որոշման ծառի էնդոպիայի միջև:


պատասխանել 1:

Iniինի աղտոտումը և էտրոպիան որոշման ծառերի այսպես կոչված ընտրության չափանիշ են: Ըստ էության, դրանք օգնում են ձեզ դասակարգել / ռեգրեսիոն ծառերի ծնողների / որոշման հանգույցների լավ բաշխման կետը (հետևյալ օրինակները վերաբերում են դասակարգման ծառին): Որոշման ծառերը բաժանվում են ըստ բնութագրական և համապատասխան բաշխման կետի, ինչը հանգեցնում է տեղեկատվության մեծագույն շահի (IG) որոշակի չափանիշի (այս օրինակում iniինի կամ էնդրոպիա): Կորած մենք կարող ենք սահմանել տեղեկատվության ստացումը որպես

IG = տեղեկություններ փոխանակելուց առաջ (ծնող) - տեղեկություններ փոխանակելուց հետո (երեխաներ)

Ծնողների և երեխաների ավելի լավ հասկանալու համար տե՛ս որոշման ծառ ներքևում:

Տեղեկատվության ստացման բանաձևի ավելի մանրամասն բանաձևը կարող եք գտնել ստորև:

Քանի որ դասակարգման ծառերը ունեն երկուական բաժանմունքներ, բանաձևը կարող է պարզեցվել հետևյալ բանաձևի մեջ:

Հանգույցի աղտոտումը չափելու համար օգտագործված երկու ընդհանուր չափանիշ է iniինի ինդեքսը և էնդրոփը:

Այս բանաձևերը ավելի լավ հասկանալու համար հետևյալ պատկերը ցույց է տալիս, թե ինչպես է որոշման ծառի համար ստացված տեղեկատվությունը հաշվարկվել usingինի չափանիշով:

Հետևյալ նկարը ցույց է տալիս, թե ինչպես է հաշվարկվել էնդրոփի որոշման ծառի համար ստացված տեղեկատվությունը:

Ես դրանում ավելի մանրամասն չեմ մտնի, քանի որ հարկ է նշել, որ աղտոտման տարբեր մակարդակները (iniինի ինդեքս և էնդրոփիա) սովորաբար հանգեցնում են նման արդյունքների: Հետևյալ գրաֆիկը ցույց է տալիս, որ iniինի ինդեքսը և էնդրոփը շատ նման են աղտոտման չափանիշներին: Ես կասկածում եմ, որ iniինին scikit-Learn- ում դեֆոլտ է դնում (Python գրադարան) այն է, որ էնդոպիայի հաշվարկը կարող է լինել մի փոքր դանդաղ (քանի որ այն օգտագործում է լոգարիթմ):

Աղտոտման տարբեր մակարդակները (iniինի ինդեքս և էնդրոփիա) սովորաբար հանգեցնում են նման արդյունքների: Շատ շնորհակալ եմ Data Science StackExchange- ին և Sebastian Raschka- ին `այս դիագրամին ներշնչելու համար:

Լրացուցիչ տեղեկությունների համար սեղմեք այստեղ ՝ որոշման ծառերը գործելու համար ավելի շատ տեղեկություններ ստանալու համար:


պատասխանել 2:

Երկու չափում `ծառ ընտրելու համար ընտրելու համար: Iniինիի չափումը հավանականությունն է, որ պատահական նմուշը սխալ դասակարգվի, եթե մենք պատահականորեն ընտրենք պիտակ `արդյունաբերության մեջ բաշխման հիման վրա:

Entropy- ը տեղեկատվության միջոց է (ավելի ճիշտ ՝ դրա բացակայությունը): Դուք տեղեկատվության շահույթը հաշվարկում եք ՝ պառակտում կատարելով: Ի՞նչ տարբերություն կա միջամտությունների մեջ: Սա չափում է, թե ինչպես եք նվազեցնում անորոշությունը պիտակի վերաբերյալ:

Տեսեք.

https: //en.m.wikipedia.org/wiki / ...