Տարբերությունը հիերարխիկ և մասնակի կլաստերավորման միջև

Տարբերությունը հիերարխիկ և մասնակի կլաստերավորման միջև
Տարբերությունը հիերարխիկ և մասնակի կլաստերավորման միջև

Video: Տարբերությունը հիերարխիկ և մասնակի կլաստերավորման միջև

Video: Տարբերությունը հիերարխիկ և մասնակի կլաստերավորման միջև
Video: Աղի զարմացնող հատկությունները / Удивительные свойства соли 2024, Նոյեմբեր
Anonim

Հիերարխիկ ընդդեմ մասնակի կլաստերավորում

Կլաստերավորումը մեքենայական ուսուցման տեխնիկա է տվյալների վերլուծության և նմանատիպ տվյալների խմբերի բաժանելու համար: Այս խմբերը կամ նմանատիպ տվյալների հավաքածուները հայտնի են որպես կլաստերներ: Կլաստերային վերլուծությունը դիտարկում է կլաստերի ալգորիթմները, որոնք կարող են ինքնաբերաբար նույնականացնել կլաստերները: Հիերարխիկ և մասնատվածը կլաստերավորման ալգորիթմների երկու այդպիսի դասեր են: Հիերարխիկ կլաստերավորման ալգորիթմները տվյալները բաժանում են կլաստերների հիերարխիայի մեջ: Մասնավոր ալգորիթմները տվյալների հավաքածուն բաժանում են փոխադարձաբար բաժանվող միջնորմների։

Ի՞նչ է հիերարխիկ կլաստերավորումը:

Հիերարխիկ կլաստերի ալգորիթմները կրկնում են փոքր կլաստերների միաձուլման ցիկլը մեծերի մեջ կամ ավելի մեծ կլաստերները փոքրերի բաժանելու ցիկլը:Ամեն դեպքում, այն արտադրում է կլաստերների հիերարխիա, որը կոչվում է դենդոգրամ: Ագլոմերատիվ կլաստերավորման ռազմավարությունը օգտագործում է կլաստերների միաձուլման ներքևից վեր մոտեցումն ավելի մեծերի, մինչդեռ բաժանարար կլաստերի ռազմավարությունը օգտագործում է փոքրերի բաժանման վերևից ներքև մոտեցումը: Սովորաբար, ագահ մոտեցումն օգտագործվում է որոշելու համար, թե որ ավելի մեծ/փոքր կլաստերներն են օգտագործվում միաձուլման/բաժանման համար: Էվկլիդյան հեռավորությունը, Մանհեթենի հեռավորությունը և կոսինուսի նմանությունը թվային տվյալների համար ամենատարածված նմանության չափիչներից են: Ոչ թվային տվյալների համար օգտագործվում են այնպիսի չափումներ, ինչպիսին է Համինգի հեռավորությունը: Կարևոր է նշել, որ հիերարխիկ կլաստերավորման համար իրական դիտարկումները (ատյանները) պետք չեն, քանի որ բավական է միայն հեռավորությունների մատրիցը: Դենդոգրամը կլաստերների տեսողական ներկայացումն է, որը շատ հստակ ցուցադրում է հիերարխիան: Օգտագործողը կարող է ստանալ տարբեր կլաստերավորում՝ կախված այն մակարդակից, որով կտրված է դենդոգրամը:

Ի՞նչ է մասնակի կլաստերավորումը:

Մասնակի կլաստերավորման ալգորիթմները ստեղծում են տարբեր միջնորմներ և այնուհետև գնահատում դրանք որոշ չափանիշով:Դրանք նաև կոչվում են ոչ հիերարխիկ, քանի որ յուրաքանչյուր օրինակ տեղադրված է k փոխադարձաբար բացառող կլաստերներից մեկում: Քանի որ կլաստերների միայն մեկ հավաքածուն տիպիկ մասնատված կլաստերավորման ալգորիթմի արդյունքն է, օգտվողից պահանջվում է մուտքագրել կլաստերների ցանկալի թիվը (սովորաբար կոչվում է k): Մասնակի կլաստերավորման ամենատարածված ալգորիթմներից մեկը k-means կլաստերավորման ալգորիթմն է։ Օգտագործողից պահանջվում է, որ նախքան մեկնարկը տրամադրվի կլաստերների թիվը (k), և ալգորիթմը սկզբում սկսում է k բաժանմունքների կենտրոնները (կամ ցենտրոիդները): Մի խոսքով, k-means կլաստերավորման ալգորիթմն այնուհետև անդամներ է հատկացնում ընթացիկ կենտրոնների հիման վրա և վերագնահատում կենտրոնները՝ հիմնված ընթացիկ անդամների վրա: Այս երկու քայլերը կրկնվում են այնքան ժամանակ, մինչև օպտիմիզացվեն որոշակի ներկլաստերի նմանության նպատակային ֆունկցիան և միջկլաստերային անհամապատասխանության նպատակային ֆունկցիան: Հետևաբար, կենտրոնների խելամիտ սկզբնավորումը շատ կարևոր գործոն է մասնակի կլաստերավորման ալգորիթմներից որակյալ արդյունքներ ստանալու համար:

Ո՞րն է տարբերությունը հիերարխիկ և մասնակի կլաստերավորման միջև:

Հիերարխիկ և մասնակի կլաստերավորումն ունեն հիմնական տարբերություններ գործարկման ժամանակի, ենթադրությունների, մուտքային պարամետրերի և արդյունքում ստացվող կլաստերների մեջ: Սովորաբար, մասնակի կլաստերավորումն ավելի արագ է, քան հիերարխիկ կլաստերավորումը: Հիերարխիկ կլաստերավորումը պահանջում է միայն նմանության չափում, մինչդեռ մասնակի կլաստերավորումը պահանջում է ավելի ուժեղ ենթադրություններ, ինչպիսիք են կլաստերների թիվը և սկզբնական կենտրոնները: Հիերարխիկ կլաստերավորումը չի պահանջում մուտքագրման որևէ պարամետր, մինչդեռ մասնակի կլաստերավորման ալգորիթմները պահանջում են կլաստերների քանակ, որպեսզի սկսեն աշխատել: Հիերարխիկ կլաստերավորումը վերադարձնում է կլաստերների շատ ավելի բովանդակալից և սուբյեկտիվ բաժանումը, սակայն մասնատված կլաստերիավորումը հանգեցնում է հենց k կլաստերների: Հիերարխիկ կլաստերավորման ալգորիթմներն ավելի հարմար են կատեգորիկ տվյալների համար, քանի դեռ կարող է համապատասխանաբար սահմանվել նմանության չափումը:

Խորհուրդ ենք տալիս: