Տարբերությունը KDD-ի և տվյալների արդյունահանման միջև

Տարբերությունը KDD-ի և տվյալների արդյունահանման միջև
Տարբերությունը KDD-ի և տվյալների արդյունահանման միջև

Video: Տարբերությունը KDD-ի և տվյալների արդյունահանման միջև

Video: Տարբերությունը KDD-ի և տվյալների արդյունահանման միջև
Video: ՀՊՉ ում ներառված 8 կարողունակությունները եվ կրթական աստիճանների ակնկալվող վերջնարդյունքները 2024, Հուլիսի
Anonim

KDD ընդդեմ տվյալների հանքարդյունաբերության

KDD (Տվյալների շտեմարաններում գիտելիքի հայտնաբերում) համակարգչային գիտության ոլորտ է, որը ներառում է գործիքներ և տեսություններ, որոնք օգնում են մարդկանց օգտակար և նախկինում անհայտ տեղեկություններ (այսինքն՝ գիտելիք) հանել թվայնացված տվյալների մեծ հավաքածուներից: KDD-ն բաղկացած է մի քանի քայլերից, և Data Mining-ը դրանցից մեկն է: Տվյալների արդյունահանումը հատուկ ալգորիթմի կիրառություն է՝ տվյալներից օրինաչափություններ հանելու համար: Այնուամենայնիվ, KDD-ն և Data Mining-ը օգտագործվում են փոխադարձաբար:

Ինչ է KDD?

Ինչպես նշվեց վերևում, KDD-ն համակարգչային գիտության ոլորտ է, որը զբաղվում է չմշակված տվյալներից նախկինում անհայտ և հետաքրքիր տեղեկատվության արդյունահանմամբ:KDD-ն տվյալների իմաստավորման փորձի ողջ գործընթացն է՝ մշակելով համապատասխան մեթոդներ կամ տեխնիկա: Այս գործընթացը վերաբերում է ցածր մակարդակի տվյալների քարտեզագրմանը այլ ձևերի մեջ, որոնք ավելի կոմպակտ են, վերացական և օգտակար: Սա ձեռք է բերվում կարճ հաշվետվությունների ստեղծմամբ, տվյալների ստեղծման գործընթացի մոդելավորմամբ և կանխատեսող մոդելների մշակմամբ, որոնք կարող են կանխատեսել ապագա դեպքերը: Տվյալների էքսպոնենցիալ աճի շնորհիվ, հատկապես այնպիսի ոլորտներում, ինչպիսին բիզնեսն է, KDD-ն դարձել է շատ կարևոր գործընթաց՝ տվյալների այս մեծ պաշարը բիզնես ինտելեկտի վերածելու համար, քանի որ վերջին մի քանի տասնամյակներում օրինաչափությունների ձեռքով արդյունահանումը անհնարին է դարձել: Օրինակ, ներկայումս այն օգտագործվում է տարբեր ծրագրերի համար, ինչպիսիք են սոցիալական ցանցերի վերլուծությունը, խարդախության հայտնաբերումը, գիտությունը, ներդրումները, արտադրությունը, հեռահաղորդակցությունը, տվյալների մաքրումը, սպորտը, տեղեկատվության որոնումը և հիմնականում շուկայավարման համար: KDD-ն սովորաբար օգտագործվում է հարցերին պատասխանելու համար, ինչպիսիք են, թե որո՞նք են այն հիմնական ապրանքները, որոնք կարող են օգնել հաջորդ տարի Wal-Mart-ում բարձր շահույթ ստանալ:Այս գործընթացը մի քանի քայլ ունի. Այն սկսվում է հավելվածի տիրույթի և նպատակի մասին պատկերացում կազմելուց և այնուհետև ստեղծել թիրախային տվյալների բազա: Դրան հաջորդում է տվյալների մաքրումը, նախնական մշակումը, կրճատումը և պրոյեկցիան: Հաջորդ քայլը տվյալների արդյունահանման օգտագործումն է (բացատրված է ստորև) օրինակը բացահայտելու համար: Վերջապես, հայտնաբերված գիտելիքները համախմբվում են պատկերացման և/կամ մեկնաբանման միջոցով:

Ի՞նչ է տվյալների արդյունահանումը:

Ինչպես նշվեց վերևում, Data Mining-ը միայն մեկ քայլ է KDD-ի ընդհանուր գործընթացում: Կան երկու հիմնական Տվյալների հանքարդյունաբերության նպատակներ, որոնք սահմանված են հավելվածի նպատակներով, և դրանք են՝ ստուգումը կամ հայտնաբերումը: Ստուգումը ստուգում է օգտատիրոջ վարկածը տվյալների վերաբերյալ, մինչդեռ հայտնաբերումը ավտոմատ կերպով գտնում է հետաքրքիր օրինաչափություններ: Տվյալների արդյունահանման չորս հիմնական առաջադրանք կա՝ կլաստերավորում, դասակարգում, ռեգրեսիա և ասոցիացիա (ամփոփում): Կլաստերավորումը նմանատիպ խմբերի նույնականացումն է չկառուցված տվյալներից: Դասակարգումը սովորելու կանոններ են, որոնք կարող են կիրառվել նոր տվյալների վրա:Ռեգրեսիան տվյալների մոդելավորման համար նվազագույն սխալներով ֆունկցիաներ գտնելն է: Իսկ ասոցիացիան փնտրում է փոխհարաբերություններ փոփոխականների միջև: Այնուհետև անհրաժեշտ է ընտրել տվյալների արդյունահանման հատուկ ալգորիթմը: Կախված նպատակից, կարող են ընտրվել տարբեր ալգորիթմներ, ինչպիսիք են գծային ռեգրեսիան, լոգիստիկ ռեգրեսիան, որոշումների ծառերը և միամիտ Բայերը: Այնուհետև որոնվում են մեկ կամ մի քանի ներկայացուցչական ձևերի հետաքրքրության ձևերը: Վերջապես, մոդելները գնահատվում են կամ օգտագործելով կանխատեսող ճշգրտությունը կամ հասկանալիությունը:

Ո՞րն է տարբերությունը KDD-ի և տվյալների մայնինգի միջև:

Չնայած KDD և Data Mining երկու տերմինները մեծապես օգտագործվում են փոխադարձաբար, դրանք վերաբերում են երկու փոխկապակցված, բայց մի փոքր տարբեր հասկացություններին: KDD-ն տվյալներից գիտելիքների արդյունահանման ընդհանուր գործընթացն է, մինչդեռ Տվյալների հանքարդյունաբերությունը քայլ է KDD գործընթացի ներսում, որը վերաբերում է տվյալների օրինաչափությունների նույնականացմանը: Այլ կերպ ասած, Data Mining-ը միայն կոնկրետ ալգորիթմի կիրառում է, որը հիմնված է KDD գործընթացի ընդհանուր նպատակի վրա:

Խորհուրդ ենք տալիս: