Տվյալների արդյունահանման և տվյալների պահպանման միջև տարբերությունը

Տվյալների արդյունահանման և տվյալների պահպանման միջև տարբերությունը
Տվյալների արդյունահանման և տվյալների պահպանման միջև տարբերությունը

Video: Տվյալների արդյունահանման և տվյալների պահպանման միջև տարբերությունը

Video: Տվյալների արդյունահանման և տվյալների պահպանման միջև տարբերությունը
Video: How to play angry birds on HTC Wildfire or Huawei Ideos (greek) 2024, Հուլիսի
Anonim

Տվյալների մայնինգ ընդդեմ տվյալների պահեստավորման

Տվյալների արդյունահանումը և տվյալների պահեստավորումը տվյալների վերլուծության շատ հզոր և հանրաճանաչ մեթոդներ են: Օգտատերերը, ովքեր հակված են վիճակագրությանը, օգտագործում են Տվյալների հանքարդյունաբերությունը: Նրանք օգտագործում են վիճակագրական մոդելներ՝ տվյալների մեջ թաքնված օրինաչափություններ որոնելու համար: Տվյալների հանքագործները շահագրգռված են տվյալների տարբեր տարրերի միջև օգտակար հարաբերություններ գտնելով, ինչը, ի վերջո, շահավետ է բիզնեսի համար: Բայց մյուս կողմից, տվյալների փորձագետները, ովքեր կարող են ուղղակիորեն վերլուծել բիզնեսի չափերը, հակված են օգտագործել տվյալների պահեստները:

Տվյալների արդյունահանումը հայտնի է նաև որպես տվյալների հայտնաբերում (KDD): Ինչպես նշվեց վերևում, դա համակարգչային գիտության ոլորտ է, որը զբաղվում է նախկինում անհայտ և հետաքրքիր տեղեկատվության արդյունահանմամբ հում տվյալներից:Տվյալների էքսպոնենցիալ աճի շնորհիվ, հատկապես այնպիսի ոլորտներում, ինչպիսին բիզնեսն է, տվյալների արդյունահանումը դարձել է շատ կարևոր գործիք՝ տվյալների այս մեծ պաշարը բիզնես ինտելեկտի վերածելու համար, քանի որ վերջին մի քանի տասնամյակներում օրինաչափությունների ձեռքով արդյունահանումը դարձել է անհնարին թվացող: Օրինակ, ներկայումս այն օգտագործվում է տարբեր ծրագրերի համար, ինչպիսիք են սոցիալական ցանցերի վերլուծությունը, խարդախության հայտնաբերումը և շուկայավարումը: Տվյալների հանքարդյունաբերությունը սովորաբար զբաղվում է հետևյալ չորս առաջադրանքներով՝ կլաստերավորում, դասակարգում, ռեգրեսիա և ասոցիացիա: Կլաստերավորումը նմանատիպ խմբերի նույնականացումն է չկառուցված տվյալներից: Դասակարգումը ուսուցման կանոններ է, որոնք կարող են կիրառվել նոր տվյալների վրա և սովորաբար ներառում են հետևյալ քայլերը՝ տվյալների նախնական մշակում, մոդելավորման ձևավորում, ուսուցում/հատկանիշների ընտրություն և գնահատում/վավերացում: Ռեգրեսիան տվյալների մոդելավորման համար նվազագույն սխալներով ֆունկցիաներ գտնելն է: Իսկ ասոցիացիան փնտրում է փոխհարաբերություններ փոփոխականների միջև: Տվյալների արդյունահանումը սովորաբար օգտագործվում է հարցերին պատասխանելու համար, ինչպիսիք են, թե որո՞նք են այն հիմնական ապրանքները, որոնք կարող են օգնել հաջորդ տարի Wal-Mart-ում բարձր շահույթ ստանալու համար:

Ինչպես նշվեց վերևում, Տվյալների պահեստավորումն օգտագործվում է նաև տվյալների վերլուծության համար, սակայն օգտագործողների տարբեր խմբերի կողմից և մի փոքր այլ նպատակի մտքում: Օրինակ, երբ խոսքը վերաբերում է մանրածախ սեկտորին, Տվյալների պահեստավորման օգտվողներն ավելի շատ մտահոգված են, թե ինչ տեսակի գնումներ են հայտնի հաճախորդների շրջանում, ուստի վերլուծության արդյունքները կարող են օգնել հաճախորդին՝ բարելավելով հաճախորդների փորձը: Սակայն տվյալների հանքագործները նախ ենթադրում են այնպիսի վարկած, ինչպիսին է, թե որ հաճախորդները գնում են որոշակի տեսակի ապրանք և վերլուծում են տվյալները՝ վարկածը ստուգելու համար: Տվյալների պահեստավորումը կարող է իրականացվել խոշոր մանրածախ վաճառողի կողմից, ով սկզբում պահեստավորում է իր խանութները նույն չափի ապրանքներով, որպեսզի հետագայում պարզի, որ Նյու Յորքի խանութները ավելի արագ են վաճառում ավելի փոքր չափի գույք, քան Չիկագոյի խանութներում: Այսպիսով, դիտելով այս արդյունքը՝ մանրածախ վաճառողը կարող է Նյու Յորքի խանութը համալրել ավելի փոքր չափերով՝ համեմատած Չիկագոյի խանութների հետ:

Այսպիսով, ինչպես պարզ տեսնում եք, այս երկու տեսակի վերլուծություններն անզեն աչքով կարծես նույն բնույթն ունեն:Երկուսն էլ մտահոգված են պատմական տվյալների հիման վրա շահույթի աճով: Բայց, իհարկե, կան հիմնական տարբերություններ: Պարզ ասած, Data Mining-ը և Data Warehousing-ը նվիրված են տարբեր տեսակի վերլուծությունների տրամադրմանը, բայց միանշանակ՝ տարբեր տեսակի օգտատերերի համար: Այլ կերպ ասած, Data Mining-ը փնտրում է հարաբերակցություններ, օրինակներ՝ վիճակագրական վարկածը հաստատելու համար: Սակայն Տվյալների պահեստավորումը պատասխանում է համեմատաբար ավելի լայն հարցի, և այն կտրում և կտրում է տվյալներն այնտեղից՝ ապագայում բարելավման ուղիները ճանաչելու համար:

Խորհուրդ ենք տալիս: