Analiza e grupimeve: metoda e saj dhe fusha e zbatimit. Pasqyrë e algoritmeve të grupimit të të dhënave

pershendetje!

Në tezën time, kam shqyrtuar dhe analiza krahasuese algoritmet e grumbullimit të të dhënave. Mendova se materiali i mbledhur dhe i përpunuar tashmë mund të jetë interesant dhe i dobishëm për dikë.
Sashaeve foli për atë që është grupimi në artikullin "Klasterimi: algoritmet k-means dhe c-means". Unë do të përsëris pjesërisht fjalët e Aleksandrit dhe do t'i shtoj pjesërisht. Gjithashtu në fund të këtij shkrimi, të interesuarit mund të lexojnë materialet nëpërmjet lidhjeve në bibliografi.

Gjithashtu u përpoqa ta sjell stilin e thatë të prezantimit “të diplomuar” në një stil më gazetaresk.

Koncepti i grupimit

Grumbullimi (ose analiza e grupimeve) është detyra e ndarjes së një grupi objektesh në grupe të quajtura grupe. Brenda secilit grup duhet të ketë objekte "të ngjashme", dhe objektet nga grupe të ndryshme duhet të jenë sa më të ndryshme që të jetë e mundur. Dallimi kryesor midis grupimit dhe klasifikimit është se lista e grupeve nuk është e përcaktuar qartë dhe përcaktohet gjatë funksionimit të algoritmit.

Zbatimi i analizës së grupimeve në përgjithësi zbret në hapat e mëposhtëm:

  1. Përzgjedhja e një kampioni objektesh për grupim.
  2. Përcaktimi i një grupi variablash me të cilat do të vlerësohen objektet në mostër. Nëse është e nevojshme, normalizoni vlerat e variablave.
  3. Llogaritja e vlerave të matjes së ngjashmërisë midis objekteve.
  4. Zbatimi i metodës së analizës së grupimeve për të krijuar grupe objektesh të ngjashme (grupe).
  5. Prezantimi i rezultateve të analizës.
Pas marrjes dhe analizimit të rezultateve, është e mundur të rregullohet metoda e përzgjedhur metrike dhe grupimi derisa të merret rezultati optimal.

Masat e distancës

Pra, si ta përcaktojmë "ngjashmërinë" e objekteve? Së pari, ju duhet të krijoni një vektor karakteristikash për secilin objekt - si rregull, ky është një grup vlerash numerike, për shembull, lartësia dhe pesha e një personi. Megjithatë, ka edhe algoritme që punojnë me karakteristika cilësore (të ashtuquajturat kategorike).

Pasi të kemi përcaktuar vektorin e veçorive, mund të kryhet normalizimi në mënyrë që të gjithë komponentët të kontribuojnë në mënyrë të barabartë në llogaritjen e "distancës". Gjatë procesit të normalizimit, të gjitha vlerat sillen në një interval të caktuar, për shembull, [-1, -1] ose .

Më në fund, për secilën palë objektesh matet "distanca" midis tyre - shkalla e ngjashmërisë. Ka shumë metrika, këtu janë vetëm ato kryesore:

Zgjedhja e metrikës varet tërësisht nga studiuesi, pasi rezultatet e grupimit mund të ndryshojnë ndjeshëm kur përdoren masa të ndryshme.

Klasifikimi i algoritmeve

Për veten time, unë kam identifikuar dy klasifikime kryesore të algoritmeve të grupimit.
  1. Hierarkike dhe e sheshtë.
    Algoritmet hierarkike (të quajtura edhe algoritme taksonomie) ndërtojnë jo vetëm një ndarje të kampionit në grupime të shkëputura, por një sistem ndarjesh të ndërlidhura. Se. Si rezultat, marrim një pemë grupesh, rrënja e së cilës është i gjithë kampioni, dhe gjethet janë grupimet më të vogla.
    Algoritmet e sheshta ndërtojnë një ndarje të objekteve në grupime.
  2. E qartë dhe e paqartë.
    Algoritmet e pastra (ose jo të mbivendosura) i caktojnë çdo objekti të mostrës një numër grupi, d.m.th. çdo objekt i përket vetëm një grupi. Algoritmet fuzzy (ose kryqëzuese) i caktojnë çdo objekti një grup vlerash reale që tregojnë shkallën e marrëdhënies së objektit me grupimet. ato. çdo objekt i përket çdo grupi me një probabilitet të caktuar.

Bashkimi i grupimeve

Në rastin e përdorimit të algoritmeve hierarkike, lind pyetja se si të kombinohen grupimet me njëri-tjetrin, si të llogariten "distancat" midis tyre. Ka disa metrika:
  1. Lidhje e vetme (distancat e fqinjit më të afërt)
    Në këtë metodë, distanca ndërmjet dy grupimeve përcaktohet nga distanca midis dy objekteve më të afërta (fqinjët më të afërt) në grupime të ndryshme. Grupet që rezultojnë kanë tendencë të formojnë zinxhirë.
  2. Lidhje e plotë (distanca e fqinjëve më të largët)
    Në këtë metodë, distancat midis grupimeve përcaktohen nga distanca më e madhe midis çdo dy objekti në grupime të ndryshme (d.m.th., fqinjët më të largët). Kjo metodë zakonisht funksionon shumë mirë kur objektet vijnë nga grupe të veçanta. Nëse grupimet kanë një formë të zgjatur ose lloji i tyre natyror është "zinxhir", atëherë kjo metodë është e papërshtatshme.
  3. Mesatarja e papeshuar në çift
    Në këtë metodë, distanca midis dy grupimeve të ndryshme llogaritet si distanca mesatare midis të gjitha palëve të objekteve në to. Metoda është efektive kur objektet formojnë grupe të ndryshme, por funksionon po aq mirë në rastet e grupimeve të zgjeruara (të tipit "zinxhir").
  4. Mesatarja e ponderuar në çift
    Metoda është identike me metodën mesatare të papeshuar në çift, me përjashtim të faktit se madhësia e grupimeve përkatëse (d.m.th., numri i objekteve që ato përmbajnë) përdoret si faktor peshimi në llogaritjet. Prandaj, kjo metodë duhet të përdoret kur priten madhësi të pabarabarta të grupimeve.
  5. Metoda centroide e papeshuar
    Në këtë metodë, distanca midis dy grupimeve përcaktohet si distanca midis qendrave të tyre të gravitetit.
  6. Metoda centroide e ponderuar (mediane)
    Kjo metodë është identike me atë të mëparshme, përveç se llogaritja përdor peshat për të llogaritur dallimet midis madhësive të grupimeve. Prandaj, nëse ka ose dyshohet se ka dallime të rëndësishme në madhësitë e grupimeve, kjo metodë preferohet nga ajo e mëparshme.

Pasqyrë e algoritmeve

Algoritmet e grupimit hierarkik
Ndër algoritmet e grupimit hierarkik, ekzistojnë dy lloje kryesore: algoritme nga poshtë-lart dhe nga lart-poshtë. Algoritmet nga lart-poshtë punojnë në një parim nga lart-poshtë: në fillim, të gjitha objektet vendosen në një grup, i cili më pas ndahet në grupe gjithnjë e më të vogla. Më të zakonshmet janë algoritmet nga poshtë-lart, të cilët fillojnë duke vendosur çdo objekt në një grup të veçantë dhe më pas duke i kombinuar grupimet në grupe gjithnjë e më të mëdha derisa të gjitha objektet në mostër të përfshihen në një grup të vetëm. Në këtë mënyrë, ndërtohet një sistem ndarjesh të mbivendosur. Rezultatet e algoritmeve të tilla zakonisht paraqiten në formën e një peme - një dendrogram. Një shembull klasik i një peme të tillë është klasifikimi i kafshëve dhe bimëve.

Për të llogaritur distancat midis grupimeve, të gjithë përdorin më shpesh dy distanca: një lidhje të vetme ose një lidhje të plotë (shiko përmbledhjen e matjeve të distancës midis grupimeve).

Një disavantazh i algoritmeve hierarkike është sistemi i ndarjeve të plota, i cili mund të jetë i panevojshëm në kontekstin e problemit që zgjidhet.

Algoritmet e gabimit kuadratik
Problemi i grupimit mund të konsiderohet si ndërtimi i një ndarjeje optimale të objekteve në grupe. Në këtë rast, optimaliteti mund të përkufizohet si kërkesa për të minimizuar gabimin mesatar katror të ndarjes:

Ku c j- “qendra e masës” e grupit j(pika me karakteristika mesatare për një grup të caktuar).

Algoritmet e gabimit kuadratik janë një lloj algoritmesh të sheshta. Algoritmi më i zakonshëm në këtë kategori është metoda k-means. Ky algoritëm ndërton një numër të caktuar grupimesh të vendosura sa më larg njëri-tjetrit. Puna e algoritmit ndahet në disa faza:

  1. Zgjidh rastësisht k pikat që janë “qendrat e masës” fillestare të grupimeve.
  2. Cakto çdo objekt në grup me "qendrën e masës" më të afërt.
  3. Rillogaritni “qendrat e masës” të grupimeve sipas përbërjes së tyre aktuale.
  4. Nëse kriteri i ndalimit të algoritmit nuk plotësohet, kthehu në hapin 2.
Ndryshimi minimal në gabimin mesatar katror zakonisht zgjidhet si kriter për ndalimin e algoritmit. Është gjithashtu e mundur të ndalohet algoritmi nëse në hapin 2 nuk ka pasur objekte që lëvizin nga grupi në grup.

Disavantazhet e këtij algoritmi përfshijnë nevojën për të specifikuar numrin e grupimeve për ndarje.

Algoritmet Fuzzy
Algoritmi më i popullarizuar i grupimit fuzzy është algoritmi c-means. Është një modifikim i metodës k-means. Hapat e algoritmit:

Ky algoritëm mund të mos jetë i përshtatshëm nëse numri i grupimeve është i panjohur paraprakisht, ose nëse është e nevojshme të caktohet në mënyrë të qartë secili objekt në një grup.
Algoritme të bazuara në teorinë e grafikëve
Thelbi i algoritmeve të tilla është se një përzgjedhje e objekteve përfaqësohet në formën e një grafiku G=(V, E), kulmet e të cilave korrespondojnë me objektet dhe skajet e të cilave kanë një peshë të barabartë me "distancën" midis objekteve. Përparësitë e algoritmeve të grupimit të grafikëve janë qartësia, lehtësia relative e zbatimit dhe aftësia për të prezantuar përmirësime të ndryshme bazuar në konsiderata gjeometrike. Algoritmet kryesore janë algoritmi për identifikimin e komponentëve të lidhur, algoritmi për ndërtimin e një peme minimale që shtrihet dhe algoritmi i grupimit shtresë pas shtrese.
Algoritmi për identifikimin e komponentëve të lidhur
Në algoritmin për identifikimin e komponentëve të lidhur, specifikohet parametri i hyrjes R dhe në grafik fshihen të gjitha skajet për të cilat “distancat” janë më të mëdha R. Vetëm çiftet më të afërta të objekteve mbeten të lidhura. Qëllimi i algoritmit është të zgjedhë një vlerë të tillë R, i shtrirë në intervalin e të gjitha "distancave" në të cilat grafiku "shpërndahet" në disa komponentë të lidhur. Komponentët që rezultojnë janë grupime.

Për të zgjedhur një parametër R Zakonisht ndërtohet një histogram i shpërndarjeve të distancave në çift. Në detyrat me një strukturë të mirëpërcaktuar të të dhënave, histogrami do të ketë dy maja - njëra korrespondon me distancat brenda grupimeve, e dyta - distancat ndër-grupore. Parametri R zgjidhet nga zona minimale midis këtyre majave. Në të njëjtën kohë, është mjaft e vështirë të kontrollosh numrin e grupimeve duke përdorur një prag të distancës.

Algoritmi i pemës me shtrirje minimale
Algoritmi i pemës me shtrirje minimale fillimisht ndërton një pemë me shtrirje minimale në një grafik dhe më pas heq në mënyrë sekuenciale skajet me peshën më të madhe. Figura tregon pemën minimale të shtrirjes së marrë për nëntë objekte.

Duke hequr lidhjen e etiketuar CD me gjatësi 6 njësi (buza me distancën maksimale), fitojmë dy grupime: (A, B, C) dhe (D, E, F, G, H, I). Grupi i dytë më vonë mund të ndahet në dy grupe të tjera duke hequr skajin EF, i cili ka një gjatësi prej 4.5 njësi.

Grumbullimi shtresë pas shtrese
Algoritmi i grupimit shtresë pas shtrese bazohet në identifikimin e komponentëve të lidhur të grafikut në një nivel të caktuar distancash ndërmjet objekteve (kulmeve). Niveli i distancës përcaktohet nga pragu i distancës c. Për shembull, nëse distanca ndërmjet objekteve , Kjo .

Algoritmi i grupimit shtresë pas shtrese gjeneron një sekuencë nëngrafësh të grafikut G, të cilat pasqyrojnë marrëdhëniet hierarkike midis grupimeve:

,

Ku G t = (V, E t)- grafiku i nivelit me t,
,
me t– pragu i distancës t-të,
m – numri i niveleve të hierarkisë,
G 0 = (V, o), o është grupi bosh i skajeve të grafikut i marrë nga t 0 = 1,
G m = G, domethënë një grafik i objekteve pa kufizime në distancë (gjatësia e skajeve të grafikut), pasi t m = 1.

Duke ndryshuar pragjet e distancës ( s 0 , …, s m), ku 0 = nga 0 < nga 1 < …< me m= 1, është e mundur të kontrollohet thellësia e hierarkisë së grupimeve që rezultojnë. Kështu, algoritmi i grupimit shtresë pas shtrese është i aftë të krijojë një ndarje të sheshtë dhe hierarkike të të dhënave.

Krahasimi i algoritmeve

Kompleksiteti llogaritës i algoritmeve

Tabela e krahasimit të algoritmeve
Algoritmi i grupimit Forma e grupit Fut te dhenat rezultatet
Hierarkike falas Numri i grupimeve ose pragu i distancës për të shkurtuar hierarkinë Pema e grupimeve binare
k-do të thotë Hipersfera Numri i grupimeve Qendrat e grupimeve
c-do të thotë Hipersfera Numri i grupimeve, shkalla e paqartësisë Qendrat e grupimit, matrica e anëtarësimit
Zgjedhja e komponentëve të lidhur falas Pragu i distancës R
Pema me shtrirje minimale falas Numri i grupimeve ose pragu i distancës për heqjen e skajeve Struktura e pemëve të grupimeve
Grumbullimi shtresë pas shtrese falas Sekuenca e pragjeve të distancës Struktura e pemëve të grupimeve me nivele të ndryshme hierarkie

Pak për aplikimin

Në punën time, më duhej të zgjidhja zona individuale nga strukturat hierarkike (pemët). ato. në thelb ishte e nevojshme të pritej pema origjinale në disa pemë më të vogla. Meqenëse një pemë e drejtuar është një rast i veçantë i një grafi, atëherë natyrshëm Algoritmet e bazuara në teorinë e grafikëve janë të përshtatshme.

Ndryshe nga një grafik plotësisht i lidhur, në një pemë të drejtuar jo të gjitha kulmet janë të lidhura me anë, dhe numri i përgjithshëm i skajeve është n–1, ku n është numri i kulmeve. ato. në lidhje me nyjet e pemëve, puna e algoritmit për identifikimin e komponentëve të lidhur do të thjeshtohet, pasi heqja e çdo numri skajesh do të "thyejë" pemën në komponentë të lidhur (pemë individuale). Algoritmi i pemës me shtrirje minimale në këtë rast do të përkojë me algoritmin për zgjedhjen e komponentëve të lidhur - duke hequr skajet më të gjata, pema origjinale ndahet në disa pemë. Në këtë rast, është e qartë se faza e ndërtimit të vetë pemës me shtrirje minimale është anashkaluar.

Nëse do të përdoreshin algoritme të tjera, ata do të duhej të merrnin parasysh veçmas praninë e lidhjeve midis objekteve, gjë që e ndërlikon algoritmin.

Më vete, do të doja të them se për të arritur rezultati më i mirëështë e nevojshme të eksperimentoni me zgjedhjen e masave të distancës, dhe ndonjëherë edhe të ndryshoni algoritmin. Nuk ka zgjidhje të vetme.

Deri më sot, janë zhvilluar më shumë se njëqind algoritme të ndryshme grupimi. Si rezultat i përdorimit të metodave të ndryshme të grupimit, mund të arrihen rezultate të ndryshme: grupime me forma të ndryshme, sasi të ndryshme ose përbërjen e grupimeve. Kjo është normale dhe është një veçori e funksionimit të një algoritmi të caktuar.

Për shembull, grupimet e tipit "zinxhir" janë të mundshme, kur grupimet përfaqësohen nga "zinxhirë të gjatë", grupime të zgjatura, etj., dhe disa metoda mund të krijojnë grupime me formë arbitrare.

Metoda të ndryshme mund të përpiqen të krijojnë grupime të madhësive specifike (p.sh., të vogla ose të mëdha) ose të supozojnë se ka grupime të madhësive të ndryshme në grupin e të dhënave.

Disa metoda të analizës së grupimeve janë veçanërisht të ndjeshme ndaj zhurmave ose të jashtme, të tjera më pak.

Rezultatet e marra kërkojnë interpretim të mëtejshëm, hulumtim dhe studim të vetive dhe karakteristikave të objekteve për të qenë në gjendje të përshkruajnë me saktësi grupimet e formuara.

Procesi i grupimit dhe rezultati i tij varen nga metoda e zgjedhur dhe metoda për përcaktimin e masës së distancës.

Metodat e analizës së grupimeve mund të ndahen në dy grupe:

    hierarkike;

    johierarkike.

Secili prej këtyre grupeve përfshin shumë qasje dhe algoritme.

10.5.1 Metodat e analizës së grupimeve hierarkike

Thelbi i grupimit hierarkik është të kombinohen në mënyrë sekuenciale grupimet më të vogla në ato më të mëdha (metodat aglomerative) ose të ndahen grupimet e mëdha në ato më të vogla (metodat e ndashme).

Metodat aglomerative hierarkike (Agglomerative Nesting, AGNES) karakterizohen nga kombinimi sekuencial i elementeve fillestare dhe një reduktim përkatës në numrin e grupimeve. Në fillim të algoritmit, të gjitha objektet janë grupime të veçanta. Në hapin e parë, dy objektet më të ngjashme kombinohen në një grup. Në hapat e mëpasshëm, bashkimi vazhdon derisa të gjitha objektet të formojnë një grup.

Metodat hierarkike të pjesëtueshme (të pjestueshme) (DIvisive ANAlysis, DIANA) janë e kundërta logjike e metodave aglomerative. Në fillim të algoritmit, të gjitha objektet i përkasin një grupi, i cili në hapat e mëpasshëm ndahet në grupime më të vogla, duke rezultuar në një sekuencë grupesh të ndarë.

Thelbi i këtyre metodave është ilustruar duke përdorur një dendrogram në Fig. 10.4.

Oriz. 10.4 Dendrogrami i metodave aglomerative dhe divizionale

Zbatimi i softuerit të algoritmeve të analizës së grupimeve përfaqësohet gjerësisht në mjete të ndryshme të Data Mining, të cilat lejojnë zgjidhjen e problemeve të një dimensioni mjaft të madh. Për shembull, metodat aglomerative zbatohen në paketën SPSS, metodat e ndarjes - në paketën Statgraf.

Avantazhi i metodave të grupimit hierarkik është qartësia e tyre. Megjithatë, metodat e analizës së grupimeve hierarkike përdoren për grupe të vogla të dhënash.

Algoritmet hierarkike shoqërohen me ndërtimin e dendrogrameve (nga greqishtja dendron - "pema"), të cilat janë rezultat i analizës hierarkike të grupimeve. Një dendrogram përshkruan afërsinë e pikave dhe grupimeve individuale me njëra-tjetrën dhe paraqet në formë grafike sekuencën e bashkimit (ndarjes) të grupimeve.

Dendrogram - një diagram pemë që përmban nivele, secila prej të cilave korrespondon me një nga hapat në procesin e konsolidimit të njëpasnjëshëm të grupimeve. Një dendrogram është një grupim i mbivendosur i objekteve që ndryshon në nivele të ndryshme të hierarkisë.

Ka shumë mënyra për të ndërtuar dendrograme. Në një dendrogram, objektet mund të vendosen vertikalisht ose horizontalisht. Një shembull i një dendrogrami horizontal është paraqitur në Fig. 10.4, dendrogram vertikal - në Fig. 10.5.

Oriz. 10.5. Dendrogram vertikal

Në figurën 10.5, në hapin e parë, çdo vëzhgim paraqet një grup (vijë vertikale), në hapin e dytë vëzhgojmë bashkimin e vëzhgimeve të tilla: 11 dhe 10; 3, 4 dhe 5; 8 dhe 9; 2 dhe 6. Në hapin e dytë, grupimi vazhdon: vëzhgimet 11, 10, 3, 4, 5 dhe 7, 8, 9. Ky proces vazhdon derisa të gjitha vëzhgimet të kombinohen në një grup.

Bashkimi kryhet duke përdorur një nga metodat e diskutuara në pikën 10.4: metoda e fqinjit më të afërt, metoda e fqinjit të largët, metoda Ward, metoda e mesatares në çift, metoda qendrore, etj.

Analiza e grupimeve(ClA) është një grup metodash klasifikimi shumëdimensionale, qëllimi i të cilave është formimi i grupeve (grupeve) të objekteve të ngjashme. Ndryshe nga grupimet tradicionale të konsideruara në teorinë e përgjithshme të statistikave, ClA çon në një ndarje në grupe duke marrë parasysh të gjitha karakteristikat e grupimit në të njëjtën kohë.

Metodat e UÇK-së ju lejojnë të zgjidhni problemet e mëposhtme:

Kryerja e klasifikimit të objekteve duke marrë parasysh shumë karakteristika;

Kontrollimi i supozimeve të bëra për praninë e ndonjë strukture në grupin e objekteve të studiuara, d.m.th. kërkimi i një strukture ekzistuese;

Ndërtimi i klasifikimeve të reja për dukuritë e studiuara dobët, kur është e nevojshme të vendoset prania e lidhjeve brenda një popullate dhe të përpiqet të futet struktura në të.

Për regjistrimin e algoritmeve të zyrtarizuara të UÇK-së, përdoren këto: simbolet:

– një grup objektesh vëzhgimi;

vëzhgimi i-të në hapësirën e tipareve m-dimensionale ();

– distanca ndërmjet objekteve -të dhe -;

- vlerat e normalizuara të variablave origjinale;

– matrica e distancave ndërmjet objekteve.

Për të zbatuar çdo metodë të UÇK-së, është e nevojshme të futet koncepti i "ngjashmërisë së objekteve". Për më tepër, gjatë procesit të klasifikimit, çdo grup duhet të përfshijë objekte që janë më të ngjashme me njëri-tjetrin për sa i përket variablave të vëzhguar.

Për të përcaktuar sasinë e ngjashmërisë, është prezantuar koncepti i metrikës. Çdo objekt përshkruhet me veçori dhe përfaqësohet si një pikë në hapësirën dimensionale. Ngjashmëria ose ndryshimi midis objekteve të klasifikuara përcaktohet në varësi të distancës metrike ndërmjet tyre. Në mënyrë tipike, përdoren masat e mëposhtme të distancës midis objekteve:

Distanca euklidiane ;

Distanca Euklidiane e peshuar ;

Largësia e bllokut të qytetit ;

Distanca e Mahalanobis,

ku është distanca midis objektit të th dhe të th;

, janë vlerat e ndryshores - dhe, përkatësisht, objektet -të dhe -të;

, – vektorët e vlerave të ndryshueshme për objektet -të dhe -të;

– matrica e përgjithshme e kovariancës;

– pesha e caktuar për variablin th.

Të gjitha metodat e UÇK-së mund të ndahen në dy grupe: hierarkike (agglomerative dhe divizionale) dhe iterative (metoda e mesatareve, metoda e kërkimit të kondensimeve).

Analiza e grupimeve hierarkike. Nga të gjitha metodat e analizës së grupimeve, më e zakonshme është algoritmi i klasifikimit aglomerativ. Thelbi i aggrogrit është se në hapin e parë, çdo objekt mostër konsiderohet si një grup i veçantë. Procesi i bashkimit të grupimeve ndodh në mënyrë sekuenciale: bazuar në matricën e distancës ose matricën e ngjashmërisë, objektet më të afërta kombinohen. Nëse matrica e distancës fillimisht ka dimensionin (), atëherë i gjithë procesi i bashkimit përfundon në () hapa. Si rezultat, të gjitha objektet do të kombinohen në një grup.

Sekuenca e shoqërimit mund të përfaqësohet si një dendrogram, i paraqitur në figurën 3.1. Dendrogrami tregon se në hapin e parë objektet e dytë dhe të tretë u bashkuan në një grup me një distancë midis tyre prej 0,15. Në hapin e dytë, objekti i parë u bashkua me to. Distanca nga objekti i parë në grupin që përmban objektin e dytë dhe të tretë është 0.3, etj.

Shumë metoda të analizës së grupimeve hierarkike ndryshojnë në algoritmet e tyre të kombinimit (ngjashmërisë), nga të cilat më të zakonshmet janë: metoda e lidhjes së vetme, metoda e lidhjes së plotë, metoda e lidhjes mesatare dhe metoda Ward.

Metoda e plotë e lidhjes- përfshirja e një objekti të ri në një grup ndodh vetëm nëse ngjashmëria midis të gjithë objekteve nuk është më e vogël se një nivel i caktuar i specifikuar ngjashmërie (Figura 1.3).


b)


Metoda mesatare e lidhjes– kur një objekt i ri përfshihet në një grup ekzistues, llogaritet vlera mesatare e masës së ngjashmërisë, e cila më pas krahasohet me një nivel të caktuar pragu. Nëse po flasim për kombinimin e dy grupimeve, atëherë llogaritet një masë e ngjashmërisë midis qendrave të tyre dhe krahasohet me një vlerë të caktuar pragu. Le të shqyrtojmë një shembull gjeometrik me dy grupime (Figura 1.4).

Figura 1.4. Kombinimi i dy grupimeve duke përdorur metodën e lidhjes mesatare:

Nëse masa e ngjashmërisë midis qendrave të grupimeve () nuk është më e vogël se një nivel i caktuar, atëherë grupet do të kombinohen në një.

Metoda e Ward– në hapin e parë, çdo grup përbëhet nga një objekt. Fillimisht, dy grupimet më të afërta bashkohen. Për ta, përcaktohen vlerat mesatare të secilës karakteristikë dhe llogaritet shuma e devijimeve në katror

, (1.1)

ku është numri i grupit, është numri i objektit, është numri i tipareve; – numrin e veçorive që karakterizojnë çdo objekt; numri i objekteve në - mcluster.

Më pas, në çdo hap të algoritmit, ato objekte ose grupime që japin rritjen më të vogël në vlerë kombinohen.

Metoda e Ward rezulton në grupime me përmasa afërsisht të barabarta me variacion minimal brenda grupit.

Algoritmi i analizës së grupimeve hierarkike mund të përfaqësohet si një sekuencë procedurash:

Normalizimi i vlerave fillestare të variablave;

Llogaritja e një matrice të distancave ose e një matrice të masave të ngjashmërisë;

Përcaktimi i një çifti objektesh (grupesh) më të afërta dhe kombinimi i tyre sipas algoritmit të zgjedhur;

Përsëritja e tre procedurave të para derisa të gjitha objektet të kombinohen në një grup.

Masa e ngjashmërisë për kombinimin e dy grupimeve përcaktohet me metodat e mëposhtme:

Metoda “Fqinji më i afërt” – shkalla e ngjashmërisë ndërmjet grupimeve vlerësohet nga shkalla e ngjashmërisë ndërmjet objekteve më të ngjashme (më të afërta) të këtyre grupimeve;

Metoda e "fqinjës së largët" - shkalla e ngjashmërisë vlerësohet nga shkalla e ngjashmërisë midis objekteve më të largëta (të pangjashme) të grupimeve;

Metoda mesatare e lidhjes - shkalla e ngjashmërisë vlerësohet si vlera mesatare shkallët e ngjashmërisë ndërmjet objekteve të grupimit;

Metoda e lidhjes mesatare - distanca midis çdo grupi S dhe një grup i ri, i cili rezultoi nga bashkimi i grupimeve R Dhe q, përkufizohet si distanca nga qendra e grupimit S në mes të segmentit që lidh qendrat e grupimeve R Dhe q.

Metoda e kërkimit të kondensimit. Një nga metodat përsëritëse të klasifikimit është algoritmi i kërkimit në grup. Thelbi i algoritmit iterativ këtë metodë konsiston në përdorimin e një hipersfere të një rrezeje të caktuar, e cila lëviz në hapësirën e veçorive të klasifikimit për të kërkuar përqendrime lokale të objekteve.



Metoda e kërkimit të kondensimeve kërkon, para së gjithash, llogaritjen e një matrice të distancave (ose një matrice të masave të ngjashmërisë) midis objekteve dhe zgjedhjen e qendrës fillestare të sferës. Në mënyrë tipike, në hapin e parë, qendra e sferës është objekti (pika) në afërsi të të cilit ndodhet numri më i madh i fqinjëve. Bazuar në një rreze të caktuar sfere (R) përcaktohet një grup pikash që bien brenda kësaj sfere dhe për to llogariten koordinatat e qendrës (vektori i vlerave mesatare të veçorive).

Kur rillogaritja e radhës e koordinatave të qendrës së sferës çon në të njëjtin rezultat si në hapin e mëparshëm, lëvizja e sferës ndalet dhe pikat që bien brenda saj formojnë një grup dhe përjashtohen nga procesi i mëtejshëm i grumbullimit. Procedurat e mësipërme përsëriten për të gjitha pikat e mbetura. Algoritmi plotësohet në një numër të kufizuar hapash dhe të gjitha pikat shpërndahen midis grupimeve. Numri i grupimeve të formuara është i panjohur paraprakisht dhe varet fuqishëm nga rrezja e sferës.

Për të vlerësuar stabilitetin e ndarjes që rezulton, është e këshillueshme që të përsëritet procesi i grumbullimit disa herë kuptime të ndryshme rrezja e sferës, duke ndryshuar rrezen me një sasi të vogël çdo herë.

Ka disa mënyra për të zgjedhur rrezen e një sfere. Nëse është distanca midis objekteve të th dhe të th, atëherë zgjidhni , dhe kufiri i sipërm i rrezes mund të përkufizohet si .

Nëse e filloni algoritmin me një vlerë dhe e ndryshoni atë me një vlerë të vogël sa herë që përsëritet, atëherë mund të identifikoni vlerat e rrezeve që çojnë në formimin e të njëjtit numër grupimesh, d.m.th. në një ndarje të qëndrueshme.

Shembulli 1. Bazuar në të dhënat në tabelën 1.1, është e nevojshme të klasifikohen pesë ndërmarrje duke përdorur analizën e grupimeve aglomerative hierarkike.

Tabela 1.1

Këtu: – kosto mesatare vjetore e aseteve fikse asetet e prodhimit, miliardë rubla; - kostot materiale për rubla të produkteve të prodhuara, kopekë; - vëllimi i produkteve të prodhuara, miliardë rubla.

Zgjidhje. Para llogaritjes së matricës së distancës, ne normalizojmë të dhënat origjinale duke përdorur formulën

Matrica e vlerave të ndryshoreve të normalizuara do të duket si kjo

.

Klasifikimin do ta kryejmë duke përdorur metodën aglomerative hierarkike. Për të ndërtuar matricën e distancës, ne do të përdorim distancën Euklidiane. Pastaj, për shembull, distanca midis objekteve të parë dhe të dytë do të jetë

Matrica e distancës karakterizon distancat midis objekteve, secila prej të cilave, në hapin e parë, përfaqëson një grup të veçantë

.

Siç shihet nga matrica, objektet më të afërta janë dhe. Le t'i kombinojmë ato në një grup dhe t'i caktojmë një numër . Le të rillogaritim distancat e të gjitha objekteve të mbetura (grupeve) në grup dhe të marrim një matricë të re të distancës

.

Në matricë, distancat midis grupimeve përcaktohen duke përdorur algoritmin "fqinj i largët". Atëherë distanca midis objektit dhe grupit është

Në matricë gjejmë përsëri grupimet më të afërta. Këto do të jenë dhe , . Prandaj, në këtë hap kombinojmë edhe grupimet; marrim një grup të ri që përmban objekte , . Le t'i caktojmë atij një numër . Tani kemi tre grupime (1,3), (2,5), (4).

.

Duke gjykuar nga matrica, në hapin tjetër kombinojmë grupimet dhe në një grup dhe i caktojmë një numër. Tani kemi vetëm dy grupime:

.

Dhe së fundi, në hapin e fundit do të kombinojmë grupet në një distancë prej 3.861.


Le të paraqesim rezultatet e klasifikimit në formën e një dendrogrami (Figura 1.5). Dendrogrami tregon se grupi është më homogjen në përbërjen e objekteve hyrëse, pasi në të bashkimi ndodhi në distanca më të shkurtra sesa në grup.

Figura 3.5 Dendrogrami i grumbullimit të pesë objekteve

Shembulli 2. Bazuar në të dhënat e mëposhtme, klasifikoni dyqanet sipas tre kritereve: – sipërfaqja e shitjes, m2, – qarkullimi për shitës, den. njësi, – niveli i përfitueshmërisë, %.

Numri i dyqanit Numri i dyqanit

Për të klasifikuar dyqanet, përdorni metodën e kërkimit në grup (duhet të zgjidhni grupin e parë).

Zgjidhje. 1. Llogaritni distancat midis objekteve duke përdorur metrikën Euklidiane

,

ku , janë vlerat e standardizuara të variablave fillestare për objektin e th dhe të th, përkatësisht; T– numri i shenjave.

.

2. Bazuar në matricën Z, ne llogarisim një matricë simetrike katrore të distancave ndërmjet objekteve () .

Analiza e matricës së distancës ndihmon në përcaktimin e pozicionit të qendrës fillestare të sferës dhe zgjedhjen e rrezes së sferës.

Në këtë shembull, shumica e distancave "të vogla" janë në rreshtin e parë, d.m.th. objekti i parë ka mjaft fqinjë "të afërt". Prandaj, objekti i parë mund të merret si qendër e sferës.

3. Vendosni rrezen e sferës. Në këtë rast, objektet distanca e të cilave nga objekti i parë është më pak se 2 bien në sferë.

Për gjashtë pika (objektet 1, 2, 3, 6, 7, 8) përcaktojmë koordinatat e qendrës së gravitetit: .

4. Në hapin tjetër të algoritmit, vendosim qendrën e sferës në një pikë dhe përcaktojmë distancën e secilit objekt në qendrën e re.

, administrata publike, filologji, antropologji, marketing, sociologji, gjeologji dhe disiplina të tjera. Megjithatë, universaliteti i aplikimit ka çuar në shfaqjen e një numri të madh termash, metodash dhe qasjesh të papajtueshme, duke e bërë të vështirë përdorimin e qartë dhe interpretimin konsistent të analizës së grupimeve.

YouTube enciklopedik

  • 1 / 5

    Analiza e grupimeve kryen detyrat kryesore të mëposhtme:

    • Zhvillimi i një tipologjie ose klasifikimi.
    • Një eksplorim i skemave konceptuale të dobishme për grupimin e objekteve.
    • Gjenerimi i hipotezave bazuar në kërkimin e të dhënave.
    • Testimi ose hulumtimi i hipotezave për të përcaktuar nëse llojet (grupet) të identifikuara në një mënyrë ose në një tjetër janë realisht të pranishme në të dhënat e disponueshme.

    Pavarësisht nga lënda e studimit, përdorimi i analizës së grupimeve përfshin hapat e mëposhtëm:

    • Përzgjedhja e një kampioni për grupim. Implikimi është se ka kuptim të grumbullohen vetëm të dhënat sasiore.
    • Përcaktimi i grupit të variablave me të cilat do të vlerësohen objektet në mostër, domethënë hapësira e veçorive.
    • Llogaritja e vlerave të një mase të veçantë të ngjashmërisë (ose ndryshimit) midis objekteve.
    • Përdorimi i metodës së analizës së grupimeve për të krijuar grupe objektesh të ngjashme.
    • Kontrollimi i besueshmërisë së rezultateve të zgjidhjes së grupit.

    Ju mund të gjeni një përshkrim të dy kërkesave themelore për të dhënat - homogjeniteti dhe plotësia. Homogjeniteti kërkon që të gjitha entitetet e grupuara të jenë të së njëjtës natyrë dhe të përshkruara nga një grup i ngjashëm karakteristikash. Nëse analiza e grupimit paraprihet nga analiza e faktorëve, atëherë kampioni nuk ka nevojë të "riparohet" - kërkesat e deklaruara plotësohen automatikisht nga vetë procedura e modelimit të faktorëve (ekziston një avantazh tjetër - z-standardizimi pa pasoja negative për kampionin; nëse kryhet drejtpërdrejt për analizën e grupimeve, mund të çojë në një ulje të qartësisë së ndarjes së grupeve). Përndryshe, mostra duhet të rregullohet.

    Tipologjia e problemeve të grumbullimit

    Llojet e hyrjes

    Në shkencën moderne, përdoren disa algoritme për përpunimin e të dhënave hyrëse. Analiza duke krahasuar objektet në bazë të karakteristikave (më e zakonshme në shkencat biologjike) quhet P-lloji i analizës dhe në rastin e krahasimit të veçorive, bazuar në objekte - R-lloji i analizës. Ka përpjekje për të përdorur lloje hibride të analizës (për shembull, RQ-analiza), por kjo metodologji ende nuk është zhvilluar siç duhet.

    Qëllimet e grupimit

    • Kuptimi i të dhënave duke identifikuar strukturën e grupimeve. Ndarja e kampionit në grupe objektesh të ngjashme bën të mundur thjeshtimin e mëtejshëm të përpunimit të të dhënave dhe vendimmarrjes duke aplikuar një metodë të ndryshme analize për secilin grup (strategjia "përça dhe sundo").
    • Kompresimi i të dhënave. Nëse kampioni origjinal është tepër i madh, atëherë mund ta zvogëloni atë, duke lënë një përfaqësues më tipik nga çdo grup.
    • Zbulimi i risive. Identifikohen objekte atipike që nuk mund të ngjiten në asnjë nga grupimet.

    Në rastin e parë, ata përpiqen të zvogëlojnë numrin e grupimeve. Në rastin e dytë, është më e rëndësishme të sigurohet një shkallë e lartë e ngjashmërisë së objekteve brenda secilit grup, dhe mund të ketë çdo numër grupesh. Në rastin e tretë, më interesantët janë objektet individuale që nuk përshtaten në asnjë nga grupimet.

    Në të gjitha këto raste mund të përdoret grupimi hierarkik, kur grupimet e mëdha ndahen në më të vogla, të cilat nga ana e tyre ndahen në edhe më të vogla etj. Probleme të tilla quhen probleme taksonomie. Taksonomia rezulton në një strukturë hierarkike të ngjashme me pemën. Në këtë rast, çdo objekt karakterizohet duke renditur të gjitha grupimet të cilave u përket, zakonisht nga i madhi tek i vogël.

    Metodat e grupimit

    Nuk ka një klasifikim të pranuar përgjithësisht të metodave të grupimit, por mund të dallohen një sërë grupesh qasjesh (disa metoda mund të klasifikohen në disa grupe njëherësh dhe për këtë arsye propozohet që ky tipifikim të konsiderohet si një përafrim me klasifikimin real të metodave të grupimit ):

    1. Qasje probabiliste. Supozohet se çdo objekt në shqyrtim i përket njërës nga klasat k. Disa autorë (për shembull, A.I. Orlov) besojnë se ky grup nuk ka të bëjë fare me grupimin dhe e kundërshtojnë atë me emrin "diskriminim", domethënë zgjedhjen e caktimit të objekteve në një nga grupet e njohura (mostrat e trajnimit).
    2. Qasjet e bazuara në sistemet e inteligjencës artificiale: një grup shumë i kushtëzuar, pasi ka shumë metoda dhe ato janë metodologjikisht shumë të ndryshme.
    3. Qasje logjike. Dendrogrami është ndërtuar duke përdorur një pemë vendimi.
    4. Qasja grafiko-teorike.
    5. Qasja hierarkike. Supozohet prania e grupeve të mbivendosur (grupe të rendit të ndryshëm). Algoritmet, nga ana tjetër, ndahen në aglomerativë (unifikues) dhe ndarës (ndarës). Në bazë të numrit të karakteristikave, ndonjëherë dallohen metodat monotetike dhe politetike të klasifikimit.
      • Grumbullimi ose taksonomia hierarkike divizionale. Problemet e grupimit trajtohen në një taksonomi sasiore.
    6. Metoda të tjera. Nuk përfshihet në grupet e mëparshme.
      • Algoritmet statistikore të grupimit
      • Ansambli i grupimeve
      • Algoritmet e familjes KRAB
      • Algoritmi i bazuar në metodën e shoshitjes

    Qasjet 4 dhe 5 nganjëherë kombinohen nën emrin e një qasjeje strukturore ose gjeometrike, e cila ka një koncept më të formalizuar të afërsisë. Pavarësisht dallimeve të rëndësishme midis metodave të listuara, të gjitha ato mbështeten në origjinalin " hipoteza e kompaktësisë": në hapësirën e objektit, të gjitha objektet e afërta duhet t'i përkasin të njëjtit grup, dhe të gjitha objektet e ndryshme, në përputhje me rrethanat, duhet të jenë në grupime të ndryshme.

    Formulimi formal i problemit të grupimit

    Le X (\displaystyle X)- shumë objekte, Y (\displaystyle Y)- një grup numrash (emra, etiketa) grupesh. Funksioni i distancës ndërmjet objekteve është specifikuar ρ (x , x ′) (\style ekrani \rho (x,x")). Ekziston një mostër e kufizuar e trajnimit të objekteve X m = ( x 1 , … , x m ) ⊂ X (\displaystyle X^(m)=\(x_(1),\pika,x_(m)\)\nëngrupi X). Kërkohet të ndahet kampioni në nënbashkësi të ndara të quajtura grupime, në mënyrë që çdo grup të përbëhet nga objekte që janë të ngjashëm në metrikë ρ (\displaystyle \rho), dhe objektet e grupimeve të ndryshme ishin dukshëm të ndryshme. Në të njëjtën kohë, çdo objekt x i ∈ X m (\style ekrani x_(i)\në X^(m))është caktuar numri i grupit y i (\displaystyle y_(i)).

    Algoritmi i grupimitështë një funksion a: X → Y (\displaystyle a\pikon X\në Y), e cila ndaj çdo objekti x ∈ X (\shfaqja x\në X) përputhet me numrin e grupit y ∈ Y (\shfaqja y\në Y). Një tufë me Y (\displaystyle Y) në disa raste dihet paraprakisht, por më shpesh detyra është të përcaktohet numri optimal i grupimeve, nga pikëpamja e njërit ose tjetrit. kriteret e cilësisë grumbullimi.

    Në përgjithësi, vlen të theksohet se historikisht, masat e ngjashmërisë dhe jo masat e dallimit (distanca) përdoren shpesh si matje të afërsisë në biologji.

    Në sociologji

    Gjatë analizimit të rezultateve të hulumtimit sociologjik, rekomandohet që analiza të kryhet duke përdorur metodat e familjes aglomerative hierarkike, përkatësisht metodën Ward, në të cilën optimizohet shpërndarja minimale brenda grupimeve, duke krijuar përfundimisht grupime me madhësi afërsisht të barabarta. Metoda e Ward është më e përshtatshme për analizimin e të dhënave sociologjike. Një masë më e mirë e diferencës është distanca kuadratike Euklidiane, e cila ndihmon në rritjen e kontrastit të grupimeve. Rezultati kryesor i analizës së grupimeve hierarkike është një dendrogram ose "diagrami i akullit". Kur e interpretojnë atë, studiuesit përballen me të njëjtin lloj problemi si interpretimi i rezultateve të analizës së faktorëve - mungesa e kritereve të paqarta për identifikimin e grupimeve. Rekomandohet përdorimi i dy metodave kryesore - analiza vizuale e dendrogramit dhe krahasimi i rezultateve të grupimit të kryera me metoda të ndryshme.

    Analiza vizuale e dendrogramit përfshin "prerjen" e pemës në niveli optimal ngjashmëritë e elementeve të mostrës. Këshillohet që të "prisni degën e rrushit" (terminologjia e M. S. Oldenderfer dhe R. K. Blashfield) në nivelin 5 të shkallës së Kombinatit të Kombinatit të Rescaled Distance Cluster, kështu që do të arrihet një nivel ngjashmërie prej 80%. Nëse identifikimi i grupimeve duke përdorur këtë etiketë është i vështirë (disa grupime të vogla bashkohen në një të madh), atëherë mund të zgjidhni një etiketë tjetër. Kjo teknikë është propozuar nga Oldenderfer dhe Blashfield.

    Tani shtrohet pyetja për qëndrueshmërinë e zgjidhjes së miratuar të grupimit. Në thelb, kontrollimi i qëndrueshmërisë së grupimit zbret në kontrollimin e besueshmërisë së tij. Këtu ekziston një rregull i përgjithshëm - një tipologji e qëndrueshme ruhet kur ndryshojnë metodat e grupimit. Rezultatet e analizës hierarkike të grupimeve mund të verifikohen me anë të analizës iterative të grupimeve duke përdorur metodën k-means. Nëse klasifikimet e krahasuara të grupeve të të anketuarve kanë një shkallë koincidence prej më shumë se 70% (më shumë se 2/3 e ndeshjeve), atëherë merret një vendim grupimi.

    Është e pamundur të kontrollohet përshtatshmëria e një zgjidhjeje pa përdorur një lloj tjetër analize. Të paktën në aspektin teorik, ky problem nuk është zgjidhur. Punimi klasik i Oldenderfer dhe Blashfield, Analiza Cluster, diskuton në detaje dhe në fund hedh poshtë pesë metoda shtesë të testimit të qëndrueshmërisë:

    1. korrelacioni kofenetik - jo i rekomanduar dhe i kufizuar në përdorim;
    2. testet e rëndësisë (analiza e variancës) - gjithmonë japin një rezultat domethënës;
    3. teknikën e kampionimit të përsëritur (të rastësishëm), e cila megjithatë nuk vërteton vlefshmërinë e vendimit;
    4. testet e rëndësisë për shenjat e jashtme i përshtatshëm vetëm për matje të përsëritura;
    5. Metodat Monte Carlo janë shumë komplekse dhe janë të arritshme vetëm për matematikanët me përvojë [ (eng. zbulimi i skajeve) ose njohja e objektit.
    6. Analiza inteligjente e të dhënave (anglisht: data mining) - grupimi në Data Mining merr vlerë kur vepron si një nga fazat e analizës së të dhënave dhe ndërtimit të një zgjidhjeje të plotë analitike. Shpesh është më e lehtë për një analist të identifikojë grupe objektesh të ngjashme, të studiojë tiparet e tyre dhe të ndërtojë një model të veçantë për secilin grup sesa të krijojë një model të përgjithshëm për të gjitha të dhënat. Kjo teknikë përdoret vazhdimisht në marketing, duke identifikuar grupet e klientëve, blerësve, produkteve dhe duke zhvilluar një strategji të veçantë për secilin prej tyre.

    Shpesh në shumicën fusha të ndryshme Në aktivitetet tona, ne duhet të merremi me një numër të madh artikujsh në lidhje me të cilat duhet të ndërmerren veprime.

    Dhe ne as nuk mund ta kuptojmë të gjithë këtë vëllim, e lëre më ta kuptojmë atë.

    Cila është rruga për të dalë? Epo, sigurisht, "vendosni gjithçka në rregull". Në këtë rast, mençuria popullore merr një formulim shkencor shumë të përcaktuar.

    Analiza e grupeve është studimi i objekteve duke i kombinuar ato në grupe homogjene me karakteristika të ngjashme. Metodat e tij janë të zbatueshme fjalë për fjalë në të gjitha fushat: nga mjekësia te tregtimi Forex, nga sigurimi i makinave te arkeologjia. Dhe për marketerët dhe specialistët e burimeve njerëzore është thjesht e pazëvendësueshme.

    Më shumë detaje rreth kësaj në artikull.

    Çfarë është një grup

    Analiza e grupimeve është krijuar për të ndarë një grup objektesh në grupe homogjene (grupe ose klasa). Ky është një problem shumëdimensional i klasifikimit të të dhënave.


    Ekzistojnë rreth 100 algoritme të ndryshme të grupimit, megjithatë, më të përdorurit janë:

    1. analiza e grupimeve hierarkike,
    2. k-do të thotë grumbullim.

    Ku përdoret analiza e grupimeve:

    • Në marketing, ky është segmentimi i konkurrentëve dhe konsumatorëve.
    • Në menaxhim:
      1. ndarja e personelit në grupe të niveleve të ndryshme të motivimit,
      2. klasifikimi i furnizuesit,
      3. identifikimi i situatave të ngjashme të prodhimit në të cilat ndodhin defekte.
    • Në mjekësi - klasifikimi i simptomave, pacientëve, barnave.
    • Në sociologji, ndarja e të anketuarve në grupe homogjene.

    Në fakt, analiza e grupimeve është dëshmuar mirë në të gjitha sferat e jetës njerëzore. E bukura e kësaj metode është se funksionon edhe kur ka pak të dhëna dhe nuk plotësohen kërkesat për normalitetin e shpërndarjes së variablave të rastit dhe kërkesat e tjera. metodat klasike Analiza statistikore.

    Le të shpjegojmë thelbin e analizës së grupimeve pa përdorur terminologji të rreptë.

    Le të themi se keni kryer një anketë me punonjësit dhe dëshironi të përcaktoni se si të menaxhoni në mënyrë më efektive personelin. Kjo do të thotë, ju dëshironi të ndani punonjësit në grupe dhe të nënvizoni levat më efektive të menaxhimit për secilin prej tyre. Në të njëjtën kohë, dallimet ndërmjet grupeve duhet të jenë të dukshme, dhe brenda grupit të anketuarit duhet të jenë sa më të ngjashëm.

    Për të zgjidhur problemin, propozohet përdorimi i analizës hierarkike të grupimeve. Si rezultat, ne do të marrim një pemë, duke parë të cilën duhet të vendosim në sa klasa (grumbullime) duam ta ndajmë stafin. Le të supozojmë se vendosim ta ndajmë stafin në tre grupe, pastaj për të studiuar të anketuarit që bëjnë pjesë në secilin grup, do të marrim një tabelë me përafërsisht përmbajtjen e mëposhtme:


    Le të shpjegojmë se si është formuar tabela e mësipërme. Kolona e parë përmban numrin e grupit - grupit, të dhënat për të cilat pasqyrohen në rresht. Për shembull, grupi i parë është 80% meshkuj. 90% e grupit të parë bie në kategorinë e moshës nga 30 deri në 50 vjeç dhe 12% e të anketuarve besojnë se përfitimet janë shumë të rëndësishme. Dhe kështu me radhë.

    Le të përpiqemi të krijojmë portrete të të anketuarve nga çdo grup:

    1. Grupi i parë përbëhet kryesisht nga burra të pjekur që zënë poste drejtuese. Ata nuk janë të interesuar për paketën sociale (MED, LGOTI, kohë pa KOHË). Ata preferojnë të marrin një rrogë të mirë sesa ndihmë nga një punëdhënës.
    2. Grupi i dytë, përkundrazi, i jep përparësi paketës sociale. Ai përbëhet kryesisht nga njerëz "të moshuar" që zënë pozicione të ulëta. Paga është sigurisht e rëndësishme për ta, por ka prioritete të tjera.
    3. Grupi i tretë është "më i riu". Ndryshe nga dy të mëparshmet, ekziston një interes i dukshëm për mundësitë e të mësuarit dhe zhvillimit profesional. Kjo kategori punonjësish ka një shans të mirë për t'iu bashkuar së shpejti grupit të parë.

    Kështu, kur planifikoni një fushatë zbatimi metoda efektive menaxhimin e personelit, është e qartë se në situatën tonë është e mundur të rritet paketa sociale e grupit të dytë në dëm, për shembull, të pagave. Nëse flasim se cilët specialistë duhet të dërgohen për trajnim, patjetër që mund të rekomandojmë t'i kushtojmë vëmendje grupit të tretë.

    Burimi: "nickart.spb.ru"

    Analiza e grupimeve është çelësi për të kuptuar tregun

    Një grup është çmimi i një aktivi gjatë një periudhe të caktuar kohore gjatë së cilës janë kryer transaksionet. Vëllimi që rezulton i blerjeve dhe shitjeve tregohet nga një numër brenda grupit. Një shirit i çdo afati kohor zakonisht përmban disa grupime. Kjo ju lejon të shihni në detaje vëllimet e blerjeve, shitjeve dhe bilancin e tyre në çdo shirit individual, në çdo nivel çmimi.


    Ndërtimi i një grafiku grupor

    Një ndryshim në çmimin e një aktivi sjell në mënyrë të pashmangshme një zinxhir lëvizjesh çmimesh në instrumente të tjera. Në shumicën e rasteve, të kuptuarit e një lëvizjeje trendi ndodh tashmë në momentin kur ajo po zhvillohet me shpejtësi dhe hyrja në treg përgjatë trendit rrezikon të përfundojë në një valë korrigjuese.

    Për transaksione të suksesshme, ju duhet të kuptoni situatën aktuale dhe të jeni në gjendje të parashikoni lëvizjet e ardhshme të çmimeve. Kjo mund të mësohet duke analizuar grafikun e grupimit. Duke përdorur analizën e grupimeve, mund të shihni aktivitetin e pjesëmarrësve të tregut edhe brenda shiritit më të vogël të çmimit.

    Kjo është analiza më e saktë dhe më e detajuar, pasi tregon shpërndarjen në pikë të vëllimeve të transaksioneve në çdo nivel çmimi aktiv. Ka një konflikt të vazhdueshëm midis interesave të shitësve dhe blerësve në treg. Dhe çdo lëvizje më e vogël e çmimeve (shënoni) është një lëvizje drejt një kompromisi - një nivel çmimi - që aktualisht i përshtatet të dyja palëve.

    Por tregu është dinamik, numri i shitësve dhe blerësve po ndryshon vazhdimisht. Nëse në një moment tregu dominohej nga shitësit, atëherë në momentin tjetër me shumë mundësi do të ketë blerës. Numri i transaksioneve të kryera në nivelet ngjitur të çmimeve gjithashtu nuk është i njëjtë.

    E megjithatë, së pari situata e tregut reflektohet në vëllimet totale të transaksioneve dhe vetëm më pas në çmim. Nëse shihni veprimet e pjesëmarrësve dominues të tregut (shitësit ose blerësit), atëherë mund të parashikoni vetë lëvizjen e çmimeve.

    Për të përdorur me sukses analizën e grupimeve, së pari duhet të kuptoni se çfarë janë një grup dhe delta:

    • Një grup është një lëvizje çmimi që ndahet në nivele në të cilat janë kryer transaksione me vëllime të njohura.
    • Delta tregon ndryshimin midis blerjeve dhe shitjeve që ndodhin në çdo grup.


    Grafiku i grupeve

    Çdo grup, ose grup deltash, ju lejon të kuptoni nëse blerësit ose shitësit dominojnë tregun në një kohë të caktuar. Mjafton vetëm të llogaritet delta totale duke përmbledhur shitjet dhe blerjet. Nëse delta është negative, atëherë tregu është i mbishitur dhe ka transaksione të tepërta shitjeje. Kur delta është pozitive, blerësit dominojnë qartë tregun.

    Vetë delta mund të marrë një vlerë normale ose kritike. Vlera e volumit delta mbi normalen në grup është e theksuar me të kuqe. Nëse delta është e moderuar, atëherë kjo karakterizon një gjendje të sheshtë në treg. Në vlerë normale delta në treg ka një lëvizje trendi, por një vlerë kritike është gjithmonë një pararojë e një ndryshimi të çmimit.

    Tregtimi në Forex duke përdorur CA

    Për të marrë fitim maksimal, duhet të jeni në gjendje të përcaktoni kalimin e deltës nga një nivel i moderuar në një nivel normal. Në të vërtetë, në këtë rast, ju mund të vini re fillimin e kalimit nga lëvizja e sheshtë në trend dhe të jeni në gjendje të merrni fitimin më të madh.

    Një grafik grupor është më vizual në të, ju mund të shihni nivele të konsiderueshme të akumulimit dhe shpërndarjes së vëllimeve, si dhe nivele të mbështetjes dhe rezistencës;

    Kjo i lejon tregtarit të gjejë hyrjen e saktë në tregti. Duke përdorur deltën, mund të gjykoni mbizotërimin e shitjeve ose blerjeve në treg. Analiza e grupeve ju lejon të vëzhgoni transaksionet dhe të gjurmoni vëllimet e tyre brenda një shiriti të çdo TF. Kjo është veçanërisht e rëndësishme kur i afrohemi niveleve të rëndësishme të mbështetjes ose rezistencës. Gjykimet e grupimeve janë çelësi për të kuptuar tregun.

    Burimi: "orderflowtrading.ru"

    Fushat dhe veçoritë e zbatimit të analizës së grupimeve

    Termi analizë grupore (i shpikur për herë të parë nga Tryon, 1939) në fakt përfshin një grup algoritmesh të ndryshme klasifikimi. Pyetje e përgjithshme, e pyetur nga studiues në shumë fusha, është se si të organizohen të dhënat e vëzhguara në struktura vizuale, d.m.th. zgjerojnë taksonomitë.

    Për shembull, biologët vendosën një qëllim për të ndarë kafshët në lloje te ndryshme për të përshkruar në mënyrë kuptimplote dallimet ndërmjet tyre. Sipas sistemit modern të adoptuar në biologji, njerëzit i përkasin primatëve, gjitarëve, amniotëve, vertebrorëve dhe kafshëve.

    Vini re se në këtë klasifikim, sa më i lartë të jetë niveli i grumbullimit, aq më pak ngjashmëri midis anëtarëve në klasën përkatëse. Njerëzit kanë më shumë ngjashmëri me primatët e tjerë (d.m.th. majmunët) sesa me anëtarët "të jashtëm" të familjes së gjitarëve (d.m.th., qentë), etj.

    Vini re se diskutimi i mëparshëm i referohet algoritmeve të grupimit, por nuk përmend asgjë në lidhje me testimin e rëndësisë statistikore. Në fakt, analiza e grupimeve nuk është aq një metodë e zakonshme statistikore, sa një "bashkë" algoritmesh të ndryshme për "shpërndarjen e objekteve në grupime".

    Ekziston një këndvështrim që, ndryshe nga shumë procedura të tjera statistikore, metodat e analizës së grupimeve përdoren në shumicën e rasteve kur nuk keni ndonjë hipotezë apriori për klasat, por jeni ende në fazën përshkruese të studimit. Duhet të kuptohet se analiza e grupimeve përcakton "zgjidhjen më të mundshme të rëndësishme".

    Prandaj, testimi i rëndësisë statistikore nuk është realisht i zbatueshëm këtu, edhe në rastet kur njihen nivelet p (si në metodën K-means).

    Teknikat e grupimit përdoren në një larmi fushash. Hartigan (1975) dha një përmbledhje të shkëlqyer të shumë studimeve të publikuara që përmbajnë rezultate të marra duke përdorur metodat e analizës së grupimeve. Për shembull, në fushën e mjekësisë, grupimi i sëmundjeve, trajtimet për sëmundjet ose simptomat e sëmundjeve çon në taksonomi të përdorura gjerësisht.

    Në fushën e psikiatrisë, diagnoza e saktë e grupeve të simptomave si paranoja, skizofrenia etj është vendimtare për terapi të suksesshme. Në arkeologji, duke përdorur analizën e grupimeve, studiuesit përpiqen të krijojnë taksonomi të veglave prej guri, objekteve funerale etj.

    Ka aplikime të gjera të analizës së grupimeve në hulumtim marketingu. Në përgjithësi, sa herë që është e nevojshme të klasifikohen "malet" e informacionit në grupe të përshtatshme për përpunim të mëtejshëm, analiza e grupimeve rezulton të jetë shumë e dobishme dhe efektive.

    Grumbullimi i pemëve

    Qëllimi i një algoritmi bashkimi (grumbullimi i pemëve) është të kombinojë objektet (për shembull, kafshët) në grupime mjaft të mëdha duke përdorur një masë të ngjashmërisë ose distancës midis objekteve. Rezultati tipik i një grupimi të tillë është një pemë hierarkike.

    Konsideroni një diagram peme horizontale. Diagrami fillon me çdo objekt në klasë (në anën e majtë të diagramit). Tani imagjinoni që gradualisht (me hapa shumë të vegjël) ju "relaksoni" kriterin tuaj se cilat objekte janë unike dhe cilat jo. Me fjalë të tjera, ju ulni pragun që lidhet me vendimin për të kombinuar dy ose më shumë objekte në një grup.


    Si rezultat, ju lidhni gjithnjë e më shumë objekte së bashku dhe grumbulloni (kombinoni) gjithnjë e më shumë grupime që përbëhen nga elementë gjithnjë e më të ndryshëm. Së fundi, në hapin e fundit, të gjitha objektet kombinohen së bashku.

    Në këto diagrame, boshtet horizontale paraqesin distancën e bashkimit (në diagramet vertikale të pemëve, boshtet vertikale përfaqësojnë distancën e bashkimit). Pra, për secilën nyje në grafik (ku formohet një grup i ri), mund të shihni vlerën e distancës për të cilën elementët përkatës janë të lidhur në një grup të ri të vetëm.

    Kur të dhënat kanë një "strukturë" të qartë për sa i përket grupimeve të objekteve që janë të ngjashëm me njëri-tjetrin, atëherë kjo strukturë ka të ngjarë të pasqyrohet në pemën hierarkike nga degë të ndryshme. Si rezultat i analizës së suksesshme duke përdorur metodën e bashkimit, bëhet i mundur zbulimi i grupimeve (degëve) dhe interpretimi i tyre.

    Masat e distancës

    Metoda e bashkimit ose grumbullimit të pemëve përdoret për të formuar grupime të pangjashmërisë ose distancës midis objekteve. Këto distanca mund të përcaktohen në hapësirë ​​njëdimensionale ose shumëdimensionale. Për shembull, nëse do të grumbullonit llojet e ushqimeve në një kafene, mund të merrni parasysh numrin e kalorive që përmban, çmimin, vlerësimin subjektiv të shijes, etj.

    Mënyra më e drejtpërdrejtë për të llogaritur distancat midis objekteve në hapësirën shumëdimensionale është llogaritja e distancave Euklidiane. Nëse keni një hapësirë ​​dy ose tre-dimensionale, atëherë kjo masë është distanca gjeometrike aktuale midis objekteve në hapësirë ​​(sikur distancat midis objekteve të maten me një masë shirit).

    Megjithatë, algoritmi i bashkimit nuk i "kujdes" nëse distancat e "parashikuara" për atë distancë janë ato reale apo ndonjë masë tjetër e prejardhur e distancës, e cila është më domethënëse për studiuesin; dhe detyra e studiuesve është të përzgjedhin metodë e saktë për aplikime specifike.

    1. Distanca euklidiane.
    2. Kjo duket të jetë më lloji i përgjithshëm distancat. Është thjesht një distancë gjeometrike në hapësirën shumëdimensionale dhe llogaritet si më poshtë:

      Vini re se distanca Euklidiane (dhe katrori i saj) llogaritet nga të dhënat origjinale, jo nga të dhënat e standardizuara. Kjo është një mënyrë e zakonshme për ta llogaritur atë, e cila ka disa avantazhe (për shembull, distanca midis dy objekteve nuk ndryshon kur një objekt i ri futet në analizë, i cili mund të jetë i jashtëm).

      Megjithatë, distancat mund të ndikohen shumë nga ndryshimet midis akseve nga të cilat llogariten distancat.

      Për shembull, nëse një nga boshtet matet në centimetra, dhe ju më pas e konvertoni atë në milimetra (duke shumëzuar vlerat me 10), atëherë distanca përfundimtare Euklidiane (ose katrori i distancës Euklidiane) e llogaritur nga koordinatat do të ndryshojë. në masë të madhe, dhe si rezultat, rezultatet e analizës së grupimeve mund të ndryshojnë shumë nga ato të mëparshme.

    3. Distanca Euklidiane në katror.
    4. Ndonjëherë ju mund të dëshironi të katrorizoni distancën standarde Euklidiane për t'i dhënë më shumë peshë objekteve që janë më larg njëri-tjetrit. Kjo distancë llogaritet si më poshtë:

    5. Distanca e bllokut të qytetit (distanca e Manhatanit).
    6. Kjo distancë është thjesht mesatarja e dallimeve mbi koordinatat. Në shumicën e rasteve, kjo matje e distancës prodhon të njëjtat rezultate si distanca e zakonshme Euklidiane.

      Megjithatë, vërejmë se për këtë masë ndikimi i diferencave të mëdha individuale (të jashtmet) zvogëlohet (pasi ato nuk janë në katror). Distanca e Manhatanit llogaritet duke përdorur formulën:

    7. Distanca e Chebyshev.
    8. Kjo distancë mund të jetë e dobishme kur dikush dëshiron të përkufizojë dy objekte si "të ndryshëm" nëse ato ndryshojnë në një koordinatë të vetme (në çdo dimension të vetëm). Distanca Chebyshev llogaritet duke përdorur formulën:

    9. Distanca e fuqisë.

      Ndonjëherë dikush dëshiron të rrisë ose zvogëlojë në mënyrë progresive një peshë të lidhur me një dimension për të cilin objektet përkatëse janë shumë të ndryshme. Kjo mund të arrihet duke përdorur distancën fuqi-ligj. Distanca e fuqisë llogaritet duke përdorur formulën:

      ku r dhe p janë parametra të përcaktuar nga përdoruesi.

      Disa shembuj të llogaritjeve mund të tregojnë se si "funksionon" kjo masë:

      • Parametri p është përgjegjës për peshimin gradualisht të dallimeve përgjatë koordinatave individuale.
      • Parametri r është përgjegjës për peshimin progresiv të distancave të mëdha ndërmjet objekteve.
      • Nëse të dy parametrat r dhe p janë të barabartë me dy, atëherë kjo distancë përkon me distancën Euklidiane.
    10. Përqindja e mosmarrëveshjeve.
    11. Kjo masë përdoret kur të dhënat janë kategorike. Kjo distancë llogaritet me formulën:

    Rregullat e lidhjes ose lidhjes

    Në hapin e parë, kur çdo objekt është një grup i veçantë, distancat midis këtyre objekteve përcaktohen nga masa e zgjedhur. Megjithatë, kur disa objekte janë të lidhura së bashku, lind pyetja, si duhet të përcaktohen distancat midis grupimeve?

    Me fjalë të tjera, nevojitet një rregull bashkimi ose lidhjeje për dy grupimet. Atje jane mundësi të ndryshme: Për shembull, ju mund të lidhni dy grupe së bashku kur çdo dy objekte në dy grupe janë më afër njëri-tjetrit sesa distanca përkatëse e lidhjes.

    Me fjalë të tjera, ju përdorni "rregullin e fqinjit më të afërt" për të përcaktuar distancën midis grupimeve; kjo metodë quhet metoda e lidhjes së vetme. Ky rregull ndërton grupime "fibroze", d.m.th. grupe "të lidhura së bashku" vetëm nga elementë individualë që ndodhin të jenë më afër njëri-tjetrit.

    Përndryshe, ju mund të përdorni fqinjët në grupe që janë më të largëta nga njëri-tjetri nga të gjitha palët e tjera të objekteve. Kjo metodë quhet metoda e lidhjes së plotë. Ekzistojnë gjithashtu shumë metoda të tjera për kombinimin e grupimeve të ngjashme me ato të diskutuara.

    • Lidhje e vetme (metoda e fqinjit më të afërt).
    • Siç u përshkrua më lart, në këtë metodë, distanca midis dy grupimeve përcaktohet nga distanca midis dy objekteve më të afërt (fqinjët më të afërt) në grupime të ndryshme.

      Ky rregull duhet, në një farë kuptimi, t'i bashkojë objektet së bashku për të formuar grupime, dhe grupimet që rezultojnë priren të përfaqësohen nga "zinxhirë të gjatë".

    • Lidhja e plotë (metoda e fqinjëve më të largët).
    • Në këtë metodë, distancat midis grupimeve përcaktohen nga distanca më e madhe midis çdo dy objekti në grupime të ndryshme (d.m.th. "fqinjët më të largët").

      Kjo metodë zakonisht funksionon shumë mirë kur objektet vijnë nga "korije" të ndryshme.

      Nëse grupimet kanë një formë disi të zgjatur ose lloji i tyre natyror është "zinxhir", atëherë kjo metodë është e papërshtatshme.

    • Mesatarja e papeshuar në çift.
    • Në këtë metodë, distanca midis dy grupimeve të ndryshme llogaritet si distanca mesatare midis të gjitha palëve të objekteve në to. Metoda është efektive kur objektet në të vërtetë formojnë "korije" të ndryshme, por funksionon po aq mirë në rastet e grupimeve të zgjeruara (të tipit "zinxhir").

      Vini re se në librin e tyre, Sneath dhe Sokal (1973) prezantojnë shkurtesën UPGMA për t'iu referuar kësaj metode si metodë e grupit të çifteve të papeshuara duke përdorur mesataret aritmetike.

    • Mesatarja e ponderuar në çift.
    • Metoda është identike me metodën mesatare të papeshuar në çift, me përjashtim të faktit se madhësia e grupimeve përkatëse (d.m.th., numri i objekteve që ato përmbajnë) përdoret si faktor peshimi në llogaritjet. Prandaj, metoda e propozuar duhet të përdoret kur priten madhësi të pabarabarta të grupimeve.

      Libri i Sneath dhe Sokal (1973) prezanton shkurtesën WPGMA për t'iu referuar kësaj metode si metodë e grupit të çifteve të ponderuara duke përdorur mesataret aritmetike.

    • Metoda centroide e papeshuar.
    • Në këtë metodë, distanca midis dy grupimeve përcaktohet si distanca midis qendrave të tyre të gravitetit.

      Sneath dhe Sokal (1973) përdorin shkurtesën UPGMC për t'iu referuar kësaj metode si metodë e grupit të çifteve të papeshuara duke përdorur mesataren centroide.

    • Metoda centroide e ponderuar (mediane).
    • Kjo metodë është identike me atë të mëparshme, përveç se llogaritja përdor peshat për të llogaritur ndryshimin midis madhësive të grupimeve (d.m.th., numrit të objekteve në to).

      Prandaj, nëse ka (ose dyshohet) dallime të rëndësishme në madhësitë e grupimeve, kjo metodë preferohet nga ajo e mëparshme.

      Sneath dhe Sokal (1973) përdorën shkurtesën WPGMC për t'iu referuar si metodë e grupit të çifteve të ponderuara duke përdorur mesataren qendrore.

    • Metoda e Ward.
    • Kjo metodë është e ndryshme nga të gjitha metodat e tjera sepse përdor teknikat e analizës së variancës për të vlerësuar distancat midis grupimeve. Metoda minimizon shumën e katrorëve (SS) për çdo dy grupime (hipotetike) që mund të formohen në çdo hap.

      Detajet mund të gjenden në Ward (1963). Në përgjithësi, metoda duket të jetë shumë efektive, por tenton të krijojë grupime të vogla.

    Kombinim me dy hyrje

    Kjo metodë është diskutuar më parë për sa i përket "objekteve" që duhet të grumbullohen. Në të gjitha llojet e tjera të analizave, pyetja me interes për studiuesin zakonisht shprehet në terma të vëzhgimeve ose variablave. Rezulton se grupimi, si nga vëzhgimet ashtu edhe nga variablat, mund të çojë në rezultate mjaft interesante.

    Për shembull, imagjinoni që një studiues mjekësor po mbledh të dhëna për karakteristika (variabla) të ndryshme të gjendjeve (rasteve) të pacientëve që vuajnë nga sëmundjet e zemrës. Një studiues mund të dëshirojë të grumbullojë vëzhgimet (pacientët) për të identifikuar grupe pacientësh me simptoma të ngjashme.

    Në të njëjtën kohë, studiuesi mund të dëshirojë të grumbullojë variabla për të identifikuar grupe variablash që lidhen me kushte të ngjashme fizike. Pas këtij diskutimi në lidhje me grumbullimin e vëzhgimeve apo variablave, dikush mund të pyesë, pse të mos grumbullohen në të dy drejtimet?

    Moduli i Analizës së grupeve përmban një rutinë efikase të bashkimit të dyanshëm që ju lejon të bëni pikërisht këtë. Megjithatë, bashkimi i dyanshëm përdoret (relativisht rrallë) në rrethana ku si vëzhgimet ashtu edhe variablat pritet të kontribuojnë njëkohësisht në zbulimin e grupimeve kuptimplote.

    Kështu, duke u kthyer në shembullin e mëparshëm, mund të supozojmë se një studiues mjekësor duhet të identifikojë grupe pacientësh që janë të ngjashëm në lidhje me grupe të caktuara të karakteristikave të gjendjes fizike.

    Vështirësia në interpretimin e rezultateve të marra lind nga fakti se ngjashmëritë midis grupimeve të ndryshme mund të lindin nga (ose të jenë shkaku i) disa dallimeve në nënbashkësi të variablave. Prandaj, grupimet që rezultojnë janë heterogjene në natyrë.

    Kjo mund të duket pak e turbullt në fillim; në fakt, krahasuar me metodat e tjera të analizës së grupimeve të përshkruara, bashkimi i dyanshëm është ndoshta metoda më pak e përdorur. Megjithatë, disa studiues besojnë se ajo ofron një mjet të fuqishëm të analizës së të dhënave eksploruese (për më shumë informacion, shih përshkrimin e kësaj metode nga Hartigan (1975).

    K do të thotë metodë

    Kjo metodë grumbullimi ndryshon dukshëm nga metoda të tilla grumbulluese si Unioni (grumbullimi i pemëve) dhe bashkimi i dyanshëm. Le të supozojmë se tashmë keni hipoteza për numrin e grupimeve (bazuar në vëzhgime ose variabla).

    Ju mund t'i thoni sistemit të formojë saktësisht tre grupime në mënyrë që ato të jenë sa më të dallueshme të jetë e mundur. Ky është pikërisht lloji i problemit që zgjidh algoritmi K-means. Në përgjithësi, metoda K-means ndërton saktësisht K grupime të ndryshme të vendosura në distancat më të mëdha të mundshme nga njëri-tjetri.

    Në shembullin e gjendjes fizike, një studiues mjekësor mund të ketë një "mendje" nga përvoja e tij klinike se pacientët e tij përgjithësisht bien në tre kategori të ndryshme. Më pas, ai mund të dëshirojë të dijë nëse intuita e tij mund të konfirmohet numerikisht, domethënë, a prodhon analiza e grupit K-means në të vërtetë tre grupe pacientësh siç pritej?

    Nëse është kështu, atëherë mesataret e matjeve të ndryshme të parametrave fizikë për çdo grup do të ofrojnë një mënyrë sasiore të paraqitjes së hipotezave të studiuesit (p.sh., pacientët në grupin 1 kanë një parametër të lartë 1, një parametër të ulët 2, etj.) .

    Nga pikëpamja llogaritëse, ju mund ta mendoni këtë metodë si një analizë të variancës në të kundërt.

    Programi fillon me K grupime të zgjedhura rastësisht dhe më pas ndryshon anëtarësimin e objekteve në to në mënyrë që:

    1. minimizuar ndryshueshmërinë brenda grupimeve,
    2. maksimizoni ndryshueshmërinë ndërmjet grupimeve.

    Kjo metodë është e ngjashme me ANOVA-n e kundërt në atë që testi i rëndësisë në ANOVA krahason ndryshueshmërinë ndërmjet grupit dhe brenda grupit në testimin e hipotezës se mesataret e grupit ndryshojnë nga njëri-tjetri.

    Në grupimin K-means, programi lëviz objektet (d.m.th., vëzhgimet) nga një grup (grup) në tjetrin në mënyrë që të marrë rezultatin më domethënës kur kryen një analizë të variancës (ANOVA). Në mënyrë tipike, pasi të merren rezultatet e një analize të grupimit K-means, mund të llogariten mesataret për çdo grupim përgjatë secilit dimension për të vlerësuar se sa të ndryshëm janë grupimet nga njëri-tjetri.

    Në mënyrë ideale, ju duhet të merrni mjete shumë të ndryshme për shumicën, nëse jo të gjitha, të matjeve të përdorura në analizë. Vlerat e statistikës F të marra për çdo dimension janë një tregues tjetër se sa mirë diskriminon dimensioni përkatës midis grupimeve.

    Burimi: "biometrica.tomsk.ru"

    Klasifikimi i objekteve sipas karakteristikave të tyre

    Analiza e grupeve është një grup metodash statistikore shumëdimensionale për klasifikimin e objekteve sipas karakteristikave që i karakterizojnë, ndarjen e një grupi objektesh në grupe homogjene që janë të ngjashme në përcaktimin e kritereve dhe identifikimin e objekteve të një grupi të caktuar.

    Një grup është një grup objektesh të identifikuara si rezultat i analizës së grupit bazuar në një masë të caktuar të ngjashmërisë ose dallimeve midis objekteve. Objekti - këto janë objekte specifike të kërkimit që duhet të klasifikohen. Objektet e klasifikimit janë, si rregull, vëzhgimet. Për shembull, konsumatorët e produkteve, vendeve ose rajoneve, produkteve, etj.

    Edhe pse është e mundur të kryhet analiza e grupimeve sipas variablave. Klasifikimi i objekteve në analizën e grupimeve shumëdimensionale ndodh sipas disa kritereve njëkohësisht. Pra, qëllimi kryesor i analizës së grupimeve është gjetja e grupeve të objekteve të ngjashme në kampion.

    Kompleti i metodave statistikore multivariate të analizës së grupimeve mund të ndahet në metoda hierarkike (agglomerative dhe ndarëse) dhe johierarkike (metoda k-means, analiza grupore me dy faza).

    Megjithatë, nuk ka një klasifikim të pranuar përgjithësisht të metodave, dhe metodat e analizës së grupimeve ndonjëherë përfshijnë gjithashtu metoda për ndërtimin e pemëve të vendimeve, rrjeteve nervore, analizave diskriminuese dhe regresionit logjistik.

    Shtrirja e përdorimit të analizës së grupimeve, për shkak të shkathtësisë së saj, është shumë e gjerë. Analiza e grupeve përdoret në ekonomi, marketing, arkeologji, mjekësi, psikologji, kimi, biologji, administratë publike, filologji, antropologji, sociologji dhe fusha të tjera.

    Këtu janë disa shembuj të përdorimit të analizës së grupimeve:

    • mjekësia - klasifikimi i sëmundjeve, simptomat e tyre, metodat e trajtimit, klasifikimi i grupeve të pacientëve;
    • marketing - detyrat e optimizimit të linjës së produkteve të kompanisë, segmentimi i tregut sipas grupeve të mallrave ose konsumatorëve, përcaktimi konsumatori potencial;
    • sociologjia – ndarja e të anketuarve në grupe homogjene;
    • psikiatri - diagnoza e saktë e grupeve të simptomave është vendimtare për terapinë e suksesshme;
    • biologjia - klasifikimi i organizmave sipas grupeve;
    • ekonomi - klasifikimi i subjekteve të Federatës Ruse sipas atraktivitetit të investimeve.

    Burimi: "statmethods.ru"

    Kuptimi i analizës së grupeve

    Analiza e grupimeve përfshin një grup algoritmesh të ndryshme klasifikimi. Një pyetje e zakonshme e bërë nga studiues në shumë fusha është se si të organizohen të dhënat e vëzhguara në struktura vizuale.

    Për shembull, biologët synojnë të klasifikojnë kafshët në lloje të ndryshme në mënyrë që të përshkruajnë kuptimisht dallimet midis tyre.

    Detyra e analizës së grupimeve është të ndajë grupin fillestar të objekteve në grupe objektesh të ngjashme që janë afër njëri-tjetrit. Këto grupe quhen grupe.

    Me fjalë të tjera, analiza e grupimeve është një nga mënyrat për të klasifikuar objektet sipas karakteristikave të tyre. Është e dëshirueshme që rezultatet e klasifikimit të kenë një interpretim kuptimplotë.

    Rezultatet e marra nga metodat e analizës së grupimeve përdoren në fusha të ndryshme:

    1. Në marketing, ky është segmentimi i konkurrentëve dhe konsumatorëve.
    2. Në psikiatri diagnoza e saktë e simptomave si paranoja, skizofrenia etj është vendimtare për terapinë e suksesshme.
    3. Në menaxhim, është e rëndësishme të klasifikohen furnizuesit dhe të identifikohen situata të ngjashme prodhimi në të cilat ndodhin defekte.
    4. Në sociologji, ndarja e të anketuarve në grupe homogjene.
    5. Në investimin e portofolit, është e rëndësishme të gruponi letrat me vlerë sipas ngjashmërisë në tendencat e kthimit, në mënyrë që të krijoni, bazuar në informacionin e marrë në lidhje me tregun e aksioneve, një portofol investimi optimal që ju lejon të maksimizoni kthimet e investimeve në një shkallë të caktuar rreziku.

    Në fakt, analiza e grupimeve është dëshmuar mirë në të gjitha sferat e jetës njerëzore. Në përgjithësi, sa herë që është e nevojshme të klasifikohet një sasi e madhe informacioni të këtij lloji dhe të paraqitet në një formë të përshtatshme për përpunim të mëtejshëm, analiza e grupeve rezulton të jetë shumë e dobishme dhe efektive.

    Analiza e grupimeve ju lejon të merrni parasysh një sasi mjaft të madhe informacioni dhe të ngjeshni shumë sipërfaqe të mëdha informacionet socio-ekonomike, i bëjnë ato kompakte dhe vizuale.

    Analiza e grupimeve ka një rëndësi të madhe në lidhje me grupet e serive kohore që karakterizojnë zhvillimin ekonomik (për shembull, kushtet e përgjithshme ekonomike dhe të mallrave).

    Këtu mund të theksoni periudhat kur vlerat e treguesve përkatës ishin mjaft afër, si dhe të përcaktoni grupet e serive kohore, dinamikat e të cilave janë më të ngjashme. Në detyrat e parashikimit socio-ekonomik, kombinimi i analizës së grupimeve me metoda të tjera është shumë premtues. metodat sasiore(për shembull, me analizën e regresionit).

    Avantazhet dhe disavantazhet

    Analiza e grupimeve lejon një klasifikim objektiv të çdo objekti që karakterizohet nga një numër karakteristikash. Ka një sërë përfitimesh që mund të nxirren nga kjo:

    • Grupet që rezultojnë mund të interpretohen, domethënë, ato mund të përshkruajnë se cilat grupe ekzistojnë në të vërtetë.
    • Grupet individuale mund të hidhen poshtë. Kjo është e dobishme në rastet kur janë bërë gabime të caktuara gjatë mbledhjes së të dhënave, si rezultat i të cilave vlerat e treguesve për objekte individuale devijojnë ndjeshëm. Kur aplikoni analizën e grupimeve, objekte të tilla bien në një grup të veçantë.
    • Vetëm ato grupe që kanë karakteristikat e interesit mund të zgjidhen për analizë të mëtejshme.

    Ashtu si çdo metodë tjetër, analiza e grupimeve ka disavantazhe dhe kufizime të caktuara. Veçanërisht:

    1. përbërja dhe numri i grupimeve varet nga kriteret e përzgjedhura të ndarjes,
    2. kur zvogëlohet grupi i të dhënave origjinale në një formë më kompakte, mund të ndodhin disa shtrembërime,
    3. Karakteristikat individuale të objekteve individuale mund të humbasin duke i zëvendësuar ato me karakteristikat e vlerave të përgjithësuara të parametrave të grupimit.

    Metodat

    Aktualisht, njihen më shumë se njëqind algoritme të ndryshme të grupimit. Diversiteti i tyre shpjegohet jo vetëm nga metoda të ndryshme llogaritëse, por edhe nga koncepte të ndryshme që qëndrojnë në themel të grupimit. Është e mundur të jepen rekomandime për zgjedhjen e një ose një metode tjetër të grupimit vetëm në skicë e përgjithshme, dhe kriteri kryesor i përzgjedhjes është dobia praktike e rezultatit.

    Paketa Statistica zbaton metodat e mëposhtme të grupimit:

    • Algoritmet hierarkike - grupimi i pemëve. Algoritmet hierarkike bazohen në idenë e grupimit sekuencial. Në hapin fillestar, çdo objekt konsiderohet si një grup i veçantë. Në hapin tjetër, disa nga grupimet më afër njëri-tjetrit do të kombinohen në një grup të veçantë.
    • Metoda K-means. Kjo metodë përdoret më shpesh. I përket grupit të të ashtuquajturave metoda referente të analizës së grupimeve. Numri i grupimeve K përcaktohet nga përdoruesi.
    • Kombinim me dy hyrje. Kur përdoret kjo metodë, grupimi kryhet njëkohësisht si nga variabla (kolona) ashtu edhe nga vëzhgime (rreshta).

    Procedura e bashkimit të dyanshëm përdoret në rastet kur grumbullimi i njëkohshëm midis variablave dhe vëzhgimeve mund të pritet të prodhojë rezultate domethënëse.

    Rezultatet e procedurës janë statistika përshkruese për variablat dhe vëzhgimet, si dhe një tabelë ngjyrash dydimensionale në të cilën vlerat e të dhënave janë të koduara me ngjyra. Bazuar në shpërndarjen e ngjyrave, mund të merrni një ide të grupeve homogjene.

    Normalizimi i variablave

    Ndarja e grupit fillestar të objekteve në grupe përfshin llogaritjen e distancave midis objekteve dhe zgjedhjen e objekteve, distanca e të cilëve është më e vogla nga të gjitha të mundshmet. Më e përdorura është distanca Euklidiane (gjeometrike) që është e njohur për të gjithë ne. Kjo metrikë korrespondon me idetë intuitive për afërsinë e objekteve në hapësirë ​​(sikur distancat midis objekteve të maten me një matës shiriti).

    Por për një metrikë të caktuar, distanca midis objekteve mund të ndikohet shumë nga ndryshimet në shkallë (njësi matëse). Për shembull, nëse një nga tiparet matet në milimetra dhe më pas vlera e tij shndërrohet në centimetra, distanca Euklidiane midis objekteve do të ndryshojë shumë. Kjo do të çojë në faktin se rezultatet e analizës së grupimeve mund të ndryshojnë ndjeshëm nga ato të mëparshme.

    Nëse variablat maten në njësi të ndryshme matëse, atëherë kërkohet normalizimi paraprak i tyre, pra një transformim i të dhënave origjinale që i shndërron ato në sasi pa dimension.

    Normalizimi shtrembëron shumë gjeometrinë e hapësirës origjinale, gjë që mund të ndryshojë rezultatet e grumbullimit. Në paketën Statistica, normalizimi i çdo ndryshoreje x kryhet duke përdorur formulën:

    Për ta bërë këtë, klikoni me të djathtën mbi emrin e ndryshores dhe zgjidhni sekuencën e komandave në menynë që hapet: Plotësoni/ Standardizo bllokun/ Standardizo kolonat. Vlerat e ndryshores së normalizuar do të bëhen të barabarta me zero, dhe varianca do të bëhet e barabartë me një.

    Metoda K-means në programin Statistica

    Metoda K-means ndan një grup objektesh në një numër të caktuar K të grupimeve të ndryshme të vendosura në distancat më të mëdha të mundshme nga njëri-tjetri. Në mënyrë tipike, pasi të merren rezultatet e një analize të grupimit K-means, mund të llogariten mesataret për çdo grupim përgjatë secilit dimension për të vlerësuar se sa të ndryshëm janë grupimet nga njëri-tjetri.

    Në mënyrë ideale, ju duhet të merrni mjete shumë të ndryshme për shumicën e matjeve të përdorura në analizë. Vlerat e statistikës F të marra për çdo dimension janë një tregues tjetër se sa mirë diskriminon dimensioni përkatës midis grupimeve.

    Si shembull, merrni parasysh rezultatet e një sondazhi të 17 punonjësve të një ndërmarrje për kënaqësinë me treguesit e cilësisë së karrierës së tyre. Tabela jep përgjigjet për pyetjet e anketës në një shkallë prej dhjetë pikësh (1 është rezultati minimal, 10 është maksimumi).

    Emrat e variablave korrespondojnë me përgjigjet e pyetjeve të mëposhtme:

    1. SLC - një kombinim i qëllimeve personale dhe qëllimeve organizative;
    2. OSO – ndjenja e drejtësisë në shpërblim;
    3. TBD - afërsia territoriale me shtëpinë;
    4. OEB – ndjenja e mirëqenies ekonomike;
    5. KR – rritja e karrierës;
    6. ZhSR - dëshira për të ndryshuar vendin e punës;
    7. RSD - ndjenja e mirëqenies sociale.


    Duke përdorur këto të dhëna, është e nevojshme të ndahen punonjësit në grupe dhe të identifikohen levat më efektive të menaxhimit për secilin prej tyre. Në të njëjtën kohë, dallimet ndërmjet grupeve duhet të jenë të dukshme, dhe brenda grupit të anketuarit duhet të jenë sa më të ngjashëm.

    Sot, shumica e anketave sociologjike ofrojnë vetëm përqindje vota: merret parasysh numri kryesor i atyre që janë përgjigjur pozitivisht ose përqindja e të pakënaqurve, por kjo çështje nuk merret parasysh sistematikisht. Më shpesh, anketa nuk tregon një tendencë të situatës.

    Procedurat e analizës së grupimeve mund të përdoren për të identifikuar, bazuar në të dhënat e anketimit, disa marrëdhënie reale ekzistuese të karakteristikave dhe për të gjeneruar tipologjinë e tyre mbi këtë bazë. Prania e ndonjë hipoteze apriori të një sociologu gjatë funksionimit të procedurave të analizës së grupimeve nuk është një kusht i domosdoshëm.

    Në Statistica, analiza e grupimeve kryhet si më poshtë.

    1. Krijo një skedar të dhënash.
    2. Zgjidh modulin Statistikat/ Teknikat Hulumtuese Shumëvariablash/ Analiza Cluster. Klikoni OK, e cila do të rezultojë në shfaqjen e një kuti dialogu:

    3. Në dritaren që shfaqet, zgjidhni metodën e grupimit K-means dhe klikoni OK.
    4. Në kutinë e dialogut që shfaqet, duhet të vendosni cilësimet e mëposhtme:


      • Zgjidhni variablat duke përdorur butonin Variablat.
      • Zgjidhni objektet e grupimit: këto mund të jenë variabla - kolona (Variables сcolumns)), ose vëzhgime - rreshta (Raste (Rreshta)). Së pari, le të grupohemi sipas rreshtave (Rastet(rreshtat)).
      • Zgjidhni numrin e grupimeve.
        Kjo zgjedhje bëhet nga përdoruesi bazuar në supozimet e tij për numrin e grupeve të objekteve të ngjashme.

        Kur zgjidhni numrin e grupimeve, drejtohuni nga sa vijon:

        1. Numri i grupimeve, nëse është e mundur, nuk duhet të jetë shumë i madh.
        2. Distanca në të cilën janë kombinuar objektet e një grupi të caktuar, nëse është e mundur, duhet të jetë shumë më e vogël se distanca në të cilën diçka tjetër bashkohet me këtë grup.
        Kur zgjidhni numrin e grupimeve, më shpesh ekzistojnë disa zgjidhje të sakta në të njëjtën kohë. Ne jemi të interesuar, për shembull, se si përgjigjet në pyetjet e anketës krahasohen midis punonjësve të zakonshëm dhe menaxhmentit të ndërmarrjes. Prandaj zgjedhim K=2. Për segmentim të mëtejshëm, mund të rrisni numrin e grupimeve.
      • Tjetra, ju duhet të zgjidhni ndarjen fillestare të objekteve në grupe (Qendrat fillestare të grupimeve). Paketa Statistica ofron:
        1. zgjidhni vëzhgimet me distancën maksimale midis qendrave të grupimeve;
        2. renditni distancat dhe zgjidhni vëzhgimet në intervale të rregullta (cilësimi i parazgjedhur);
        3. merrni vëzhgimet e para si qendra dhe bashkëngjitni objektet e mbetura me to.

        Opsioni i parë është i përshtatshëm për qëllimet tona.

    Shumë algoritme grupimi shpesh "imponojnë" një strukturë të panatyrshme mbi të dhënat dhe çorientojnë studiuesin. Prandaj, është jashtëzakonisht e nevojshme të aplikohen disa algoritme të analizës së grupimeve dhe të nxirren përfundime bazuar në një vlerësim të përgjithshëm të rezultateve të algoritmeve.

    Rezultatet e analizës mund të shihen në kutinë e dialogut që shfaqet:

    Nëse zgjidhni skedën Grafiku i mjeteve, do të ndërtohet një grafik i koordinatave të qendrave të grupimeve:


    Çdo vijë e thyer në këtë grafik korrespondon me një nga grupimet:

    • Çdo ndarje në boshtin horizontal të grafikut korrespondon me një nga variablat e përfshirë në analizë.
    • Boshti vertikal korrespondon me vlerat mesatare të variablave për objektet e përfshira në secilin prej grupeve.

    Mund të vërehet se ka dallime domethënëse në qëndrimin e dy grupeve të njerëzve ndaj karrierës së tyre për pothuajse të gjitha çështjet. Ekziston një unanim i plotë vetëm për një çështje – ndjenjën e mirëqenies sociale (SSW), ose më mirë, mungesën e saj (2,5 pikë nga 10).

    Mund të supozohet se:

    1. Grupi 1 shfaq punëtorët,
    2. grupi 2 – lidershipi:
      • Menaxherët janë më të kënaqur me rritjen e karrierës (CG), kombinimin e qëllimeve personale dhe qëllimeve organizative (CLO).
      • Ata kanë nivele më të larta të mirëqenies ekonomike të perceptuar (SEW) dhe barazisë së perceptuar të pagave (SPE).
      • Ata janë më pak të shqetësuar për afërsinë territoriale me shtëpinë (TPH) sesa punëtorët, ndoshta për shkak të më pak problemeve me transportin.
      • Gjithashtu, menaxherët kanë më pak dëshirë për të ndryshuar punë (JSR).

    Përkundër faktit se punëtorët ndahen në dy kategori, ata u përgjigjen shumicës së pyetjeve në mënyrë relativisht të barabartë. Me fjalë të tjera, nëse diçka nuk i përshtatet grupit të përgjithshëm të punonjësve, e njëjta nuk i përshtatet menaxhmentit të lartë dhe anasjelltas.

    Koordinimi i orareve na lejon të nxjerrim përfundime se mirëqenia e një grupi reflektohet në mirëqenien e një tjetri.

    Grupi 1 nuk është i kënaqur me afërsinë territoriale me shtëpinë. Ky grup është pjesa më e madhe e punëtorëve që vijnë kryesisht në ndërmarrje me anët e ndryshme qytetet. Prandaj, është e mundur t'i propozohet menaxhmentit kryesor që të ndajë një pjesë të fitimit për ndërtimin e banesave për punonjësit e kompanisë.

    Ka dallime domethënëse në qëndrimin e dy grupeve të njerëzve ndaj karrierës së tyre:

    1. Ata punonjës që janë të kënaqur me rritjen e tyre në karrierë, të cilët kanë një nivel të lartë të pajtimit midis qëllimeve të tyre personale dhe qëllimeve të organizatës, nuk kanë dëshirë të ndryshojnë vendin e punës dhe të ndihen të kënaqur me rezultatet e punës së tyre.
    2. Në të kundërt, punonjësit që duan të ndryshojnë vendin e punës dhe janë të pakënaqur me rezultatet e punës së tyre nuk janë të kënaqur me treguesit e deklaruar.

    Menaxhmenti i lartë duhet të kontaktojë Vëmendje e veçantë ndaj gjendjes aktuale.

    Rezultatet e analizës së variancës për secilën karakteristikë shfaqen duke klikuar butonin Analiza e variancës:

    Rezultatet:

    • shuma e devijimeve në katror të objekteve nga qendrat e grupimeve (SS Brenda),
    • shuma e devijimeve në katror midis qendrave të grupimeve (SS Between),
    • Vlerat e statistikës F,
    • nivelet e rëndësisë p.
    Për shembullin tonë, nivelet e rëndësisë për dy variabla janë mjaft të mëdha, gjë që shpjegohet nga numri i vogël i vëzhgimeve. Në versionin e plotë të studimit, i cili gjendet në punim, hipoteza për barazinë e mjeteve për qendrat e grupimeve hidhet poshtë në nivele të rëndësisë më të vogël se 0.01.

    Butoni Ruaj klasifikimet dhe distancat shfaq numrin e objekteve të përfshira në çdo grup dhe distancat e objekteve në qendër të çdo grupi.

    Përbërja e çdo grupi dhe distanca e objekteve nga qendra

    Tabela tregon numrat e vëzhgimit (RASTI_NO), grupimet përbërëse me numra CLUSTER dhe distancën nga qendra e çdo grupi (DISTANCE).

    Informacioni rreth objekteve që i përkasin grupeve mund të shkruhet në një skedar dhe të përdoret në analiza të mëtejshme. Në këtë shembull, një krahasim i rezultateve të marra me pyetësorët tregoi se grupi 1 përbëhet kryesisht nga punëtorë të zakonshëm, dhe grupi 2 nga menaxherët.

    Kështu, mund të vërehet se gjatë përpunimit të rezultateve të sondazhit, analiza e grupimeve doli të ishte një metodë e fuqishme që na lejon të nxjerrim përfundime që nuk mund të arrihen duke ndërtuar një histogram të mesatareve ose duke llogaritur përqindjen e njerëzve të kënaqur me tregues të ndryshëm. të cilësisë së jetës së punës.

    Grumbullimi i pemëve është një shembull i një algoritmi hierarkik, parimi i të cilit është të kombinohen në mënyrë sekuenciale në një grup, së pari elementët më të afërt dhe më pas gjithnjë e më të largët nga njëri-tjetri. Shumica e këtyre algoritmeve fillojnë nga një matricë ngjashmërie (distancash) dhe çdo element individual fillimisht konsiderohet si një grup i veçantë.

    Pasi të keni ngarkuar modulin e analizës së grupimeve dhe duke zgjedhur Joining (grumbullimi i pemëve), në dritaren për futjen e parametrave të grupimit mund të ndryshoni parametrat e mëposhtëm:

    1. Të dhënat fillestare (Input). Ato mund të jenë në formën e një matrice të të dhënave në studim (Raw data) dhe në formën e një matrice të distancës (Matrica e distancës).
    2. Grumbullimi i vëzhgimeve (Rastet (të papërpunuara)) ose variablat (Variabla (kolona)) që përshkruajnë gjendjen e një objekti.
    3. Masa e distancës. Këtu mund të zgjidhni nga masat e mëposhtme:
      • Distancat euklidiane,
      • Distancat Euklidiane në katror,
      • distanca e blloqeve të qytetit (distanca e Manhatanit, distanca e bllokut të qytetit (Manhattan)), metrika e distancës së Chebychev,
      • distanca e fuqisë (Fuqia...;),
      • Përqindje mosmarrëveshje.
    4. Metoda e grupimit (rregulli i shkrirjes (lidhjes)).
      Opsionet e mëposhtme janë të mundshme këtu:
      • lidhje e vetme (metoda e fqinjit më të afërt) (Lidhja e vetme),
      • lidhje e plotë (metoda e fqinjëve më të largët),
      • mesatare e paponderuar e grupit të çifteve,
      • Mesatarja e ponderuar e grupit të çifteve,
      • metoda centroide e papeshuar (Centroid i papeshuar i grupit të çifteve),
      • metoda centroide (mediane) e grupit të ponderuar të çiftit,
      • Metoda e Ward.

    Si rezultat i grumbullimit, ndërtohet një dendrogram horizontal ose vertikal - një grafik në të cilin distancat midis objekteve dhe grupimeve përcaktohen kur ato kombinohen në mënyrë sekuenciale.

    Struktura e pemës së grafikut ju lejon të përcaktoni grupimet në varësi të pragut të zgjedhur - një distancë e caktuar midis grupimeve.

    Përveç kësaj, shfaqet një matricë e distancave midis objekteve origjinale (Matrica e distancës); devijimet mesatare dhe standarde për çdo objekt burimor (Statistika distiptive). Për shembullin e konsideruar, ne do të kryejmë një analizë grupi të variablave me cilësimet e paracaktuara. Dendrogrami që rezulton është paraqitur në figurë:


    Boshti vertikal i dendrogramit tregon distancat midis objekteve dhe midis objekteve dhe grupimeve. Kështu, distanca midis variablave OEB dhe OSD është pesë. Në hapin e parë, këto variabla kombinohen në një grup.

    Segmentet horizontale të dendrogramit vizatohen në nivele që korrespondojnë me vlerat e distancës së pragut të zgjedhur për një hap të caktuar grumbullimi.

    Grafiku tregon se pyetja “dëshira për të ndryshuar punë” (WSW) formon një grup të veçantë. Në përgjithësi, dëshira për të shkuar kudo i viziton të gjithë në mënyrë të barabartë. Më pas, një grup i veçantë është çështja e afërsisë territoriale me shtëpinë (TDP).

    Për nga rëndësia është në vendin e dytë, gjë që konfirmon konkluzionin për nevojën për ndërtimin e banesave të bërë në bazë të rezultateve të studimit duke përdorur metodën K-means.

    Perceptimi i mirëqenies ekonomike (SEW) dhe barazia e pagave (WFE) janë të kombinuara - ky është një bllok i çështjeve ekonomike. Zhvillimi i karrierës (CR) dhe kombinimi i qëllimeve personale dhe organizative (LOG) janë gjithashtu të kombinuara.

    Metodat e tjera të grupimit, si dhe zgjedhja e llojeve të tjera të distancave, nuk çojnë në një ndryshim të rëndësishëm në dendrogram.

    rezultatet

    1. Analiza e grupeve është një mjet i fuqishëm për analizën e të dhënave eksploruese dhe hulumtim statistikor në çdo fushë lëndore.
    2. Programi Statistica zbaton metoda hierarkike dhe strukturore të analizës së grupimeve. Përparësitë e kësaj pakete statistikore rrjedhin nga aftësitë e tyre grafike. Janë dhënë paraqitjet grafike dydimensionale dhe tredimensionale të grupimeve rezultuese në hapësirën e variablave të studiuar, si dhe rezultatet e procedurës hierarkike për grupimin e objekteve.
    3. Është e nevojshme të aplikohen disa algoritme të analizës së grupimeve dhe të nxirren përfundime bazuar në një vlerësim të përgjithshëm të rezultateve të algoritmeve.
    4. Analiza e grupimit mund të konsiderohet e suksesshme nëse është e përfunduar menyra te ndryshme, rezultatet u krahasuan dhe u gjetën modele të përgjithshme dhe u gjetën grupime të qëndrueshme pavarësisht nga metoda e grupimit.
    5. Analiza e grupimeve ju lejon të identifikoni situatat problemore dhe të përshkruani mënyrat për t'i zgjidhur ato. Rrjedhimisht, kjo metodë e statistikave joparametrike mund të konsiderohet si pjesë përbërëse e analizës së sistemit.