Klasteru analīze: tās metode un apjoms. Pārskats par datu klasterizācijas algoritmiem

Sveiciens!

Savā darbā es recenzēju un salīdzinošā analīze datu klasterizācijas algoritmi. Iedomājos, ka jau savāktais un izstrādātais materiāls kādam varētu būt interesants un noderīgs.
Sashaeve runāja par to, kas ir klasterizācija rakstā "Klasterēšana: k-means and c-means algoritmi". Es daļēji atkārtošu Aleksandra vārdus, daļēji papildināšu. Arī šī raksta beigās interesenti var izlasīt materiālus bibliogrāfijā esošajās saitēs.

Mēģināju arī sauso "diplomu" pasniegšanas stilu pietuvināt žurnālistiskākam.

Klasterizācijas jēdziens

Klasterizācija (vai klasteru analīze) ir uzdevums sadalīt objektu kopu grupās, ko sauc par klasteriem. Katrā grupā jābūt "līdzīgiem" objektiem, un dažādu grupu objektiem jābūt pēc iespējas atšķirīgiem. Galvenā atšķirība starp klasterizāciju un klasifikāciju ir tāda, ka grupu saraksts nav skaidri definēts un tiek noteikts algoritma gaitā.

Klasteru analīzes izmantošana vispārīgi tiek samazināta līdz šādiem soļiem:

  1. Objektu parauga atlase klasterēšanai.
  2. Mainīgo lielumu kopas definīcija, pēc kuras tiks novērtēti paraugā iekļautie objekti. Ja nepieciešams, normalizējiet mainīgo vērtības.
  3. Līdzības mērījumu vērtību aprēķināšana starp objektiem.
  4. Klasteru analīzes metodes pielietojums līdzīgu objektu (klasteru) grupu veidošanai.
  5. Analīzes rezultātu prezentācija.
Pēc rezultātu saņemšanas un analīzes ir iespējams pielāgot izvēlēto metriku un klasterizācijas metodi, līdz tiek iegūts optimāls rezultāts.

Attāluma mēri

Tātad, kā noteikt objektu "līdzību"? Vispirms katram objektam ir jāizveido raksturlielumu vektors - parasti tas ir skaitlisko vērtību kopums, piemēram, cilvēka augums-svars. Tomēr ir arī algoritmi, kas darbojas ar kvalitatīviem (tā sauktajiem kategoriskiem) raksturlielumiem.

Kad esam noteikuši pazīmju vektoru, varam to normalizēt, lai visi komponenti dotu vienādu ieguldījumu, aprēķinot "attālumu". Normalizācijas procesā visas vērtības tiek samazinātas līdz noteiktam diapazonam, piemēram, [-1, -1] vai .

Visbeidzot, katram objektu pārim tiek mērīts "attālums" starp tiem - līdzības pakāpe. Ir daudz rādītāju, šeit ir tikai galvenie:

Metrikas izvēle ir pilnībā pētnieka ziņā, jo, izmantojot dažādus mērus, klasterizācijas rezultāti var ievērojami atšķirties.

Algoritmu klasifikācija

Es esmu identificējis divas galvenās klasterizācijas algoritmu klasifikācijas.
  1. Hierarhisks un plakans.
    Hierarhiskie algoritmi (saukti arī par taksonomijas algoritmiem) neveido vienu parauga nodalījumu nesadalītos klasteros, bet gan ligzdotu nodalījumu sistēmu. Tas. izejā mēs iegūstam klasteru koku, kura sakne ir viss paraugs, un lapas ir mazākās kopas.
    Plakanie algoritmi veido vienu objektu nodalījumu klasteros.
  2. Skaidrs un izplūdis.
    Skaidri (vai nepārklājoši) algoritmi katram parauga objektam piešķir klastera numuru, t.i. katrs objekts pieder tikai vienam klasterim. Izplūdušie (vai krustojošie) algoritmi katram objektam piešķir reālu vērtību kopu, kas parāda objekta saistību ar klasteriem pakāpi. Tie. katrs objekts ar zināmu varbūtību pieder katram klasterim.

Klasteru apvienošana

Hierarhisku algoritmu izmantošanas gadījumā rodas jautājums, kā apvienot klasterus savā starpā, kā aprēķināt “attālumus” starp tiem. Ir vairāki rādītāji:
  1. Viena saite (tuvākie kaimiņu attālumi)
    Šajā metodē attālumu starp diviem klasteriem nosaka attālums starp diviem tuvākajiem objektiem (tuvākajiem kaimiņiem) dažādos klasteros. Iegūtās kopas mēdz apvienoties kopā.
  2. Pilna saite (tālāko kaimiņu attālums)
    Šajā metodē attālumus starp klasteriem nosaka lielākais attālums starp jebkuriem diviem objektiem dažādās kopās (t.i., visattālākajiem kaimiņiem). Šī metode parasti darbojas ļoti labi, ja objekti nāk no atsevišķas grupas. Ja kopas ir iegarenas vai to dabiskais veids ir "ķēde", tad šī metode nav piemērota.
  3. Nesvērtais pāru vidējais rādītājs
    Šajā metodē attālums starp diviem dažādiem klasteriem tiek aprēķināts kā vidējais attālums starp visiem tajos esošo objektu pāriem. Metode ir efektīva, ja objekti veido dažādas grupas, taču tā darbojas vienlīdz labi paplašinātu ("ķēdes" tipa) klasteru gadījumos.
  4. Svērtais pāru vidējais rādītājs
    Metode ir identiska nesvērtajai pāru vidējās metodes metodei, izņemot to, ka aprēķinos kā svēršanas koeficients tiek izmantots attiecīgo klasteru lielums (ti, tajos esošo objektu skaits). Tāpēc šī metode ir jāizmanto, ja sagaidāmi nevienlīdzīgi klasteru izmēri.
  5. Nesvērtā centroīda metode
    Šajā metodē attālums starp diviem klasteriem tiek definēts kā attālums starp to smaguma centriem.
  6. Svērtā centroīda metode (vidējā)
    Šī metode ir identiska iepriekšējai, izņemot to, ka aprēķinos tiek izmantoti svari, lai ņemtu vērā atšķirības starp klasteru izmēriem. Tāpēc, ja pastāv vai ir aizdomas par būtiskām klasteru lielumu atšķirībām, šī metode ir labāka par iepriekšējo.

Algoritmu pārskats

Hierarhiskās klasterizācijas algoritmi
Ir divi galvenie hierarhiskās klasterizācijas algoritmu veidi: augošais un dilstošais algoritms. No augšas uz leju algoritmi darbojas no augšas uz leju: sākumā visi objekti tiek ievietoti vienā klasterī, kas pēc tam tiek sadalīts mazākos un mazākos klasteros. Biežāk sastopami augšupvērstie algoritmi, kas sākotnēji katru līdzekli ievieto atsevišķā klasterī un pēc tam apvieno kopas lielākās un lielākās kopās, līdz visas atlasītās funkcijas ir iekļautas vienā klasterī. Tādējādi tiek izveidota ligzdotu nodalījumu sistēma. Šādu algoritmu rezultāti parasti tiek parādīti koka formā - dendrogramma. Klasisks šāda koka piemērs ir dzīvnieku un augu klasifikācija.

Lai aprēķinātu attālumus starp klasteriem, visi visbiežāk izmanto divus attālumus: vienu savienojumu vai pilnu savienojumu (skatiet attāluma mērījumu pārskatu starp klasteriem).

Hierarhisko algoritmu trūkums ir pilnīgu nodalījumu sistēma, kas var būt lieka risināmās problēmas kontekstā.

Kvadrātiskās kļūdas algoritmi
Klasterizācijas problēmu var uzskatīt par optimālas objektu sadalīšanas grupās konstruēšanu. Šajā gadījumā optimālumu var definēt kā prasību samazināt vidējās kvadrātiskās sadalīšanas kļūdu:

Kur cj- kopas "masas centrs". j(punkts ar vidējām raksturlielumu vērtībām konkrētam klasterim).

Kvadrātiskās kļūdas algoritmi ir plakano algoritmu tipa. Visizplatītākais algoritms šajā kategorijā ir k-means metode. Šis algoritms izveido noteiktu skaitu klasteru, kas atrodas pēc iespējas tālāk viena no otras. Algoritma darbs ir sadalīts vairākos posmos:

  1. Izvēlies nejauši k punkti, kas ir kopu sākotnējie "masas centri".
  2. Piešķiriet katru objektu klasterim ar tuvāko "masas centru".
  3. Pārrēķiniet kopu "masas centrus" atbilstoši to pašreizējam sastāvam.
  4. Ja algoritma apturēšanas kritērijs nav izpildīts, atgriezieties pie 2. darbības.
Kā kritērijs algoritma darbības apturēšanai parasti tiek izvēlētas minimālās vidējās kvadrātiskās kļūdas izmaiņas. Algoritmu var apturēt arī tad, ja 2. solī nebija objektu, kas pārvietoti no kopas uz klasteri.

Šī algoritma trūkumi ietver nepieciešamību norādīt sadalīšanai paredzēto klasteru skaitu.

Izplūdušie algoritmi
Vispopulārākais izplūdušās klasterizācijas algoritms ir c-means algoritms. Tā ir k-means metodes modifikācija. Algoritma soļi:

Šis algoritms var nebūt piemērots, ja klasteru skaits nav iepriekš zināms vai arī ir nepieciešams unikāli attiecināt katru objektu uz vienu klasteru.
Algoritmi, kuru pamatā ir grafu teorija
Šādu algoritmu būtība ir tāda, ka objektu atlase tiek attēlota kā grafiks G=(V, E), kuras virsotnes atbilst objektiem un kuru malām ir svars, kas vienāds ar "attālumu" starp objektiem. Grafu klasterizācijas algoritmu priekšrocība ir redzamība, relatīvā ieviešanas vienkāršība un iespēja veikt dažādus uzlabojumus, pamatojoties uz ģeometriskiem apsvērumiem. Galvenie algoritmi ir savienoto komponentu iegūšanas algoritms, minimālā aptverošā koka konstruēšanas algoritms un slāņu klasterizācijas algoritms.
Savienoto komponentu izvilkšanas algoritms
Savienoto komponentu izvilkšanas algoritmā ir iestatīts ievades parametrs R un grafikā visas malas, kurām "attālumi" ir lielāki par R. Savienoti paliek tikai tuvākie objektu pāri. Algoritma mērķis ir atrast šādu vērtību R, kas atrodas visu "attālumu" diapazonā, kurā grafiks "sabrūk" vairākos savienotos komponentos. Iegūtie komponenti ir kopas.

Lai izvēlētos parametru R parasti tiek konstruēta pāru attālumu sadalījumu histogramma. Uzdevumos ar precīzi definētu klasteru datu struktūru histogrammai būs divi maksimumi - viens atbilst intraklasteru attālumiem, otrs atbilst starpklasteru attālumiem. Parametrs R ir izvēlēts no minimuma zonas starp šīm virsotnēm. Tajā pašā laikā ir diezgan grūti kontrolēt klasteru skaitu, izmantojot attāluma slieksni.

Minimālais aptverošā koka algoritms
Minimālā aptverošā koka algoritms vispirms grafikā izveido minimālo aptverošo koku un pēc tam secīgi noņem malas ar lielāko svaru. Attēlā parādīts minimālais aptverošais koks, kas iegūts deviņiem elementiem.

Noņemot saiti, kas apzīmēta ar CD ar 6 vienību garumu (mala ar maksimālo attālumu), mēs iegūstam divas kopas: (A, B, C) un (D, E, F, G, H, I). Otro kopu var sadalīt vēl divās kopās, noņemot malu EF, kuras garums ir 4,5 vienības.

Slāņu klasterizācija
Slāņa slāņa klasterizācijas algoritms ir balstīts uz savienotu grafu komponentu atlasi noteiktā attālumā starp objektiem (virsotnēm). Attāluma līmeni nosaka attāluma slieksnis c. Piemēram, ja attālums starp objektiem , Tas.

Slāņu klasterizācijas algoritms ģenerē grafiku apakšgrafu secību G, kas atspoguļo hierarhiskās attiecības starp klasteriem:

,

Kur G t = (V, E t)- līmeņa grafiks ar t,
,
ar t– t-tais attāluma slieksnis,
m ir hierarhijas līmeņu skaits,
G 0 = (V, o), o ir tukša grafa malu kopa, kas iegūta ar t0 = 1,
G m = G, tas ir, objektu grafiks bez attāluma (grafikas malu garuma) ierobežojumiem, jo tm = 1.

Mainot attāluma sliekšņus ( ar 0 , …, ar m), kur 0 = no 0 < no 1 < …< ar m= 1, ir iespējams kontrolēt iegūto klasteru hierarhijas dziļumu. Tādējādi slāņa slāņa klasterizācijas algoritms spēj izveidot gan plakanu datu nodalījumu, gan hierarhisku.

Algoritmu salīdzinājums

Algoritmu skaitļošanas sarežģītība

Algoritmu salīdzinošā tabula
Klasterizācijas algoritms Klasteru forma Ievadiet datus rezultātus
Hierarhisks Bezmaksas Klasteru skaits vai attāluma slieksnis hierarhijas saīsināšanai Kopu binārais koks
k-nozīmē hipersfēra Klasteru skaits Klasteru centri
c-nozīmē hipersfēra Klasteru skaits, izplūduma pakāpe Klasteru centri, dalības matrica
Savienoto komponentu izvēle Bezmaksas Attāluma slieksnis R
Minimālais aptverošais koks Bezmaksas Kopu skaits vai attāluma slieksnis, lai noņemtu malas Kopu koku struktūra
Slāņu klasterizācija Bezmaksas Attāluma sliekšņu secība Klasteru koku struktūra ar dažādiem hierarhijas līmeņiem

Nedaudz par aplikāciju

Manā darbā man vajadzēja izvēlēties atsevišķus apgabalus no hierarhiskām struktūrām (kokiem). Tie. būtībā bija nepieciešams sagriezt sākotnējo koku vairākos mazākos kokos. Tā kā virzītais koks ir īpašs grafa gadījums, tad dabiski fit algoritmi, kuru pamatā ir grafu teorija.

Atšķirībā no pilnībā savienota grafa, ne visas virsotnes virzītā kokā ir savienotas ar malām, un kopējais malu skaits ir n–1, kur n ir virsotņu skaits. Tie. attiecībā uz koka mezgliem tiks vienkāršots savienoto komponentu izvilkšanas algoritma darbs, jo jebkura skaita šķautņu noņemšana koku “sadalīs” savienotos komponentos (atsevišķos kokos). Minimālais aptverošā koka algoritms šajā gadījumā sakritīs ar savienoto komponentu izvilkšanas algoritmu – noņemot garākās malas, sākotnējais koks tiek sadalīts vairākos kokos. Šajā gadījumā ir acīmredzams, ka tiek izlaists minimālākā aptverošā koka veidošanas posms.

Citu algoritmu izmantošanas gadījumā tiem būtu atsevišķi jāņem vērā attiecību esamība starp objektiem, kas sarežģī algoritmu.

Atsevišķi es gribu to teikt, lai sasniegtu labākais rezultāts ir nepieciešams eksperimentēt ar attāluma mēru izvēli un dažreiz pat mainīt algoritmu. Viena risinājuma nav.

Līdz šim ir izstrādāti vairāk nekā simts dažādu klasterizācijas algoritmu. Dažādu klasterizācijas metožu pielietošanas rezultātā var iegūt dažādus rezultātus: dažādu formu kopas, atšķirīgs daudzums vai klasteru sastāvs. Tas ir normāli un ir noteikta algoritma darbības iezīme.

Piemēram, ir iespējami "ķēdes" tipa klasteri, kad kopas attēlo garas "ķēdes", iegarenas kopas utt., un dažas metodes var izveidot patvaļīgas formas kopas.

Dažādu metožu mērķis var būt noteikta lieluma (piemēram, mazu vai lielu) kopu izveidošana vai dažāda lieluma kopu pieņemšana datu kopā.

Dažas klasteru analīzes metodes ir īpaši jutīgas pret troksni vai novirzēm, savukārt citas ir mazāk jutīgas.

Iegūtie rezultāti prasa turpmāku objektu īpašību un raksturlielumu interpretāciju, izpēti un izpēti, lai precīzi aprakstītu izveidotos klasterus.

Klasterizācijas process un tā rezultāts ir atkarīgs no izvēlētās metodes un attāluma mēra noteikšanas metodes.

Klasteru analīzes metodes var iedalīt divās grupās:

    hierarhisks;

    nehierarhisks.

Katra no šīm grupām ietver daudzas pieejas un algoritmus.

10.5.1. Hierarhiskās klasteru analīzes metodes

Hierarhiskās klasterizācijas būtība ir mazāku klasteru secīga sapludināšana lielākos (aglomeratīvās metodes) vai lielo klasteru sadalīšana mazākos (dalīšanas metodes).

Hierarhiskās aglomerācijas metodes (Agglomerative Nesting, AGNES) raksturo sākotnējo elementu secīga savienošanās un atbilstošs klasteru skaita samazinājums. Algoritma sākumā visi objekti ir atsevišķas kopas. Pirmajā solī divi vislīdzīgākie objekti tiek apvienoti klasterī. Turpmākajās darbībās apvienošana turpinās, līdz visi objekti veido vienu klasteru.

Hierarhiskās sadalošās (dalāmās) metodes (Divisive ANAlysis, DIANA) ir loģisks pretstats aglomeratīvajām metodēm. Algoritma sākumā visi objekti ietilpst vienā klasterī, kas nākamajos soļos tiek sadalīts mazākos klasteros, kā rezultātā veidojas sadalīšanas grupu secība.

Šo metožu būtība ar dendrogrammas palīdzību ir parādīta attēlā. 10.4.

Rīsi. 10.4. Aglomerācijas un dalīšanas metožu dendrogramma

Klasteru analīzes algoritmu programmatūras realizācija ir plaši pārstāvēta dažādos Data Mining rīkos, kas ļauj risināt pietiekami lielas dimensijas problēmas. Piemēram, aglomeratīvās metodes ir ieviestas SPSS pakotnē, sadalošās metodes - Statgraf pakotnē.

Hierarhiskās klasterizācijas metožu priekšrocība ir to redzamība. Tomēr ar nelielu datu kopu apjomu tiek izmantotas hierarhiskās klasteru analīzes metodes.

Hierarhiskie algoritmi ir saistīti ar dendrogrammu (no grieķu dendron - "koks") konstruēšanu, kas ir hierarhiskas klasteru analīzes rezultāts. Dendrogramma apraksta atsevišķu punktu un klasteru tuvumu viens otram un grafiski attēlo kopu apvienošanas (atdalīšanas) secību.

Dendrogramma (dendrogramma) - koka diagramma, kas satur līmeņi, no kuriem katrs atbilst vienam no klasteru secīgas paplašināšanas procesa posmiem.Dendrogrammu sauc arī par koku diagrammu, klasteru savienības koku, hierarhisku struktūru koku. Dendrogramma ir ligzdots objektu grupējums, kas mainās dažādos hierarhijas līmeņos.

Ir daudzi veidi, kā izveidot dendrogrammas. Dendrogrammā objektus var sakārtot vertikāli vai horizontāli. Horizontālās dendrogrammas piemērs ir parādīts attēlā. 10.4, vertikālā dendrogramma - att. 10.5.

Rīsi. 10.5. Vertikālā dendrogramma

10.5. attēlā pirmajā solī katrs novērojums attēlo vienu kopu (vertikālu līniju), otrajā solī novērojam šādu novērojumu savienību: 11 un 10; 3, 4 un 5; 8 un 9; 2 un 6. Otrajā posmā turpinās klasterizācija: novērojumi 11, 10, 3, 4, 5 un 7, 8, 9. Šis process turpinās, līdz visi novērojumi tiek apvienoti vienā klasterī.

Apvienošana tiek veikta, izmantojot vienu no 10.4. sadaļā apskatītajām metodēm: tuvā kaimiņa metodi, attālā kaimiņa metodi, Vordas metodi, pāru vidējo metodi, centroīda metodi utt.

klasteru analīze(CLA) ir daudzdimensionālu klasifikācijas metožu kopums, kuru mērķis ir veidot savā starpā līdzīgu objektu grupas (klasterus). Atšķirībā no tradicionālajiem grupējumiem, kas aplūkoti vispārējā statistikas teorijā, CL noved pie sadalīšanas grupās, vienlaikus ņemot vērā visas grupēšanas pazīmes.

CL metodes ļauj atrisināt šādas problēmas:

Objektu klasifikācijas veikšana, ņemot vērā dažādas pazīmes;

Pārbaudot izdarītos pieņēmumus par kādas struktūras klātbūtni pētāmajā objektu kopā, t.i. meklēt esošu struktūru;

Jaunu klasifikāciju veidošana vāji pētītām parādībām, kad nepieciešams konstatēt sakarību klātbūtni populācijā un mēģināt tajā ieviest struktūru.

Lai uzrakstītu formalizētus CL algoritmus, tiek izmantoti šādi: konvencijas:

– novērošanas objektu kopums;

i-tais novērojums m-dimensijas pazīmju telpā ();

ir attālums starp -to un -to objektu;

- sākotnējo mainīgo normalizētās vērtības;

ir attālumu starp objektiem matrica.

Lai ieviestu jebkuru CL metodi, ir jāievieš jēdziens “objektu līdzība”. Turklāt klasifikācijas procesā objekti, kuriem ir vislielākā līdzība savā starpā novēroto mainīgo lielumu ziņā, jāiekļauj katrā klasterī.

Lai kvantitatīvi noteiktu līdzību, tiek ieviests metrikas jēdziens. Katrs objekts ir aprakstīts ar -funkcijām un attēlots kā punkts -dimensiju telpā. Klasificēto objektu līdzība vai atšķirība tiek noteikta atkarībā no metriskā attāluma starp tiem. Parasti tiek izmantoti šādi attāluma mērījumi starp objektiem:

Eiklīda attālums ;

Svērtais Eiklīda attālums ;

Pilsētas kvartāla attālums ;

Mahalanobis attālums,

kur ir attālums starp -to un -to objektu;

, ir mainīgā un attiecīgi -tā un -tā objekta vērtības;

, – mainīgo vērtību vektori -tajam un -tajam objektam;

ir vispārējā kovariācijas matrica;

ir svars, kas piešķirts -th mainīgajam.

Visas CL metodes var iedalīt divās grupās: hierarhiskā (aglomeratīvā un sadalošā) un iteratīvā (vidējā metode, koncentrāciju meklēšanas metode).

Hierarhiskā klasteru analīze. No visām klasteru analīzes metodēm visizplatītākais ir aglomeratīvās klasifikācijas algoritms. Alogritma būtība slēpjas tajā, ka pirmajā solī katrs parauga objekts tiek uzskatīts par atsevišķu klasteru. Klasteru apvienošanas process notiek secīgi: pamatojoties uz attāluma matricu vai līdzības matricu, tiek apvienoti tuvākie objekti. Ja attāluma matricai sākotnēji ir dimensija (), tad apvienošanas process tiek pabeigts () soļos. Rezultātā visi objekti tiks apvienoti vienā klasterī.

Apvienošanas secību var attēlot kā dendrogrammu, kas parādīta 3.1. attēlā. Dendrogramma parāda, ka pirmajā solī otrais un trešais objekts tiek apvienoti vienā klasterī ar attālumu starp tiem 0,15. Otrajā solī tiem pievienojās pirmais objekts. Attālums no pirmās pazīmes līdz klasterim, kas satur otro un trešo pazīmi, 0,3 utt.

Daudzas hierarhiskās klasteru analīzes metodes izceļas ar asociācijas (līdzības) algoritmiem, no kuriem visizplatītākie ir: viena savienojuma metode, pilna savienojuma metode, vidējā savienojuma metode, Ward metode.

Pilna savienojuma metode- jauna objekta iekļaušana klasterī notiek tikai tad, ja līdzība starp visiem objektiem nav mazāka par kādu noteiktu līdzības līmeni (1.3. attēls).


b)


Vidējā savienojuma metode– kad jauns objekts tiek iekļauts jau esošā klasterī, tiek aprēķināta līdzības mēra vidējā vērtība, kas pēc tam tiek salīdzināta ar doto sliekšņa līmeni. Ja mēs runājam par divu klasteru savienību, tad tiek aprēķināts to centru līdzības mērs un salīdzināts ar doto sliekšņa vērtību. Apsveriet ģeometrisku piemēru ar diviem klasteriem (1.4. Attēls).

1.4.attēls. Divu klasteru apvienošana, izmantojot vidējās saites metodi:

Ja līdzības mērs starp klasteru centriem () nav mazāks par noteiktu līmeni, tad kopas un tiks apvienotas vienā.

Palātas metode– pirmajā solī katrs klasteris sastāv no viena objekta. Sākotnēji tiek apvienoti divi tuvākie klasteri. Viņiem tiek noteiktas katras pazīmes vidējās vērtības un aprēķināta noviržu summa kvadrātā

, (1.1)

kur ir klastera numurs, ir objekta numurs, ir objekta numurs; - pazīmju skaits, kas raksturo katru objektu; objektu skaits iekšā - mcluster.

Turklāt katrā algoritma darbībā tiek apvienoti tie objekti vai kopas, kas nodrošina mazāko vērtības pieaugumu.

Varda metode noved pie aptuveni vienāda lieluma klasteru veidošanās ar minimālu intraklasteru variāciju.

Hierarhisko klasteru analīzes algoritmu var attēlot kā procedūru secību:

Mainīgo sākotnējo vērtību normalizēšana;

Attāluma matricas vai līdzības mēru matricas aprēķins;

Tuvāko objektu (klasteru) pāra noteikšana un to kombinācija pēc izvēlētā algoritma;

Atkārtojiet pirmās trīs procedūras, līdz visi objekti ir apvienoti vienā klasterī.

Divu klasteru apvienošanas līdzības mēru nosaka ar šādām metodēm:

"Tuvākā kaimiņa" metode - klasteru līdzības pakāpe tiek novērtēta pēc līdzības pakāpes starp līdzīgākajiem (tuvākajiem) šo klasteru objektiem;

"Tālā kaimiņa" metode - līdzības pakāpi novērtē pēc līdzības pakāpes starp attālākajiem (atšķirīgākajiem) klastera objektiem;

Vidējā savienojuma metode - līdzības pakāpe tiek novērtēta kā vidējā vērtība klasteru objektu līdzības pakāpes;

Mediāna savienojuma metode - attālums starp jebkuru klasteru S un jauns klasteris, kas ir kopu apvienošanas rezultāts R Un q, definēts kā attālums no kopas centra S līdz segmenta vidum, kas savieno kopu centrus R Un q.

Kondensācijas meklēšanas metode. Viena no iteratīvajām klasifikācijas metodēm ir koncentrāciju meklēšanas algoritms. Iteratīvā algoritma būtība šī metode sastāv no dotā rādiusa hipersfēras izmantošanas, kas pārvietojas klasifikācijas pazīmju telpā, lai meklētu lokālas objektu koncentrācijas.



Koncentrāciju meklēšanas metode prasa, pirmkārt, attāluma matricas (vai līdzības mēru matricas) aprēķinu starp objektiem un sfēras sākotnējā centra izvēli. Parasti pirmajā solī sfēras centrs ir objekts (punkts), kura tuvākajā apkārtnē atrodas lielākais kaimiņu skaits. Pamatojoties uz doto sfēras rādiusu (R) tiek noteikts punktu kopums, kas ietilpst šajā sfērā, un tiem tiek aprēķinātas centra koordinātas (pazīmju vidējo vērtību vektors).

Kad nākamais sfēras centra koordinātu pārrēķins noved pie tāda paša rezultāta kā iepriekšējā solī, sfēras kustība apstājas, un punkti, kas tajā iekrīt, veido kopu un tiek izslēgti no turpmākā klasterizācijas procesa. . Iepriekš minētās procedūras atkārto visiem atlikušajiem punktiem. Algoritma darbs tiek pabeigts ierobežotā soļu skaitā, un visi punkti tiek sadalīti pa klasteriem. Izveidoto klasteru skaits nav iepriekš zināms un ir ļoti atkarīgs no sfēras rādiusa.

Lai novērtētu iegūtā nodalījuma stabilitāti, klasterizācijas procesu ieteicams atkārtot vairākas reizes dažādas nozīmes sfēras rādiusu, katru reizi mainot rādiusu par nelielu daudzumu.

Ir vairāki veidi, kā izvēlēties sfēras rādiusu. Ja ir attālums starp -th un -th objektiem, tad kā rādiusa apakšējo robežu izvēlieties (). , un rādiusa augšējo robežu var definēt kā .

Ja algoritms sākas ar vērtību un mainās par nelielu vērtību katru reizi, kad tas atkārtojas, tad ir iespējams identificēt rādiusu vērtības, kas noved pie tāda paša skaita klasteru veidošanās, t.i. uz stabilu nodalījumu.

1. piemērs Pamatojoties uz 1.1. tabulas datiem, ir nepieciešams klasificēt piecus uzņēmumus, izmantojot hierarhisku aglomeratīvo klasteru analīzi.

1.1. tabula

Šeit: ir fiksētās vidējās gada izmaksas ražošanas aktīvi, miljardi rubļu; - materiālu izmaksas par saražotās produkcijas rubli, kapeikas; - saražotās produkcijas apjoms, miljardi rubļu.

Risinājums. Pirms attāluma matricas aprēķināšanas, izmantojot formulu, normalizējam sākotnējos datus

Normalizēto mainīgo vērtību matrica izskatīsies šādi

.

Klasifikācija tiks veikta, izmantojot hierarhiskās aglomerācijas metodi. Lai izveidotu attāluma matricu, mēs izmantosim Eiklīda attālumu. Tad, piemēram, attālums starp pirmo un otro objektu būs

Attāluma matrica raksturo attālumus starp objektiem, no kuriem katrs pirmajā solī ir atsevišķs klasteris

.

Kā redzams no matricas, objekti un ir vistuvākie. Apvienojiet tos vienā klasterī un piešķiriet tam numuru . Pārrēķinām visu atlikušo objektu (klasteru) attālumus līdz klasterim, iegūstam jaunu attāluma matricu

.

Matricā attālumus starp klasteriem nosaka "tālā kaimiņa" algoritms. Tad attālums starp objektu un kopu ir

Matricā atkal atrodam tuvākās kopas. Tie būs un , . Tāpēc šajā posmā mēs apvienojam arī kopas; iegūt jaunu kopu, kurā ir objekti, . Iedod viņam numuru . Tagad mums ir trīs kopas (1.3), (2.5), (4).

.

Spriežot pēc matricas , nākamajā solī mēs apvienojam klasteri un , vienā klasterī un piešķiram tam numuru . Tagad mums ir tikai divas kopas:

.

Un visbeidzot, pēdējā solī mēs apvienosim kopas un attālumā 3,861.


Klasifikācijas rezultātus uzrādīsim dendrogrammas veidā (1.5. attēls). Dendrogramma norāda, ka klasteris ir viendabīgāks ienākošo objektu sastāva ziņā, jo tajā savienojums notika mazākos attālumos nekā klasterī.

3.5. attēls Piecu objektu klasterizācijas dendrogramma

2. piemērs. Pamatojoties uz zemāk norādītajiem datiem, klasificējiet veikalus pēc trim kritērijiem: - tirdzniecības telpas platība, m 2, - apgrozījums uz vienu pārdevēju, den. vienības, - rentabilitātes līmenis, %.

Veikala numurs Veikala numurs

Lai klasificētu veikalus, izmantojiet koncentrāciju meklēšanas metodi (jāizvēlas pirmais klasteris).

Risinājums. 1. Aprēķiniet attālumus starp objektiem, izmantojot Eiklīda metriku

,

kur , ir attiecīgi --tā un -tā objekta sākotnējo mainīgo standartizētās vērtības; T ir funkciju skaits.

.

2. Pamatojoties uz Z matricu, mēs aprēķinām kvadrātveida simetrisko attālumu matricu starp objektiem () .

Attāluma matricas analīze palīdz noteikt sfēras sākotnējā centra pozīciju un izvēlēties sfēras rādiusu.

Šajā piemērā lielākā daļa "mazo" attālumu atrodas pirmajā rindā, t.i. pirmajam objektam ir daudz "tuvu" kaimiņu. Tāpēc pirmo objektu var uzskatīt par sfēras centru.

3. Iestatiet sfēras rādiusu . Šajā gadījumā objekti iekrīt sfērā, kuras attālums līdz pirmajam objektam ir mazāks par 2.

Sešiem punktiem (objektiem 1, 2, 3, 6, 7, 8) nosakām smaguma centra koordinātas: .

4. Nākamajā algoritma solī sfēras centru novietojam punktā un nosakām katra objekta attālumu līdz jaunajam centram.

, valsts pārvalde, filoloģija, antropoloģija, mārketings, socioloģija, ģeoloģija un citas disciplīnas. Tomēr pielietojuma universālums ir novedis pie liela skaita nesaderīgu terminu, metožu un pieeju rašanās, kas apgrūtina klasteru analīzes nepārprotamu izmantošanu un konsekventu interpretāciju.

Enciklopēdisks YouTube

  • 1 / 5

    Klasteru analīze veic šādus galvenos uzdevumus:

    • Tipoloģijas vai klasifikācijas izstrāde.
    • Noderīgu konceptuālu shēmu izpēte objektu grupēšanai.
    • Hipotēžu ģenerēšana, pamatojoties uz datu izpēti.
    • Hipotēžu pārbaude vai izpēte, lai noteiktu, vai tā vai citādi identificētie tipi (grupas) patiešām ir pieejami pieejamajos datos.

    Neatkarīgi no pētījuma priekšmeta klasteru analīzes izmantošana ietver šādas darbības:

    • Paraugu ņemšana klasteru veidošanai. Tiek saprasts, ka ir lietderīgi grupēt tikai kvantitatīvos datus.
    • Mainīgo kopas definīcija, pēc kuras tiks novērtēti objekti paraugā, tas ir, pazīmju telpa.
    • Viena vai cita objektu līdzības (vai atšķirības) mēra vērtību aprēķins.
    • Klasteru analīzes metodes pielietošana līdzīgu objektu grupu veidošanai.
    • Klastera risinājuma rezultātu validācija.

    Jūs varat atrast aprakstu par divām datu pamatprasībām - viendabīgumu un pilnīgumu. Viendabīgumam ir nepieciešams, lai visām klasteru entītijām būtu vienāda būtība, ko raksturo līdzīga raksturlielumu kopa. Ja pirms klasteru analīzes tiek veikta faktoriālā analīze, tad paraugs nav jāremontē - noteiktās prasības izpilda automātiski ar pašu faktoru modelēšanas procedūru (ir vēl viena priekšrocība - z-standartizācija bez negatīvām sekām paraugam; ja tas tiek veikts tieši klasteru analīzei, tas var izraisīt grupu atdalīšanas skaidrības samazināšanos). Pretējā gadījumā paraugs ir jāpielāgo.

    Klasterizācijas problēmu tipoloģija

    Ievades veidi

    Mūsdienu zinātnē tiek izmantoti vairāki ievades datu apstrādes algoritmi. Tiek saukta analīze, salīdzinot objektus, pamatojoties uz pazīmēm (visbiežāk bioloģijas zinātnēs). J- analīzes veids un pazīmju salīdzināšanas gadījumā, pamatojoties uz objektiem, R- analīzes veids. Ir mēģinājumi izmantot hibrīdos analīzes veidus (piemēram, RQ analīze), taču šī metodoloģija vēl nav pienācīgi izstrādāta.

    Klasterizācijas mērķi

    • Datu izpratne, identificējot klasteru struktūru. Izlases sadalīšana līdzīgu objektu grupās ļauj vienkāršot turpmāko datu apstrādi un lēmumu pieņemšanu, katram klasterim pielietojot savu analīzes metodi (“skaldi un valdi” stratēģija).
    • Datu saspiešana. Ja sākotnējā izlase ir pārāk liela, tad to var samazināt, atstājot vienu no tipiskākajiem pārstāvjiem no katra klastera.
    • Jaunuma noteikšana (ang. novelty detection). Tiek atlasīti netipiski objekti, kurus nevar pievienot nevienai no kopām.

    Pirmajā gadījumā viņi cenšas samazināt klasteru skaitu. Otrajā gadījumā svarīgāk ir nodrošināt augstu objektu līdzības pakāpi katrā klasterī, un var būt jebkurš klasteru skaits. Trešajā gadījumā vislielāko interesi rada atsevišķi objekti, kas neietilpst nevienā no klasteriem.

    Visos šajos gadījumos var pielietot hierarhisku klasterizāciju, kad lielie klasteri tiek sadalīti mazākos, kas savukārt tiek sadalīti vēl mazākos utt. Tādus uzdevumus sauc par taksonomijas uzdevumiem. Taksonomijas rezultāts ir kokam līdzīga hierarhiska struktūra. Turklāt katram objektam ir raksturīgs visu kopu, kurām tas pieder, uzskaitījums, parasti no liela līdz mazam.

    Klasterizācijas metodes

    Nav vispārpieņemtas klasterizācijas metožu klasifikācijas, taču var izdalīt vairākas pieeju grupas (dažas metodes var attiecināt uz vairākām grupām vienlaikus, un tāpēc tiek piedāvāts uzskatīt šo tipizāciju kā zināmu tuvinājumu klasterizācijas reālajai klasifikācijai metodes):

    1. Varbūtības pieeja. Tiek pieņemts, ka katrs apskatāmais objekts pieder kādai no k klasēm. Daži autori (piemēram, A. I. Orlovs) uzskata, ka šī grupa vispār nepieder klasterizācijai un iebilst pret to ar nosaukumu "diskriminācija", tas ir, pret objektu piešķiršanas izvēli kādai no zināmajām grupām (apmācības paraugi).
    2. Uz mākslīgā intelekta sistēmām balstītas pieejas: ļoti nosacīta grupa, jo metožu ir ļoti daudz un metodoloģiski tās ir ļoti dažādas.
    3. loģiska pieeja. Dendrogrammas konstruēšana tiek veikta, izmantojot lēmumu koku.
    4. Grafiku teorētiskā pieeja.
    5. Hierarhiskā pieeja. Tiek pieņemts ligzdotu grupu (dažādu secību kopu) klātbūtne. Algoritmi savukārt tiek iedalīti aglomeratīvajos (vienojošajos) un sadalošajos (atdalošajos). Pēc pazīmju skaita dažkārt izšķir monotētiskās un politētiskās klasifikācijas metodes.
      • Hierarhiskā dalījuma klasterizācija jeb taksonomija. Klasterizācijas problēmas tiek aplūkotas kvantitatīvā taksonomijā.
    6. Citas metodes. Nav iekļauts iepriekšējās grupās.
      • Statistiskās klasterizācijas algoritmi
      • Klasteristu ansamblis
      • KRAB saimes algoritmi
      • Algoritms, kas balstīts uz sijāšanas metodi

    4. un 5. pieeja dažreiz tiek apvienota ar nosaukumu strukturālā vai ģeometriskā pieeja, kurai ir vairāk formalizēta tuvuma koncepcija. Neskatoties uz ievērojamajām atšķirībām starp uzskaitītajām metodēm, tās visas balstās uz oriģinālo. kompaktuma hipotēze»: objektu telpā visiem tuviem objektiem ir jāatrodas vienā klasterī, un attiecīgi visiem dažādajiem objektiem ir jāatrodas dažādās klasteros.

    Klasterizācijas problēmas formāls paziņojums

    Ļaujiet X (\displaystyle X)- daudzi objekti Y (\displaystyle Y)- klasteru numuru (nosaukumu, etiķešu) kopa. Ir iestatīta attāluma funkcija starp objektiem ρ (x , x ′) (\displaystyle \rho (x,x")). Ir ierobežots mācību priekšmetu kopums X m = ( x 1 , … , x m ) ⊂ X (\displeja stils X^(m)=\(x_(1),\punkti ,x_(m)\)\apakškopa X). Paraugs ir jāsadala apakškopās, kas nepārklājas, sauktas kopas, lai katrs klasteris sastāvētu no objektiem, kas ir tuvu metrikai ρ (\displaystyle\rho), un dažādu klasteru objekti būtiski atšķīrās. Tajā pašā laikā katrs objekts x i ∈ X m (\displeja stils x_(i)\in X^(m)) piešķirts klastera numurs y i (\displaystyle y_(i)).

    Klasterizācijas algoritms ir funkcija a: X → Y (\displaystyle a\kolons X\uz Y), kas uz jebkuru objektu x ∈ X (\displaystyle x\in X) atbilst klastera numuram y ∈ Y (\displaystyle y\in Y). ķekars Y (\displaystyle Y) dažos gadījumos tas ir zināms iepriekš, bet biežāk uzdevums ir noteikt optimālo klasteru skaitu, no viena vai otra viedokļa kvalitātes kritēriji grupēšana.

    Kopumā ir vērts atzīmēt, ka vēsturiski tas ir veidojies tā, ka līdzības mērus bioloģijā biežāk izmanto kā tuvuma, nevis atšķirības (attāluma) mērus.

    Socioloģijā

    Analizējot socioloģisko pētījumu rezultātus, analīzi ieteicams veikt, izmantojot hierarhiskas aglomeratīvās ģimenes metodes, proti, Vordas metodi, kurā tiek optimizēta minimālā dispersija klasteru ietvaros, kā rezultātā veidojas aptuveni vienāda lieluma klasteri. tiek radīti. Varda metode ir visveiksmīgākā socioloģisko datu analīzei. Kā atšķirības mērs ir labāks kvadrātiskais Eiklīda attālums, kas veicina kopu kontrasta palielināšanos. Hierarhiskās klasteru analīzes galvenais rezultāts ir dendrogramma jeb “lāsteku diagramma”. To interpretējot, pētnieki saskaras ar tādu pašu problēmu kā faktoru analīzes rezultātu interpretācija - nepārprotamu klasteru noteikšanas kritēriju trūkums. Kā galvenās ieteicams izmantot divas metodes - dendrogrammas vizuālo analīzi un ar dažādām metodēm veiktās klasterizācijas rezultātu salīdzināšanu.

    Dendrogrammas vizuālā analīze ietver koka "nogriešanu". optimālais līmenis izlases vienību līdzības. “Vīnogulāju zars” (Oldenderfer M.S. un Blashfield R.K. terminoloģija) ir “jānogriež” aptuveni 5 pēc skalas Rescaled Distance Cluster Combine, tādējādi sasniedzot 80% līdzības līmeni. Ja kopu atlase pēc šīs etiķetes ir sarežģīta (vairāki mazi klasteri uz tā saplūst vienā lielā), varat izvēlēties citu etiķeti. Šo paņēmienu piedāvā Oldenderfer un Blashfield.

    Tagad rodas jautājums par pieņemtā klastera risinājuma stabilitāti. Faktiski klasterizācijas stabilitātes pārbaude nozīmē tās uzticamības pārbaudi. Šeit ir īkšķis - mainoties klasterizācijas metodēm, tiek saglabāta stabila tipoloģija. Hierarhiskās klasteru analīzes rezultātus var pārbaudīt ar iteratīvu k-vidējo klasteru analīzi. Ja salīdzinātajās respondentu grupu klasifikācijās sakritību īpatsvars ir lielāks par 70% (vairāk nekā 2/3 sakritību), tad tiek pieņemts klastera lēmums.

    Nav iespējams pārbaudīt risinājuma atbilstību, neizmantojot cita veida analīzi. Vismaz teorētiski šī problēma nav atrisināta. Oldenderfera un Blashfield klasiskā klasteru analīze izstrādā un galu galā noraida piecas papildu robustuma pārbaudes metodes:

    1. kofenētiskā korelācija - nav ieteicama un ierobežota lietošanā;
    2. nozīmīguma testi (dispersijas analīze) - vienmēr dod nozīmīgu rezultātu;
    3. atkārtotu (izlases) paraugu ņemšanas paņēmienu, kas tomēr nepierāda lēmuma pamatotību;
    4. nozīmīguma testi ārējās pazīmes piemērots tikai atkārtotiem mērījumiem;
    5. Montekarlo metodes ir ļoti sarežģītas un pieejamas tikai pieredzējušiem matemātiķiem [ (ang. malu noteikšana) vai objektu atpazīšana.
    6. Viedā datu analīze (angļu datu ieguve) — klasterizācija programmā Data Mining kļūst vērtīga, ja tā darbojas kā viens no datu analīzes posmiem, veidojot pilnīgu analītisko risinājumu. Bieži vien analītiķim ir vieglāk identificēt līdzīgu objektu grupas, izpētīt to īpašības un izveidot katrai grupai atsevišķu modeli, nekā izveidot vienu vispārīgu modeli visiem datiem. Šis paņēmiens tiek pastāvīgi izmantots mārketingā, izceļot klientu grupas, pircējus, preces un izstrādājot katrai atsevišķu stratēģiju.

    Bieži vien iekšā dažādas jomas darbību, mums ir jātiek galā ar milzīgu skaitu jebkuru priekšmetu, saistībā ar kuriem ir jārīkojas.

    Un mēs pat nevaram realizēt visu šo apjomu, nemaz nerunājot par to, lai to saprastu.

    Kāda ir izeja? Nu, protams, "salieciet visu pa plauktiņiem". Šajā gadījumā tautas gudrība iegūst skaidri definētu zinātnisku formulējumu.

    Klasteru analīze ir objektu izpēte, apvienojot tos viendabīgās grupās ar līdzīgām iezīmēm. Viņa metodes ir piemērojamas burtiski visās jomās: no medicīnas līdz Forex tirdzniecībai, no automašīnu apdrošināšanas līdz arheoloģijai. Un mārketinga speciālistiem un personāla speciālistiem tas ir vienkārši neaizvietojams.

    Vairāk par to rakstā.

    Kas ir klasteris

    Klasteru analīze ir paredzēta, lai sadalītu objektu kopu viendabīgās grupās (klasteros vai klasēs). Tas ir daudzfaktoru datu klasifikācijas uzdevums.


    Ir aptuveni 100 dažādu klasterizācijas algoritmu, tomēr visbiežāk izmantotie ir:

    1. hierarhiskā klasteru analīze,
    2. k-nozīmē klasterizāciju.

    Kur tiek izmantota klasteru analīze:

    • Mārketingā tā ir konkurentu un patērētāju segmentācija.
    • Pārvaldībā:
      1. personāla sadalīšana grupās ar dažādu motivācijas līmeni,
      2. piegādātāju klasifikācija,
      3. līdzīgu ražošanas situāciju identificēšana, kurās notiek laulība.
    • Medicīnā simptomu klasifikācija, pacienti, zāles.
    • Socioloģijā respondentu iedalījums viendabīgās grupās.

    Faktiski klasteru analīze ir sevi pierādījusi visās cilvēka dzīves jomās. Šīs metodes skaistums ir tāds, ka tā darbojas pat tad, ja ir maz datu un nav izpildītas prasības par nejaušo lielumu sadalījumu normalitāti un citas prasības. klasiskās metodes Statistiskā analīze.

    Izskaidrosim klasteru analīzes būtību, neizmantojot stingru terminoloģiju.

    Pieņemsim, ka veicāt darbinieku aptauju un vēlaties noteikt, kā visefektīvāk pārvaldīt savus darbiniekus. Tas ir, jūs vēlaties sadalīt darbiniekus grupās un izvēlēties katrai no tām efektīvākās vadības sviras. Tajā pašā laikā atšķirībām starp grupām jābūt acīmredzamām, un grupas ietvaros respondentiem jābūt pēc iespējas līdzīgiem.

    Problēmas risināšanai tiek piedāvāts izmantot hierarhisku klasteru analīzi. Rezultātā iegūsim koku, uz kuru skatoties jāizlemj, cik klasēs (klasteros) vēlamies iedalīt personālu. Pieņemsim, ka mēs nolemjam sadalīt darbiniekus trīs grupās, pēc tam, lai izpētītu respondentus, kuri iekļuva katrā klasterī, mēs iegūstam planšetdatoru ar šādu saturu:


    Paskaidrosim, kā tiek veidota iepriekš minētā tabula. Pirmajā kolonnā ir klastera numurs - grupa, kuras dati ir atspoguļoti rindā. Piemēram, pirmajā grupā 80% ir vīriešu. 90% pirmā klastera ietilpst vecuma grupā no 30 līdz 50 gadiem, un 12% aptaujāto uzskata, ka ieguvumi ir ļoti svarīgi. Un tā tālāk.

    Mēģināsim izveidot katras klastera respondentu portretus:

    1. Pirmajā grupā galvenokārt ir vīrieši nobriedušā vecumā, kas ieņem vadošus amatus. Sociālā pakete (MED, LGOTI, brīvlaiks) viņus neinteresē. Viņi dod priekšroku saņemt labu algu, nevis palīdzību no darba devēja.
    2. Gluži pretēji, otrā grupa dod priekšroku sociālajai paketei. To galvenokārt veido "vecuma vecuma" cilvēki, kas ieņem zemus amatus. Viņiem noteikti svarīga ir alga, taču ir arī citas prioritātes.
    3. Trešā grupa ir visvairāk "jaunākā". Atšķirībā no iepriekšējiem diviem, ir acīmredzama interese par mācībām un profesionālās izaugsmes iespējām. Šai darbinieku kategorijai ir laba iespēja drīzumā papildināt pirmo grupu.

    Tādējādi plānojot kampaņu, lai ieviestu efektīvas metodes personāla vadība, ir acīmredzams, ka mūsu situācijā ir iespējams palielināt sociālo paketi otrajai grupai, kaitējot, piemēram, darba samaksai. Ja runājam par to, kuri speciālisti jāsūta uz apmācībām, tad noteikti varam ieteikt pievērst uzmanību trešajai grupai.

    Avots: "nickart.spb.ru"

    Klasteru analīze ir tirgus izpratnes atslēga

    Klasteris ir aktīva cena noteiktā laika periodā, kurā tika veikti darījumi. Iegūtais pirkšanas un pārdošanas apjoms tiek norādīts ar skaitli klasterī. Jebkuras TF joslā, kā likums, ir vairākas kopas. Tas ļauj detalizēti redzēt pirkumu, pārdošanas apjomus un to atlikumu katrā atsevišķā joslā, katram cenu līmenim.


    Klasteru diagrammas veidošana

    Viena aktīva cenas izmaiņas neizbēgami rada cenu izmaiņu ķēdi arī citiem instrumentiem. Vairumā gadījumu izpratne par trenda kustību rodas jau tajā brīdī, kad tā strauji attīstās, un ienākšana tirgū pa trendu ir pilns ar iekrišanu koriģējošā vilnī.

    Lai darījumi būtu veiksmīgi, ir jāsaprot pašreizējā situācija un jāspēj paredzēt turpmākās cenu kustības. To var uzzināt, analizējot klastera grafiku. Ar klasteru analīzes palīdzību var redzēt tirgus dalībnieku aktivitāti pat vismazākajā cenu joslā.

    Šī ir visprecīzākā un detalizētākā analīze, jo parāda darījumu apjomu punktu sadalījumu katram aktīvu cenu līmenim. Tirgus pastāvīgi saskaras ar pārdevēju un pircēju interesēm. Un katra mazākā cenu kustība (ķeksītis) ir virzība uz kompromisu – cenu līmeni –, kas šobrīd der abām pusēm.

    Taču tirgus ir dinamisks, pārdevēju un pircēju skaits nepārtraukti mainās. Ja vienā brīdī tirgū dominēja pārdevēji, tad nākamajā brīdī, visticamāk, būs pircēji. Arī noslēgto darījumu skaits blakus cenu līmeņos nav vienāds.

    Un tomēr, pirmkārt, tirgus situācija atspoguļojas kopējā darījumu apjomā un tikai pēc tam cenā. Ja redzat dominējošo tirgus dalībnieku (pārdevēju vai pircēju) rīcību, tad var prognozēt pašu cenu kustību.

    Lai veiksmīgi izmantotu klasteru analīzi, vispirms ir jāsaprot, kas ir klasteris un delta:

    • Klasteris ir cenu kustība, kas ir sadalīta līmeņos, kuros tika veikti darījumi ar zināmiem apjomiem.
    • Delta parāda atšķirību starp pirkšanu un pārdošanu, kas notiek katrā klasterī.


    klasteru grafiks

    Katrs klasteris vai deltu grupa ļauj noskaidrot, vai konkrētajā laikā tirgū dominē pircēji vai pārdevēji. Pietiek tikai aprēķināt kopējo delta, summējot pārdošanu un pirkumu. Ja delta ir negatīva, tad tirgus ir pārpārdots, ir lieki pārdošanas darījumi. Ja delta ir pozitīva, tirgū nepārprotami dominē pircēji.

    Pati delta var iegūt normālu vai kritisku vērtību. Delta tilpuma vērtība, kas pārsniedz normālo vērtību klasterī, ir iezīmēta sarkanā krāsā. Ja delta ir mērena, tas raksturo plakanu stāvokli tirgū. Plkst normālā vērtība delta tirgū, ir tendence mainīties, bet kritiskā vērtība vienmēr ir cenu maiņas priekšvēstnesis.

    Forex tirdzniecība ar CA

    Lai iegūtu maksimālu peļņu, jums ir jāspēj noteikt delta pāreju no mērena līmeņa uz normālu. Patiešām, šajā gadījumā jūs varat pamanīt pašu pārejas sākumu no dzīvokļa uz tendences kustību un gūt vislielāko peļņu.

    Klasteru diagramma ir vizuālāka, tā ļauj redzēt ievērojamus apjomu uzkrāšanas un sadalījuma līmeņus, veidot atbalsta un pretestības līmeņus.

    Tas ļauj tirgotājam atrast precīzu ierakstu darījumā. Izmantojot delta, var spriest par pārdošanas vai pirkšanas pārsvaru tirgū. Klasteru analīze ļauj novērot darījumus un izsekot to apjomam jebkuras TF joslā. Tas ir īpaši svarīgi, tuvojoties nozīmīgam atbalsta vai pretestības līmenim. Klasteru spriedumi ir tirgus izpratnes atslēga.

    Avots: "orderflowtrading.ru"

    Klasteru analīzes pielietošanas jomas un iezīmes

    Termins klasteru analīze (pirmo reizi ieviesa Tryon, 1939) faktiski ietver dažādu klasifikācijas algoritmu kopumu. Vispārīgs jautājums, ko jautā daudzu jomu pētnieki, ir tas, kā organizēt novērotos datus vizuālās struktūrās, t.i. paplašināt taksonomijas.

    Piemēram, biologu mērķis ir ielauzt dzīvniekus Dažādi lai jēgpilni aprakstītu atšķirības starp tām. Saskaņā ar mūsdienu bioloģijā pieņemto sistēmu cilvēks pieder primātiem, zīdītājiem, amniotiem, mugurkaulniekiem un dzīvniekiem.

    Ņemiet vērā, ka šajā klasifikācijā, jo augstāks ir apkopošanas līmenis, jo mazāka līdzība starp dalībniekiem attiecīgajā klasē. Cilvēkam ir vairāk līdzību ar citiem primātiem (t.i., pērtiķiem) nekā ar "tāliem" zīdītāju dzimtas pārstāvjiem (t.i., suņiem) un tā tālāk.

    Ņemiet vērā, ka iepriekšējā diskusija attiecas uz klasterizācijas algoritmiem, taču nekas nav minēts par statistiskā nozīmīguma pārbaudi. Faktiski klasteru analīze ir ne tik daudz parasta statistikas metode, cik dažādu algoritmu “kopa” “objektu sadalei klasteros”.

    Pastāv viedoklis, ka atšķirībā no daudzām citām statistikas procedūrām klasteranalīzes metodes tiek izmantotas vairumā gadījumu, kad jums nav a priori hipotēžu par klasēm, bet jūs joprojām atrodaties aprakstošā pētījuma stadijā. Jāsaprot, ka klasteru analīze nosaka "iespējami jēgpilnāko lēmumu".

    Tāpēc statistiskā nozīmīguma pārbaude šeit nav īsti piemērojama pat gadījumos, kad ir zināmi p-līmeņi (kā, piemēram, K-means metodē).

    Klasterizācijas tehnika tiek izmantota ļoti dažādās jomās. Hartigan (1975) ir sniedzis lielisku pārskatu par daudzajiem publicētajiem pētījumiem, kas satur rezultātus, kas iegūti ar klasteru analīzes metodēm. Piemēram, medicīnas jomā slimību grupēšana, slimību ārstēšana vai slimību simptomi noved pie plaši izmantotām taksonomijām.

    Psihiatrijas jomā veiksmīgai terapijai izšķiroša nozīme ir simptomu kopu, piemēram, paranojas, šizofrēnijas utt., pareizai diagnostikai. Arheoloģijā, izmantojot klasteru analīzi, pētnieki mēģina noteikt akmens instrumentu, bēru priekšmetu u.c. taksonomijas.

    Ir zināmi plaši izplatīti klasteru analīzes pielietojumi tirgus izpēte. Kopumā vienmēr, kad nepieciešams klasificēt informācijas "kalnus" tālākai apstrādei piemērotās grupās, klasteru analīze izrādās ļoti noderīga un efektīva.

    Koku klasterizācija

    Asociācijas algoritma (koku klasterizācijas) mērķis ir apvienot objektus (piemēram, dzīvniekus) pietiekami lielos klasteros, izmantojot kādu līdzības vai attāluma mēru starp objektiem. Tipisks šādas klasterizācijas rezultāts ir hierarhisks koks.

    Apsveriet horizontālu koka diagrammu. Diagramma sākas ar katru klases objektu (diagrammas kreisajā pusē). Tagad iedomājieties, ka pakāpeniski (ļoti mazos soļos) jūs "vājināt" savu kritēriju attiecībā uz to, kuri objekti ir unikāli un kuri nav. Citiem vārdiem sakot, jūs pazemināt slieksni, kas saistīts ar lēmumu apvienot divus vai vairākus objektus vienā klasterī.


    Rezultātā jūs saistāt kopā arvien vairāk objektu un apkopojat (apvienojat) arvien vairāk un vairāk dažādu elementu kopu. Visbeidzot, pēdējā solī visi objekti tiek apvienoti.

    Šajās diagrammās horizontālās asis attēlo apvienošanas attālumu (vertikālās dendrogrammās vertikālās asis apzīmē apvienošanas attālumu). Tātad katram diagrammas mezglam (kur tiek izveidots jauns klasteris) varat redzēt attāluma lielumu, kuram atbilstošie elementi ir saistīti jaunā vienotā klasterī.

    Ja datiem ir skaidra "struktūra" attiecībā uz objektu kopām, kas ir līdzīgi viens otram, tad šī struktūra, visticamāk, tiks atspoguļota hierarhiskajā kokā ar dažādām zarām. Veiksmīgas analīzes ar savienošanas metodi rezultātā kļūst iespējams atklāt klasterus (zarus) un tos interpretēt.

    Attāluma mēri

    Savienību jeb koku klasterizācijas metodi izmanto, veidojot atšķirību vai attāluma kopas starp objektiem. Šos attālumus var definēt viendimensionālā vai daudzdimensiju telpā. Piemēram, ja kafejnīcā ir jāsagrupē ēdienu veidi, var ņemt vērā tajā esošo kaloriju skaitu, cenu, subjektīvo garšas vērtējumu utt.

    Tiešākais veids, kā aprēķināt attālumus starp objektiem daudzdimensiju telpā, ir aprēķināt Eiklīda attālumus. Ja jums ir divu vai trīsdimensiju telpa, tad šis mērs ir faktiskais ģeometriskais attālums starp objektiem telpā (it kā attālumus starp objektiem mēra ar mērlenti).

    Tomēr apvienošanas algoritmam "nerūp" tas, vai tam "paredzētie" attālumi ir reāli vai kādi citi atvasināti attāluma mēri, kas pētniekam ir nozīmīgāki; un pētnieku uzdevums ir atrast pareiza metodeīpašiem lietojumiem.

    1. Eiklīda attālums.
    2. Šķiet, ka tas ir visvairāk vispārējs tips attālumos. Tas ir vienkārši ģeometrisks attālums daudzdimensiju telpā, un to aprēķina šādi:

      Ņemiet vērā, ka Eiklīda attālums (un tā kvadrāts) tiek aprēķināts no sākotnējiem datiem, nevis no standartizētajiem datiem. Šis ir parastais tā aprēķināšanas veids, kam ir noteiktas priekšrocības (piemēram, attālums starp diviem objektiem nemainās, kad analīzē tiek ievadīts jauns objekts, kas var izrādīties izņēmums).

      Tomēr attālumus var ievērojami ietekmēt atšķirības starp asīm, no kurām aprēķina attālumus.

      Piemēram, ja vienu no asīm mēra centimetros un pēc tam pārveidojat to milimetros (reizinot vērtības ar 10), tad no koordinātām aprēķinātais galīgais Eiklīda attālums (vai Eiklīda attāluma kvadrāts) krasi mainās, un rezultātā klasteru analīzes rezultāti var ļoti atšķirties no iepriekšējiem.

    3. Eiklīda attāluma kvadrāts.
    4. Dažreiz jūs varētu vēlēties kvadrātveida Eiklīda standarta attālumu, lai piešķirtu lielāku svaru attālākiem objektiem. Šo attālumu aprēķina šādi:

    5. Pilsētas kvartāla distance (Manhetenas distance).
    6. Šis attālums ir vienkārši koordinātu atšķirību vidējais lielums. Vairumā gadījumu šis attāluma mērījums rada tādus pašus rezultātus kā parastajam Eiklida attālumam.

      Tomēr ņemiet vērā, ka šim pasākumam atsevišķu lielo atšķirību (ārpus vērtību) ietekme samazinās (jo tās nav kvadrātā). Manhetenas attālumu aprēķina pēc formulas:

    7. Čebiševa attālums.
    8. Šis attālums var būt noderīgs, ja vēlaties definēt divus objektus kā "atšķirīgus", ja tie atšķiras vienā koordinātā (jebkurā dimensijā). Čebiševa attālumu aprēķina pēc formulas:

    9. Spēka distance.

      Dažreiz ir vēlams pakāpeniski palielināt vai samazināt svaru, kas saistīts ar izmēru, kuram atbilstošie objekti ir ļoti atšķirīgi. To var panākt, izmantojot jaudas likuma attālumu. Jaudas attālumu aprēķina pēc formulas:

      kur r un p ir lietotāja definēti parametri.

      Daži aprēķinu piemēri var parādīt, kā šis pasākums "darbojas":

      • Parametrs p ir atbildīgs par atsevišķu koordinātu atšķirību pakāpenisku svēršanu.
      • Parametrs r ir atbildīgs par pakāpenisku lielu attālumu starp objektiem svēršanu.
      • Ja abi parametri - r un p, ir vienādi ar diviem, tad šis attālums sakrīt ar Eiklīda attālumu.
    10. Nesaskaņu procentuālais daudzums.
    11. Šo rādītāju izmanto, ja dati ir kategoriski. Šo attālumu aprēķina pēc formulas:

    Asociācijas vai asociācijas noteikumi

    Pirmajā solī, kad katrs objekts ir atsevišķs klasteris, attālumus starp šiem objektiem nosaka izvēlētais mērs. Tomēr, ja vairāki objekti ir savienoti kopā, rodas jautājums, kā noteikt attālumus starp kopām?

    Citiem vārdiem sakot, jums ir nepieciešama savienojuma vai saites kārtula divām kopām. Tur ir dažādas iespējas: Piemēram, varat saistīt divus klasterus kopā, ja jebkuri divi objekti abās kopās atrodas tuvāk viens otram nekā atbilstošā saites attālums.

    Citiem vārdiem sakot, jūs izmantojat "tuvākā kaimiņa noteikumu", lai noteiktu attālumu starp kopām; šo metodi sauc par vienas saites metodi. Šis noteikums veido "šķiedru" kopas, t.i. klasterus "saista kopā" ​​tikai atsevišķi elementi, kas ir tuvāk viens otram nekā citi.

    Varat arī izmantot kaimiņus klasteros, kas atrodas vistālāk viens no otra no visiem citiem līdzekļu pāriem. Šo metodi sauc par pilnās saites metodi. Ir arī daudzas citas metodes, kā pievienoties klasteriem, līdzīgi tiem, kas tika apspriesti.

    • Viens savienojums (tuvākā kaimiņa metode).
    • Kā aprakstīts iepriekš, šajā metodē attālumu starp diviem klasteriem nosaka attālums starp diviem tuvākajiem objektiem (tuvākajiem kaimiņiem) dažādos klasteros.

      Šim noteikumam savā ziņā ir jāsavieno objekti kopā, lai veidotu kopas, un iegūtās kopas mēdz attēlot ar garām "virknēm".

    • Pilns pieslēgums (vistālāko kaimiņu metode).
    • Šajā metodē attālumi starp klasteriem tiek definēti kā lielākais attālums starp jebkuriem diviem objektiem dažādās kopās (t.i., "vistālākajiem kaimiņiem").

      Šī metode parasti darbojas ļoti labi, ja objekti patiesībā nāk no patiešām dažādām "birzēm".

      Ja klasteri ir kaut kādā veidā iegareni vai to dabiskais veids ir "ķēde", tad šī metode nav piemērota.

    • Nesvērtais pāru vidējais rādītājs.
    • Šajā metodē attālums starp diviem dažādiem klasteriem tiek aprēķināts kā vidējais attālums starp visiem tajos esošo objektu pāriem. Metode ir efektīva, ja objekti faktiski veido dažādas "birzis", bet tā darbojas vienlīdz labi paplašinātu ("ķēdes" tipa) klasteru gadījumos.

      Ņemiet vērā, ka savā grāmatā Sneath un Sokal (1973) ievieš saīsinājumu UPGMA, lai apzīmētu šo metodi kā nesvērto pāru grupu metodi, izmantojot vidējos aritmētiskos rādītājus.

    • Svērtais pāru vidējais.
    • Metode ir identiska nesvērtajai pāru vidējās metodes metodei, izņemot to, ka aprēķinos kā svēršanas koeficients tiek izmantots attiecīgo klasteru lielums (ti, tajos esošo objektu skaits). Tāpēc piedāvātā metode ir jāizmanto, ja tiek pieņemti nevienlīdzīgi klasteru izmēri.

      Sneath un Sokal (1973) ievieš saīsinājumu WPGMA, lai apzīmētu šo metodi kā svērto pāru grupu metodi, izmantojot vidējos aritmētiskos rādītājus.

    • Nesvērtā centroīda metode.
    • Šajā metodē attālums starp diviem klasteriem tiek definēts kā attālums starp to smaguma centriem.

      Sneath un Sokal (1973) izmanto akronīmu UPGMC, lai apzīmētu šo metodi kā nesvērto pāru grupu metodi, izmantojot centroīda vidējo.

    • Svērtā centroīda metode (mediāna).
    • Šī metode ir identiska iepriekšējai, izņemot to, ka aprēķinos tiek izmantoti svari, lai ņemtu vērā atšķirību starp klasteru izmēriem (t.i., objektu skaitu tajos).

      Tāpēc, ja ir (vai ir aizdomas) būtiskas atšķirības klasteru izmēros, šī metode ir labāka par iepriekšējo.

      Sneath un Sokal (1973) izmantoja saīsinājumu WPGMC, lai to apzīmētu kā svērto pāru grupu metodi, izmantojot centroīda vidējo.

    • Palātas metode.
    • Šī metode atšķiras no visām citām metodēm, jo ​​tā izmanto ANOVA metodes, lai novērtētu attālumus starp kopām. Metode samazina kvadrātu summu (SS) jebkurām divām (hipotētiskām) kopām, kuras var izveidot katrā solī.

      Sīkāka informācija atrodama Ward (1963). Kopumā šķiet, ka metode ir ļoti efektīva, taču tai ir tendence veidot nelielas kopas.

    divvirzienu savienība

    Iepriekš šī metode tika apspriesta saistībā ar "objektiem", kas būtu jāgrupē. Visos citos analīzēs jautājums, kas interesē pētnieku, parasti tiek izteikts kā novērojumi vai mainīgie. Izrādās, ka klasterizācija gan pēc novērojumiem, gan pēc mainīgajiem var novest pie visai interesantiem rezultātiem.

    Piemēram, iedomājieties, ka medicīnas pētnieks vāc datus par dažādām sirds slimību pacientu stāvokļa (novērojumu) pazīmēm (mainīgajiem). Pētnieks var vēlēties apkopot (pacientu) novērojumus, lai identificētu pacientu kopas ar līdzīgiem simptomiem.

    Tajā pašā laikā pētnieks var vēlēties grupēt mainīgos, lai identificētu mainīgo kopas, kas ir saistītas ar līdzīgu fizisko stāvokli. Pēc šīs diskusijas par to, vai grupēt novērojumus vai mainīgos lielumus, varētu rasties jautājums, kāpēc gan negrupēt abos virzienos?

    Klasteru analīzes modulis satur efektīvu divvirzienu pievienošanās procedūru, lai to paveiktu. Tomēr divvirzienu apvienošana tiek izmantota (salīdzinoši reti) apstākļos, kad paredzams, ka gan novērojumi, gan mainīgie vienlaikus veicinās nozīmīgu klasteru atklāšanu.

    Tātad, atgriežoties pie iepriekšējā piemēra, varam pieņemt, ka medicīnas pētniekam ir jāidentificē pacientu kopas, kas ir līdzīgas attiecībā uz noteiktām fiziskā stāvokļa īpašību kopām.

    Iegūto rezultātu interpretācijas grūtības rada fakts, ka līdzības starp dažādiem klasteriem var rasties (vai būt par iemeslu) dažām atšķirībām mainīgo apakškopās. Tāpēc iegūtās kopas pēc būtības ir neviendabīgas.

    Varbūt sākumā tas šķiet mazliet miglains; patiešām, salīdzinot ar citām aprakstītajām klasteru analīzes metodēm, divvirzienu apvienošana, iespējams, ir vismazāk izmantotā metode. Tomēr daži pētnieki uzskata, ka tas piedāvā jaudīgu rīku pētnieciskai datu analīzei (lai iegūtu plašāku informāciju, skatiet Hartigana šīs metodes aprakstu (Hartigan, 1975)).

    K nozīmē metodi

    Šī klasterizācijas metode būtiski atšķiras no aglomeratīvajām metodēm, piemēram, Union (koku klasterizācija) un Two-Way Union. Pieņemsim, ka jums jau ir hipotēzes par klasteru skaitu (pēc novērojumiem vai mainīgajiem).

    Jūs varat likt sistēmai izveidot tieši trīs klasterus, lai tie būtu pēc iespējas atšķirīgi. Tieši šāda veida problēmas atrisina K-Means algoritms. Kopumā K-means metode veido tieši K atšķirīgus klasterus, kas atrodas pēc iespējas tālāk viena no otras.

    Fiziskā stāvokļa piemērā medicīnas pētniekam no savas klīniskās pieredzes var būt "nojauta", ka viņu pacienti parasti iedalās trīs dažādās kategorijās. Pēc tam viņš varētu vēlēties uzzināt, vai viņa intuīciju var pārbaudīt skaitliski, t.i., vai K līdzekļu klasteru analīze patiešām rada trīs pacientu kopas, kā paredzēts?

    Ja tā, tad dažādu fizisko parametru mērījumu līdzekļi katram klasterim nodrošinātu kvantitatīvu veidu, kā attēlot pētnieka hipotēzes (piemēram, pacientiem 1. klasterī ir augsts parametrs 1, zemāks parametrs 2 utt.).

    No skaitļošanas viedokļa šo metodi var uzskatīt par dispersijas analīzi "apgrieztā veidā".

    Programma sākas ar K nejauši atlasītiem klasteriem un pēc tam maina objektu piederību tiem, lai:

    1. samazināt klasteru mainīgumu,
    2. maksimizēt klasteru mainīgumu.

    Šī metode ir līdzīga apgrieztajai dispersijas analīzei (ANOVA), jo ANOVA nozīmīguma testā tiek salīdzināta atšķirība starp grupām un grupas iekšienē, pārbaudot hipotēzi, ka grupas vidējie rādītāji atšķiras viens no otra.

    K-vidējo klasterizācijā programma pārvieto objektus (t.i., novērojumus) no vienas grupas (klastera) uz citu, lai, veicot dispersijas analīzi (ANOVA), iegūtu visnozīmīgāko rezultātu. Parasti, kad ir iegūti K-vidējo klasteru analīzes rezultāti, katrai klasterim var aprēķināt vidējos katras dimensijas rādītājus, lai novērtētu, kā kopas atšķiras viena no otras.

    Ideālā gadījumā jums vajadzētu iegūt ļoti atšķirīgus līdzekļus lielākajai daļai, ja ne visiem, analīzē izmantotajiem mērījumiem. Katrai dimensijai iegūtās F-statistikas vērtības ir vēl viens rādītājs tam, cik labi atbilstošā dimensija izšķir klasterus.

    Avots: "biometrica.tomsk.ru"

    Objektu klasifikācija pēc to īpašībām

    Klasteranalīze (klasteranalīze) - daudzdimensiju statistikas metožu kopums objektu klasificēšanai pēc to īpašībām, objektu kopas sadalīšanai viendabīgās grupās, kas ir tuvas kritēriju noteikšanas ziņā, noteiktas grupas objektu atlasei.

    Klasteris ir objektu grupa, kas identificēta klasteru analīzes rezultātā, pamatojoties uz noteiktu objektu līdzības vai atšķirības mēru. Objekts ir konkrēti mācību priekšmeti, kas jāklasificē. Klasifikācijā iekļautie objekti parasti ir novērojumi. Piemēram, produktu patērētāji, valstis vai reģioni, produkti utt.

    Lai gan ir iespējams veikt klasteru analīzi pēc mainīgajiem. Objektu klasifikācija daudzfaktoru klasteru analīzē notiek pēc vairākiem kritērijiem vienlaicīgi, kas var būt gan kvantitatīvi, gan kategoriski mainīgie atkarībā no klasteranalīzes metodes. Tātad klasteru analīzes galvenais mērķis ir atrast izlasē līdzīgu objektu grupas.

    Klasteru analīzes daudzdimensiju statistisko metožu kopumu var iedalīt hierarhiskās (aglomeratīvās un sadalošās) un nehierarhiskās (k-means metode, divpakāpju klasteru analīze).

    Tomēr nav vispārpieņemtas metožu klasifikācijas, un dažreiz klasteru analīzes metodes ietver arī metodes lēmumu koku, neironu tīklu, diskriminantu analīzes un loģistikas regresijas konstruēšanai.

    Klasteru analīzes darbības joma, pateicoties tās daudzpusībai, ir ļoti plaša. Klasteru analīze tiek izmantota ekonomikā, mārketingā, arheoloģijā, medicīnā, psiholoģijā, ķīmijā, bioloģijā, valsts pārvaldē, filoloģijā, antropoloģijā, socioloģijā un citās jomās.

    Šeit ir daži klasteru analīzes izmantošanas piemēri.

    • medicīna - slimību klasifikācija, to simptomi, ārstēšanas metodes, pacientu grupu klasifikācija;
    • mārketings - uzdevumi optimizēt uzņēmuma produktu līniju, segmentēt tirgu pēc preču vai patērētāju grupām, noteikt potenciālais patērētājs;
    • socioloģija - respondentu iedalījums viendabīgās grupās;
    • psihiatrija - veiksmīgai terapijai izšķiroša nozīme ir pareizai simptomu grupu diagnostikai;
    • bioloģija - organismu klasifikācija pēc grupām;
    • ekonomika - Krievijas Federācijas subjektu klasifikācija pēc investīciju pievilcības.

    Avots: "statmethods.ru"

    Vispārīga informācija par klasteru analīzi

    Klasteru analīze ietver dažādu klasifikācijas algoritmu kopumu. Bieži sastopams jautājums, ko uzdod pētnieki daudzās jomās, ir tas, kā organizēt novērotos datus vizuālās struktūrās.

    Piemēram, biologu mērķis ir sadalīt dzīvniekus dažādās sugās, lai jēgpilni aprakstītu atšķirības starp tiem.

    Klasteru analīzes uzdevums ir sadalīt sākotnējo objektu kopu līdzīgu, tuvu objektu grupās. Šīs grupas sauc par klasteriem.

    Citiem vārdiem sakot, klasteru analīze ir viens no veidiem, kā klasificēt objektus pēc to īpašībām. Vēlams, lai klasifikācijas rezultātiem būtu jēgpilna interpretācija.

    Ar klasteru analīzes metodēm iegūtos rezultātus izmanto dažādās jomās:

    1. Mārketingā tā ir konkurentu un patērētāju segmentācija.
    2. Psihiatrijā veiksmīgai terapijai izšķiroša nozīme ir tādu simptomu pareizai diagnostikai kā paranoja, šizofrēnija utt.
    3. Pārvaldībā svarīga ir piegādātāju klasifikācija, līdzīgu ražošanas situāciju identificēšana, kurās notiek laulība.
    4. Socioloģijā respondentu iedalījums viendabīgās grupās.
    5. Portfeļieguldījumos ir svarīgi grupēt vērtspapīrus pēc to līdzības atdeves tendencē, lai, pamatojoties uz iegūto informāciju par akciju tirgu, sastādītu optimālu ieguldījumu portfeli, kas ļauj maksimāli palielināt ieguldījumu atdevi noteiktai riska pakāpei. .

    Faktiski klasteru analīze ir sevi pierādījusi visās cilvēka dzīves jomās. Kopumā vienmēr, kad nepieciešams klasificēt lielu šāda veida informācijas apjomu un pasniegt to tālākai apstrādei piemērotā formā, klasteru analīze izrādās ļoti noderīga un efektīva.

    Klasteru analīze ļauj ņemt vērā diezgan lielu informācijas apjomu un to spēcīgi saspiest. lieli masīvi sociāli ekonomisko informāciju, lai tās būtu kompaktas un vizuālas.

    Klasteru analīzei ir liela nozīme attiecībā uz tautsaimniecības attīstību raksturojošām laikrindu kopām (piemēram, vispārējiem ekonomikas un preču nosacījumiem).

    Šeit var izdalīt periodus, kad atbilstošo rādītāju vērtības bija diezgan tuvas, kā arī noteikt laikrindu grupas, kuru dinamika ir vislīdzīgākā. Sociāli ekonomiskās prognozēšanas uzdevumos ir ļoti perspektīvi apvienot klasteru analīzi ar citām kvantitatīvās metodes(piemēram, ar regresijas analīzi).

    Priekšrocības un trūkumi

    Klasteru analīze ļauj objektīvi klasificēt visus objektus, kuriem ir vairākas pazīmes. No tā var iegūt vairākas priekšrocības:

    • Iegūtās kopas var interpretēt, tas ir, lai aprakstītu, kādas grupas patiesībā pastāv.
    • Atsevišķas kopas var tikt likvidētas. Tas ir noderīgi gadījumos, kad datu kopā tika pieļautas noteiktas kļūdas, kā rezultātā atsevišķu objektu rādītāju vērtības krasi atšķiras. Piemērojot klasteru analīzi, šādi objekti ietilpst atsevišķā klasterī.
    • Turpmākai analīzei var atlasīt tikai tās kopas, kurām ir interesējošās īpašības.

    Tāpat kā jebkurai citai metodei, klasteru analīzei ir daži trūkumi un ierobežojumi. It īpaši:

    1. klasteru sastāvs un skaits ir atkarīgs no atlasītajiem sadalīšanas kritērijiem,
    2. samazinot sākotnējo datu masīvu uz kompaktāku formu, var rasties noteikti kropļojumi,
    3. atsevišķu objektu individuālās iezīmes var tikt zaudētas, jo tās tiek aizstātas ar klastera parametru vispārināto vērtību īpašībām.

    Metodes

    Šobrīd ir zināmi vairāk nekā simts dažādu klasterizācijas algoritmu. To daudzveidība ir izskaidrojama ne tikai ar dažādām skaitļošanas metodēm, bet arī ar dažādiem klasterizācijas pamatā esošajiem jēdzieniem. Ieteikumus vienas vai otras klasterizācijas metodes izvēlei var sniegt tikai iekšā vispārīgi runājot, un galvenais atlases kritērijs ir rezultāta praktiskā lietderība.

    Statistica pakotne ievieš šādas klasterizācijas metodes:

    • Hierarhiskie algoritmi - koku klasterizācija. Hierarhiskie algoritmi ir balstīti uz secīgas klasterizācijas ideju. Sākotnējā posmā katrs objekts tiek uzskatīts par atsevišķu kopu. Nākamajā darbībā daži klasteri, kas ir vistuvāk viens otram, tiks apvienoti atsevišķā klasterī.
    • K-nozīmē metode. Šī metode ir visizplatītākā. Tas pieder klasteru analīzes tā saukto atsauces metožu grupai. Klasteru skaitu K nosaka lietotājs.
    • Divvirzienu asociācija. Izmantojot šo metodi, klasterizācija tiek veikta vienlaicīgi gan pēc mainīgajiem (kolonnām), gan pēc novērojumu rezultātiem (rindām).

    Divvirzienu savienošanas procedūra tiek veikta, ja var sagaidīt, ka mainīgo lielumu un novērojumu vienlaicīga klasterizācija sniegs nozīmīgus rezultātus.

    Procedūras rezultāti ir aprakstoša statistika par mainīgajiem un gadījumiem, kā arī divdimensiju krāsu diagramma, kurā datu vērtības tiek kodētas ar krāsām. Pēc krāsu sadalījuma jūs varat iegūt priekšstatu par viendabīgām grupām.

    Mainīgo lielumu normalizēšana

    Sākotnējās objektu kopas sadalīšana klasteros ir saistīta ar attālumu aprēķināšanu starp objektiem un objektu izvēli, kuru attālums ir mazākais no visiem iespējamajiem. Visbiežāk izmantotais ir mums visiem pazīstamais Eiklīda (ģeometriskais) attālums. Šī metrika atbilst intuitīvām idejām par objektu tuvumu telpā (it kā attālumus starp objektiem mēra ar mērlenti).

    Taču noteiktai metrikai attālumu starp objektiem var spēcīgi ietekmēt skalu (mērvienību) izmaiņas. Piemēram, ja kādu no pazīmēm mēra milimetros un pēc tam tās vērtību pārvērš centimetros, Eiklīda attālums starp objektiem krasi mainīsies. Tas novedīs pie tā, ka klasteru analīzes rezultāti var būtiski atšķirties no iepriekšējiem.

    Ja mainīgie tiek mērīti dažādās mērvienībās, tad nepieciešama to iepriekšēja normalizācija, tas ir, sākotnējo datu transformācija, kas tos pārvērš bezdimensiju lielumos.

    Normalizācija spēcīgi izkropļo sākotnējās telpas ģeometriju, kas var mainīt klasterizācijas rezultātus. Statistica pakotnē jebkurš mainīgais x tiek normalizēts pēc formulas:

    Lai to izdarītu, ar peles labo pogu noklikšķiniet uz mainīgā nosaukuma un atvērtajā izvēlnē atlasiet komandu secību: Fill/ Standardize Block/ Standardize Columns. Normalizētā mainīgā vērtības kļūs vienādas ar nulli, un novirzes kļūs vienādas ar vienu.

    K-means metode statistikā

    K-means metode sadala objektu kopu noteiktā skaitā K dažādu klasteru, kas atrodas pēc iespējas lielākā attālumā viens no otra. Parasti, kad ir iegūti K-vidējo klasteru analīzes rezultāti, var aprēķināt katra klastera vidējos rādītājus katrai dimensijai, lai novērtētu, kā kopas atšķiras viena no otras.

    Ideālā gadījumā jums vajadzētu iegūt ļoti atšķirīgus līdzekļus lielākajai daļai analīzē izmantoto mērījumu. Katrai dimensijai iegūtās F-statistikas vērtības ir vēl viens rādītājs tam, cik labi atbilstošā dimensija izšķir klasterus.

    Kā piemēru aplūkosim 17 uzņēmuma darbinieku aptaujas rezultātus par apmierinātību ar karjeras kvalitātes rādītājiem. Tabulā apkopotas atbildes uz anketas jautājumiem desmit ballu skalā (1 ir minimālais vērtējums, 10 ir maksimālais).

    Mainīgo nosaukumi atbilst atbildēm uz šādiem jautājumiem:

    1. SLT - personīgo mērķu un organizācijas mērķu kombinācija;
    2. OSO - taisnīguma sajūta darba samaksā;
    3. TBD - teritoriālais tuvums mājai;
    4. PEW - ekonomiskās labklājības sajūta;
    5. CR - karjeras izaugsme;
    6. ZhSR - vēlme mainīt darbu;
    7. OSB ir sociālās labklājības sajūta.


    Izmantojot šos datus, ir nepieciešams sadalīt darbiniekus grupās un izvēlēties katrai no tām efektīvākās vadības sviras. Tajā pašā laikā atšķirībām starp grupām jābūt acīmredzamām, un grupas ietvaros respondentiem jābūt pēc iespējas līdzīgiem.

    Līdz šim lielākā daļa socioloģisko aptauju sniedz tikai procentos balsis: tiek apsvērts galvenais pozitīvo atbilžu skaits vai neapmierināto procentuālais daudzums, taču šis jautājums netiek sistemātiski izskatīts. Visbiežāk aptauja neuzrāda situācijas tendences.

    Klasteru analīzes procedūras var izmantot, lai, pamatojoties uz aptaujas datiem, identificētu dažas patiešām esošās pazīmju attiecības un, pamatojoties uz to, ģenerētu to tipoloģiju. Nekādu a priori sociologa hipotēžu klātbūtne klasteru analīzes procedūru darbības laikā nav nepieciešamais nosacījums.

    Programmā Statistica klasteru analīze tiek veikta šādi.

    1. Izveidojiet datu failu.
    2. Atlasiet moduli Statistika/Daudzvariantu izpētes metodes/Klasteru analīze. Noklikšķiniet uz Labi, kā rezultātā parādīsies dialoglodziņš:

    3. Parādītajā logā atlasiet K-means klasterizācijas metodi un noklikšķiniet uz Labi.
    4. Parādītajā dialoglodziņā ir jāiestata šādi iestatījumi:


      • Atlasiet mainīgos, izmantojot pogu Mainīgie.
      • Atlasiet klasterizācijas objektus: tie var būt mainīgie - kolonnas (Variables columns)) vai novērojumi - rindas (Cases (Rows)). Vispirms sagrupēsim pa rindām (Cases(rows)).
      • Atlasiet klasteru skaitu.
        Šo izvēli veic lietotājs, pamatojoties uz saviem pieņēmumiem par līdzīgu objektu grupu skaitu.

        Izvēloties klasteru skaitu, vadieties pēc tālāk norādītajiem.

        1. Klasteru skaits, ja iespējams, nedrīkst būt pārāk liels.
        2. Attālumam, kādā tika savienoti dotā klastera objekti, ja iespējams, jābūt daudz mazākam par attālumu, kurā šim klasterim pievienojas kaut kas cits.
        Izvēloties klasteru skaitu, visbiežāk ir vairāki pareizi risinājumi vienlaikus. Mūs interesē, piemēram, kā atbildes uz anketas jautājumiem korelē ar parastajiem darbiniekiem un uzņēmuma vadību. Tāpēc izvēlamies K=2. Lai veiktu turpmāku segmentāciju, varat palielināt klasteru skaitu.
      • Tālāk jums ir jāizvēlas sākotnējais objektu sadalījums klasteros (Sākotnējie klasteru centri). Statistica pakete piedāvā:
        1. atlasīt novērojumus ar maksimālo attālumu starp klasteru centriem;
        2. kārtot attālumus un atlasīt novērojumus ar regulāriem intervāliem (noklusējuma iestatījums);
        3. paņemiet pirmos novērošanas centrus un pievienojiet tiem pārējos objektus.

        Mūsu vajadzībām pirmā iespēja ir piemērota.

    Daudzi klasterizācijas algoritmi bieži “uzliek” struktūru, kas nav raksturīga datiem, un dezorientē pētnieku. Tāpēc ir ārkārtīgi nepieciešams pielietot vairākus klasteru analīzes algoritmus un izdarīt secinājumus, pamatojoties uz vispārīgu algoritmu rezultātu novērtējumu.

    Analīzes rezultātus var apskatīt parādītajā dialoglodziņā:

    Ja atlasāt cilni Vidējo vērtību grafiks, tiks uzzīmēts klasteru centru koordinātu grafiks:


    Katra lauztā līnija šajā diagrammā atbilst vienai no kopām:

    • Katrs diagrammas horizontālās ass dalījums atbilst vienam no analīzē iekļautajiem mainīgajiem.
    • Vertikālā ass atbilst mainīgo lielumu vidējām vērtībām objektiem, kas iekļauti katrā no klasteriem.

    Var atzīmēt, ka abu cilvēku grupu attieksmē pret dienesta karjeru ir būtiskas atšķirības gandrīz visos jautājumos. Tikai vienā jautājumā valda pilnīga vienprātība - sociālās labklājības (OSB) izpratnē, pareizāk sakot, tās trūkums (2,5 punkti no 10).

    Var pieņemt, ka:

    1. 1. grupa parāda darbiniekus,
    2. 2. klasteris — vadība:
      • Vadītāji ir vairāk apmierināti ar karjeras attīstību (CR), personīgo mērķu un organizācijas mērķu (SOL) kombināciju.
      • Viņiem ir augstāka ekonomiskās labklājības sajūta (SEW) un atalgojuma taisnīguma sajūta (SWA).
      • Viņus mazāk uztrauc mājas tuvums nekā strādniekiem, iespējams, mazāku transporta problēmu dēļ.
      • Tāpat vadītājiem ir mazāka vēlme mainīt darbu (JSR).

    Neskatoties uz to, ka darbinieki ir sadalīti divās kategorijās, viņi uz lielāko daļu jautājumu sniedz salīdzinoši vienādas atbildes. Citiem vārdiem sakot, ja kaut kas neatbilst vispārējai darbinieku grupai, tas neder augstākajai vadībai un otrādi.

    Grafiku saskaņošana ļauj secināt, ka vienas grupas labklājība atspoguļojas citas grupas labklājībā.

    1. klasteris nav apmierināts ar mājas teritoriālo tuvumu. Šī grupa ir lielākā daļa darbinieku, kuri galvenokārt ierodas uzņēmumā ar dažādas puses pilsētas. Tāpēc ir iespējams piedāvāt augstākajai vadībai daļu peļņas novirzīt uzņēmuma darbinieku mājokļu celtniecībai.

    Pastāv būtiskas atšķirības divu cilvēku grupu attieksmē pret dienesta karjeru:

    1. Tiem darbiniekiem, kuri ir apmierināti ar karjeras izaugsmi, kuriem ir augsta personīgo mērķu un organizācijas mērķu sakritība, nav vēlmes mainīt darbu un just gandarījumu par sava darba rezultātiem.
    2. Savukārt darbinieki, kuri vēlas mainīt darbu un ir neapmierināti ar sava darba rezultātiem, nav apmierināti ar augstākminētajiem rādītājiem.

    Augstākajai vadībai vajadzētu Īpaša uzmanība uz pašreizējo situāciju.

    Katra atribūta dispersijas analīzes rezultāti tiek parādīti, nospiežot pogu Analīzes dispersija:

    Izvade:

    • objektu novirzes no kopu centriem kvadrātu summas (SS ietvaros),
    • kvadrātu noviržu summas starp klasteru centriem (SS starp),
    • F-statistikas vērtības,
    • nozīmīguma līmeņi lpp.
    Mūsu piemērā abu mainīgo nozīmīguma līmeņi ir diezgan lieli, kas izskaidrojams ar nelielo novērojumu skaitu. Pētījuma pilnajā versijā, kas atrodama rakstā, hipotēzes par klasteru centru līdzekļu vienlīdzību tiek noraidītas pie nozīmīguma līmeņiem, kas ir mazāki par 0,01.

    Poga Saglabāt klasifikācijas un attālumus parāda katrā klasterī iekļauto objektu skaitu un objektu attālumus līdz katra klastera centram.

    Katra klastera sastāvs un objektu attālums no centra

    Tabulā ir parādīti gadījumu numuri (CASE_NO), kas veido kopas ar CLUSTER numuriem, un attālumi no katra klastera centra (DISTANCE).

    Informāciju par objektiem, kas pieder klasteriem, var ierakstīt failā un izmantot turpmākajā analīzē. Šajā piemērā iegūto rezultātu salīdzinājums ar anketām parādīja, ka 1. klasterī galvenokārt ir parastie strādnieki, bet 2. klasterī - vadītāji.

    Tādējādi var atzīmēt, ka, apstrādājot aptaujas rezultātus, klasteranalīze izrādījās jaudīga metode, kas ļauj izdarīt secinājumus, kurus nevar izdarīt, veidojot vidējo rādītāju histogrammu vai aprēķinot ar dažādiem rādītājiem apmierināto procentuālo daļu. darba dzīves kvalitāti.

    Koku klasterēšana ir hierarhiska algoritma piemērs, kura princips ir secīgi klasterēt klasterī vispirms tuvākos un pēc tam arvien attālākus elementus vienu no otra. Lielākā daļa no šiem algoritmiem sākas no līdzības (attālumu) matricas, un katrs atsevišķs elements vispirms tiek uzskatīts par atsevišķu kopu.

    Pēc klasteru analīzes moduļa ielādes un izvēles Pievienošanās (koku klasterēšana), klasterizācijas parametru ievadīšanas logā var mainīt šādas opcijas:

    1. Sākotnējie dati (Ievade). Tie var būt pētāmo datu matricas veidā (Raw data) un attālumu matricas veidā (Distance matrix).
    2. Klasterizācijas (Cluster) novērojumi (Cases (raw)) vai mainīgie (Variable (columns)), kas apraksta objekta stāvokli.
    3. Attāluma mēri. Šeit jūs varat izvēlēties kādu no šādiem pasākumiem:
      • Eiklīda attālumi,
      • Eiklīda attālumi kvadrātā,
      • attālums no pilsētas kvartāliem (Manhetenas distance, pilsētas kvartāla (Manhetenas) distance), Čebičeva attāluma metrika,
      • jaudas attālums (Jauda…;),
      • Procentuāli nesaskaņas.
    4. Klasterizācijas metode (Amalgamation (linkage) noteikums).
      Šeit ir pieejamas šādas opcijas:
      • viena saite (tuvākā kaimiņa metode) (viena saite),
      • pilnīga saite (vistālāko kaimiņu metode) (pilnīga saikne),
      • nesvērtais pāru grupas vidējais rādītājs,
      • svērtais pāru grupas vidējais rādītājs,
      • nesvērtā centroīda metode (nesvērtā pāru grupas centroīds),
      • svērtā centroīda metode (mediāna) (svērtā pāru grupas centroīds (mediāna)),
      • Varda metode.

    Klasterizācijas rezultātā tiek uzbūvēta horizontāla vai vertikāla dendrogramma - grafiks, uz kura tiek noteikti attālumi starp objektiem un klasteriem, tos secīgi apvienojot.

    Grafika koka struktūra ļauj definēt klasterus atkarībā no izvēlētā sliekšņa – noteikta attāluma starp klasteriem.

    Papildus tiek parādīta attālumu matrica starp oriģinālajiem objektiem (Distance matrix); vidējās un standarta novirzes katram avota objektam (Distiptive statistika). Aplūkotajā piemērā mēs veiksim mainīgo klastera analīzi ar noklusējuma iestatījumiem. Iegūtā dendrogramma ir parādīta attēlā:


    Dendrogrammas vertikālā ass attēlo attālumus starp objektiem un starp objektiem un kopām. Tātad attālums starp mainīgajiem SEB un OSD ir vienāds ar pieciem. Šie mainīgie pirmajā posmā tiek apvienoti vienā klasterī.

    Dendrogrammas horizontālie segmenti tiek zīmēti līmeņos, kas atbilst sliekšņa attālumiem, kas atlasīti konkrētajam klasterizācijas solim.

    No diagrammas redzams, ka jautājums “vēlme mainīt darbu” (JSR) veido atsevišķu klasteru. Kopumā vēlme doties jebkur apmeklē ikvienu vienādi. Turklāt atsevišķs klasteris ir jautājums par teritoriālo tuvumu mājām (LHB).

    Nozīmīguma ziņā tā ir otrajā vietā, kas apstiprina secinājumu par mājokļu būvniecības nepieciešamību, kas izdarīts pēc pētījuma rezultātiem, izmantojot K-means metodi.

    Ekonomiskās labklājības sajūta (PEW) un algas taisnīgums (PWF) ir apvienotas - tas ir ekonomisko jautājumu bloks. Tiek apvienota arī karjeras attīstība (CR) un personīgo mērķu un organizācijas mērķu kombinācija (COL).

    Citas klasterizācijas metodes, kā arī cita veida attālumu izvēle neizraisa būtiskas izmaiņas dendrogrammā.

    rezultātus

    1. Klasteru analīze ir spēcīgs rīks pētnieciskai datu analīzei un statistikas pētījumi jebkurā mācību jomā.
    2. Programma Statistica īsteno gan hierarhiskas, gan strukturālas klasteru analīzes metodes. Šīs statistikas paketes priekšrocības ir saistītas ar to grafiskajām iespējām. Tiek sniegti iegūto klasteru divdimensiju un trīsdimensiju grafiskie attēlojumi pētāmo mainīgo telpā, kā arī objektu grupēšanas hierarhiskās procedūras rezultāti.
    3. Nepieciešams izmantot vairākus klasteru analīzes algoritmus un izdarīt secinājumus, pamatojoties uz vispārīgu algoritmu rezultātu novērtējumu.
    4. Klastera analīzi var uzskatīt par veiksmīgu, ja tā tiek veikta Dažādi ceļi, rezultāti tiek salīdzināti un atrasti vispārīgi modeļi, kā arī atrasti stabili klasteri neatkarīgi no klasterizācijas metodes.
    5. Klasteru analīze ļauj identificēt problēmsituācijas un iezīmēt veidus, kā tās atrisināt. Tāpēc šo neparametriskās statistikas metodi var uzskatīt par sistēmas analīzes neatņemamu sastāvdaļu.