Beth yw k-golygu Clwstwr?

Mwyngloddio data gyda'r algorithm k-means

Mae'r k- golygu algorithm clwstwrio yn offeryn cloddio data a dysgu peiriannau a ddefnyddir i arsylwadau clwstwr i grwpiau o arsylwadau cysylltiedig heb unrhyw wybodaeth flaenorol o'r perthnasau hynny. Trwy samplu, mae'r algorithm yn ceisio dangos pa gategori, neu glwstwr, y mae'r data yn perthyn iddo, gyda'r nifer o glystyrau yn cael eu diffinio gan y gwerth k.

Mae'r algorithm k- yn un o'r technegau clystyru symlaf ac fe'i defnyddir yn gyffredin mewn delweddu meddygol, biometreg a meysydd cysylltiedig. Mantais k- yw clwstwrio yw ei fod yn dweud am eich data (gan ddefnyddio ei ffurflen heb oruchwyliaeth) yn hytrach na bod yn rhaid i chi gyfarwyddo'r algorithm am y data ar y dechrau (gan ddefnyddio ffurflen oruchwyliedig yr algorithm).

Cyfeirir ato weithiau fel Algorithm Lloyd, yn enwedig mewn cylchoedd cyfrifiadurol oherwydd cynigiwyd y algorithm safonol gyntaf gan Stuart Lloyd ym 1957. Cafodd y term "k-means" ei gansio yn 1967 gan James McQueen.

Sut mae'r K-means Algorithm Functions

Mae'r algorithm k- yn golygu algorithm esblygiadol sy'n ennill ei enw o'i ddull gweithredu. Mae'r clystyrau algorithm yn arsylwi i grwpiau k , lle mae k yn cael ei ddarparu fel paramedr mewnbwn. Yna mae'n dynodi pob arsylwad i glystyrau yn seiliedig ar agosrwydd yr arsylwi i gymedr y clwstwr. Mae cymedr y clwstwr wedyn yn cael ei argymell ac mae'r broses yn dechrau eto. Dyma sut mae'r algorithm yn gweithio:

  1. Mae'r algorithm yn dewis pwyntiau k yn fwriadol fel y canolfannau clwstwr cychwynnol (y modd).
  2. Mae pob pwynt yn y set ddata yn cael ei neilltuo i'r clwstwr caeedig, yn seiliedig ar y pellter Ewclidean rhwng pob pwynt a phob canolfan clwstwr.
  3. Mae pob canolfan clwstwr yn cael ei argymell fel cyfartaledd y pwyntiau yn y clwstwr hwnnw.
  4. Ailadrodd Camau 2 a 3 nes bod y clystyrau'n cydgyfeirio. Gellir diffinio cydgyfeiriant yn wahanol yn dibynnu ar y gweithrediad, ond fel arfer mae'n golygu na fydd unrhyw arsylwadau'n newid clystyrau pan fydd camau 2 a 3 yn cael eu hailadrodd, neu nad yw'r newidiadau yn gwneud gwahaniaeth sylweddol yn y diffiniad o'r clystyrau.

Dewis y Nifer o Glystyrau

Un o'r prif anfanteision i k- yw clystyru yw'r ffaith bod yn rhaid i chi nodi nifer y clystyrau fel mewnbwn i'r algorithm. Fel y'i dyluniwyd, nid yw'r algorithm yn gallu pennu'r nifer briodol o glystyrau ac mae'n dibynnu ar y defnyddiwr i nodi hyn ymlaen llaw.

Er enghraifft, pe bai gennych grŵp o bobl sydd i'w clystyru yn seiliedig ar hunaniaeth rhyw ddeuaidd fel gwryw neu fenyw, gan alw'r algorithm k- gan ddefnyddio'r mewnbwn k = 3 yn gorfodi'r bobl i mewn i dri chlwstwr pan dim ond dau, neu byddai mewnbwn o k = 2 yn darparu ffit mwy naturiol.

Yn yr un modd, pe bai grŵp o unigolion wedi'u clystyru'n hawdd yn seiliedig ar y wladwriaeth gartref a'ch bod yn galw'r algorithm k- gyda'r mewnbwn k = 20, efallai y bydd y canlyniadau'n rhy gyffredinol i fod yn effeithiol.

Am y rheswm hwn, mae'n aml yn syniad da arbrofi gyda gwerthoedd gwahanol k i nodi'r gwerth sy'n gweddu orau i'ch data. Efallai yr hoffech hefyd archwilio defnyddio algorithmau cloddio data eraill yn eich chwil am wybodaeth a ddysgir gan beiriannau.