Dosbarthiad mewn Mwyngloddio Data

Mae dosbarthiad yn dechneg gloddio data sy'n neilltuo categorïau i gasgliad o ddata er mwyn cynorthwyo mewn rhagfynegiadau a dadansoddiad mwy cywir. Gelwir hyn weithiau'n cael ei alw'n Tree Decision , mae dosbarthiad yn un o sawl dull a fwriadwyd i wneud dadansoddiad o setiau data mawr iawn yn effeithiol.

Pam Dosbarthiad?

Mae cronfeydd data mawr iawn yn dod yn norm yn y byd heddiw o "ddata mawr." Dychmygwch gronfa ddata gyda therabytes lluosog o ddata -a terabyte yw un triliwn bytes o ddata.

Mae Facebook yn unig yn crynhoi 600 terabytes o ddata newydd bob dydd (fel 2014, y tro diwethaf y dywedodd y rhain). Prif her data mawr yw sut i wneud synnwyr ohoni.

Ac nid y gyfrol ddifrifol yw'r unig broblem: mae data mawr hefyd yn tueddu i fod yn amrywiol, yn ddi-strwythuredig ac yn newid yn gyflym. Ystyriwch ddata sain a fideo, swyddi cyfryngau cymdeithasol, data 3D neu ddata geospatial. Nid yw'r math hwn o ddata yn cael ei gategoreiddio na'i drefnu'n hawdd.

I gwrdd â'r her hon, datblygwyd ystod o ddulliau awtomatig ar gyfer dethol gwybodaeth ddefnyddiol, yn eu dosbarthiad .

Sut mae Dosbarthiad yn Gweithio

Yn y perygl o symud yn rhy bell i dechnoleg-dechnoleg, gadewch i ni drafod sut mae dosbarthiad yn gweithio. Y nod yw creu set o reolau dosbarthu a fydd yn ateb cwestiwn, yn gwneud penderfyniad neu'n rhagweld ymddygiad. I ddechrau, datblygir set o ddata hyfforddi sy'n cynnwys set benodol o nodweddion yn ogystal â'r canlyniad tebygol.

Gwaith yr algorithm dosbarthu yw darganfod sut mae'r set honno o nodweddion yn cyrraedd ei gasgliad.

Senario : Efallai bod cwmni cerdyn credyd yn ceisio penderfynu pa ragolygon ddylai gael cynnig cerdyn credyd.

Gallai hyn fod yn gyfres o ddata hyfforddi:

Data Hyfforddiant
Enw Oedran Rhyw Incwm Blynyddol Cynnig Cerdyn Credyd
John Doe 25 M $ 39,500 Na
Jane Doe 56 F $ 125,000 Ydw

Mae'r colofnau "rhagfynegydd" Oedran , Rhyw ac Incwm Blynyddol yn pennu gwerth y Cynnig Cerdyn Credyd "priodoldeb rhagfynegydd". Mewn set hyfforddi, gwyddys am briodoldeb y rhagfynegydd. Yna mae'r algorithm dosbarthu yn ceisio penderfynu sut y cyrhaeddwyd gwerth y priodoldeb rhagfynegydd: pa berthynas sydd rhwng y rhagfynegwyr a'r penderfyniad? Bydd yn datblygu set o reolau rhagfynegi, fel arfer datganiad IF / THEN, er enghraifft:

OS (Oedran> 18 NEU Oedran <75) A Incwm Blynyddol> 40,000 ODDI Cynnig Cerdyn Credyd = ie

Yn amlwg, mae hwn yn enghraifft syml, a byddai angen i'r algorithm gael samplu data llawer mwy na'r ddau gofnod a ddangosir yma. Ymhellach, mae'r rheolau rhagfynegi yn debygol o fod yn llawer mwy cymhleth, gan gynnwys is-reolau i ddal manylion priodoldeb.

Nesaf, rhoddir "rhagfynegiad" i ddadansoddi'r algorithm, ond nid oes ganddo'r priodwedd rhagfynegi (neu benderfyniad):

Data Rhagfynegwr
Enw Oedran Rhyw Incwm Blynyddol Cynnig Cerdyn Credyd
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Mae'r data rhagfynegwyr hwn yn helpu i amcangyfrif cywirdeb y rheolau rhagfynegi, ac yna caiff y rheolau eu tweaked nes bod y datblygwr o'r farn bod y rhagfynegiadau yn effeithiol ac yn ddefnyddiol.

Enghreifftiau o Ddosbarthiad o ddydd i ddydd

Dosbarthiad, a thechnegau mwyngloddio data eraill, y tu ôl i lawer o'n profiad o ddydd i ddydd fel defnyddwyr.

Gallai rhagfynegiadau tywydd ddefnyddio dosbarthiad i adrodd a fydd y diwrnod yn glawog, heulog neu gymylog. Gallai'r proffesiwn meddygol ddadansoddi cyflyrau iechyd i ragweld canlyniadau meddygol. Mae math o ddull dosbarthu, Naive Bayesian, yn defnyddio tebygolrwydd amodol i gategoreiddio negeseuon e-bost spam. O ddarganfod twyll i gynigion cynnyrch, mae dosbarthiad y tu ôl i'r llenni bob dydd yn dadansoddi data a chynhyrchu rhagfynegiadau.