Mae dosbarthiad yn dechneg gloddio data sy'n neilltuo categorïau i gasgliad o ddata er mwyn cynorthwyo mewn rhagfynegiadau a dadansoddiad mwy cywir. Gelwir hyn weithiau'n cael ei alw'n Tree Decision , mae dosbarthiad yn un o sawl dull a fwriadwyd i wneud dadansoddiad o setiau data mawr iawn yn effeithiol.
Pam Dosbarthiad?
Mae cronfeydd data mawr iawn yn dod yn norm yn y byd heddiw o "ddata mawr." Dychmygwch gronfa ddata gyda therabytes lluosog o ddata -a terabyte yw un triliwn bytes o ddata.
Mae Facebook yn unig yn crynhoi 600 terabytes o ddata newydd bob dydd (fel 2014, y tro diwethaf y dywedodd y rhain). Prif her data mawr yw sut i wneud synnwyr ohoni.
Ac nid y gyfrol ddifrifol yw'r unig broblem: mae data mawr hefyd yn tueddu i fod yn amrywiol, yn ddi-strwythuredig ac yn newid yn gyflym. Ystyriwch ddata sain a fideo, swyddi cyfryngau cymdeithasol, data 3D neu ddata geospatial. Nid yw'r math hwn o ddata yn cael ei gategoreiddio na'i drefnu'n hawdd.
I gwrdd â'r her hon, datblygwyd ystod o ddulliau awtomatig ar gyfer dethol gwybodaeth ddefnyddiol, yn eu dosbarthiad .
Sut mae Dosbarthiad yn Gweithio
Yn y perygl o symud yn rhy bell i dechnoleg-dechnoleg, gadewch i ni drafod sut mae dosbarthiad yn gweithio. Y nod yw creu set o reolau dosbarthu a fydd yn ateb cwestiwn, yn gwneud penderfyniad neu'n rhagweld ymddygiad. I ddechrau, datblygir set o ddata hyfforddi sy'n cynnwys set benodol o nodweddion yn ogystal â'r canlyniad tebygol.
Gwaith yr algorithm dosbarthu yw darganfod sut mae'r set honno o nodweddion yn cyrraedd ei gasgliad.
Senario : Efallai bod cwmni cerdyn credyd yn ceisio penderfynu pa ragolygon ddylai gael cynnig cerdyn credyd.
Gallai hyn fod yn gyfres o ddata hyfforddi:
Enw | Oedran | Rhyw | Incwm Blynyddol | Cynnig Cerdyn Credyd |
---|---|---|---|---|
John Doe | 25 | M | $ 39,500 | Na |
Jane Doe | 56 | F | $ 125,000 | Ydw |
Mae'r colofnau "rhagfynegydd" Oedran , Rhyw ac Incwm Blynyddol yn pennu gwerth y Cynnig Cerdyn Credyd "priodoldeb rhagfynegydd". Mewn set hyfforddi, gwyddys am briodoldeb y rhagfynegydd. Yna mae'r algorithm dosbarthu yn ceisio penderfynu sut y cyrhaeddwyd gwerth y priodoldeb rhagfynegydd: pa berthynas sydd rhwng y rhagfynegwyr a'r penderfyniad? Bydd yn datblygu set o reolau rhagfynegi, fel arfer datganiad IF / THEN, er enghraifft:
OS (Oedran> 18 NEU Oedran <75) A Incwm Blynyddol> 40,000 ODDI Cynnig Cerdyn Credyd = ie
Yn amlwg, mae hwn yn enghraifft syml, a byddai angen i'r algorithm gael samplu data llawer mwy na'r ddau gofnod a ddangosir yma. Ymhellach, mae'r rheolau rhagfynegi yn debygol o fod yn llawer mwy cymhleth, gan gynnwys is-reolau i ddal manylion priodoldeb.
Nesaf, rhoddir "rhagfynegiad" i ddadansoddi'r algorithm, ond nid oes ganddo'r priodwedd rhagfynegi (neu benderfyniad):
Enw | Oedran | Rhyw | Incwm Blynyddol | Cynnig Cerdyn Credyd |
---|---|---|---|---|
Jack Frost | 42 | M | $ 88,000 | |
Mary Murray | 16 | F | $ 0 |
Mae'r data rhagfynegwyr hwn yn helpu i amcangyfrif cywirdeb y rheolau rhagfynegi, ac yna caiff y rheolau eu tweaked nes bod y datblygwr o'r farn bod y rhagfynegiadau yn effeithiol ac yn ddefnyddiol.
Enghreifftiau o Ddosbarthiad o ddydd i ddydd
Dosbarthiad, a thechnegau mwyngloddio data eraill, y tu ôl i lawer o'n profiad o ddydd i ddydd fel defnyddwyr.
Gallai rhagfynegiadau tywydd ddefnyddio dosbarthiad i adrodd a fydd y diwrnod yn glawog, heulog neu gymylog. Gallai'r proffesiwn meddygol ddadansoddi cyflyrau iechyd i ragweld canlyniadau meddygol. Mae math o ddull dosbarthu, Naive Bayesian, yn defnyddio tebygolrwydd amodol i gategoreiddio negeseuon e-bost spam. O ddarganfod twyll i gynigion cynnyrch, mae dosbarthiad y tu ôl i'r llenni bob dydd yn dadansoddi data a chynhyrchu rhagfynegiadau.