Kakva je uloga dobitka informacija u algoritmu ID3?

Hej tamo! Kao i ID3 algoritam, često se pita o ulozi dobitka informacija u algoritmu ID3. Dakle, mislio sam da ću uzeti nekoliko minuta da ga prekinem za vas.

Prvo, razgovarajmo o tome koji je algoritam ID3. Algoritam ID3 je algoritam stabla odluke koji se koristi za klasifikacijske zadatke. Djeluje rekurzivno dijeljenje podataka na osnovu atributa koji pruža najviše dobitak informacija. U jednostavnijim pojmovima pokušava pronaći najbolji način da podijelite podatke u različite grupe tako da može donijeti tačne predviđanja.

Sad, hajde da uvodemo u dobitak informacija. Informativna dobitka je mjera koliko informacija atribut pruža o varijabli Class. Drugim riječima, govori nam koliko možemo naučiti o ishodu znanjem vrijednosti određenog atributa. Što je viši dobitak informacija, korisniji je atribut za predviđanje predviđanja.

Da biste izračunali dobitak informacija, prvo moramo razumjeti entropiju. Entropija je mjera nečistoće ili slučajnosti u skupu podataka. U kontekstu algoritama ID3, entropija se koristi za mjerenje nesigurnosti u razredu podataka podataka. Visoka vrijednost entropije znači da su podaci ocijenjeniji i manje predvidljivi, dok mala vrijednost entropijske vrijednosti znači da su podaci homogeniji i lakši za klasifikaciju.

Formula za entropiju je:

[
H (s) = - \ sum_ {i = 1} ^ {n} p_i \ log_2 (p_i)
]

Ako je (i) skup podataka, (n) je broj nastave i (P_I) je udio slučajeva u razredu (I).

Nakon što izračunamo entropiju cijelog skupa skupa, možemo izračunati dobitak informacija za svaki atribut. Formula za dobitak informacija je:

[
IG (s, a) = h (s) - \ suma_ {v \ u vrijednostima (a)} \ frac {| s_v |} {| s |} h (s_v)
]

GDJE (IG (S, A)) je dobitak informacija o atributima (a) na skupu podataka (vrijednosti (a) je skup svih mogućih vrijednosti atributa (a), (s_v) i (| s_v |) i (| s_v |) su broj instanci u (s_v).

Uzmimo jednostavan primjer da ilustrujemo kako informacije dobivaju radove. Pretpostavimo da imamo skup podataka i mi želimo da izgradimo stablo odluke da ih klasificiramo kao "dobro" ili "loše" na osnovu njihovih atributa kao što su boje, tip motora i kilometraže.

Boja	Vrsta motora	Kilometraža	Klasa
Crvena	Benzin	Niska	Dobro
Plavi	Dizel	Visoko	Loš
Zelenilo	Benzin	Niska	Dobro
Crvena	Dizel	Visoko	Loš

Prvo izračunavamo entropiju čitavog skupa podataka:

Postoje 2 klase (dobre i loše), sa 2 instance u svakom razredu. Dakle, (p_ {good} = \ frac {2} {4} = 0,5) i (p_ {bad} = \ frac {2} {4} = 0,5)

[
H (s) = - (0,5 \ puta \ log_2 (0,5) + 0,5 \ puta \ log_2 (0.5)) = - (0,5 \ puta (- 1) +0,5 \ puta (-1)) = 1
]

Sada, da izračunamo dobitak informacija za atribut "boja".

Za "crvenu" boju:
Postoje 2 slučaja, 1 dobri i 1 loši. Dakle, (p_ {good} = \ frac {1} {2} = 0,5) i (p_ {lod} = \ frac {1} {2} = 0,5)
[
H (s_ {crveno}) = - (0,5 \ puta \ log_2 (0,5) +0,5 \ puta \ log_2 (0.5)) = 1
]

Za "plavu" boju:
Postoji 1 instanca, što je loše. Dakle, (p_ {good} = 0) i (p_ {lod} = 1)
[
H (s_ {plave}) = - (0 \ puta \ log_2 (0) +1 \ puta \ log_2 (1)) = 0
]

Za "zelenu" boju:
Postoji 1 instanca, što je dobro. Dakle, (p_ {good} = 1) i (p_ {lod} = 0)
[
H (s_ {zeleno}) = - (1 \ puta \ log_2 (1) +0 \ puta \ log_2 (0)) = 0
]

Udio slučajeva sa "crvenom" bojom je (\ frac {2} {4} = 0,5), "plava" boja je (\ frac {1} {4} = 0,25) i "zelena" boja je (\ frac {1} {4} = 0,25)

[
\ suma_ {v \ u vrijednostima (boja)} \ frac {| s_v |} {| s |} h (s_v) = 0,5 \ puta1 + 0,25 \ times0 + 0.5 \ times0 = 0,5
]

[
IG (s, boja) = h (s) - \ suma_ {v \ u vrijednostima (boja)} \ frac {| s_v |} {| s |} h (s_v) = 1 - 0,5 = 0,5
]

Možemo ponoviti ovaj postupak za ostale atribute poput "vrste motora" i "kilometražu" i odabrati atribut s najvišim dobitkom informacija kao korijenski čvor stabla našeg odluka.

VW ID4 Crozz Prime Middle Size SUV New Energy Vehicle

U algoritmu ID3, dobitak informacija igra ključnu ulogu u određivanju najboljeg atributa za podijeljevanje podataka na svakom koraku izgradnje stabla odluke. Odabirom atributa s najvišim dobitkom informacija možemo stvoriti stablo odluke koje je tačnije i efikasnije u klasifikaciji novih podataka.

Sada razgovarajmo o tome kako se to odnosi na naš posao kao i ID3 algoritma dobavljača. Koristimo ID3 algoritam s dobitkom informacija za izgradnju stabala odluka za različite aplikacije. Na primjer, u automobilskoj industriji možemo ga koristiti za klasifikaciju automobila na osnovu različitih funkcija. Možete provjeriti neka vozila koja se bavimo:VW ID4 Crozz Prime Srednje veličine SUV Novo energetsko vozilo,VW CC novo energetsko vozilo Volkswagen zastupništvoiVW TIGUANL rabljeni automobil Volkswagen zastupništvo.

Naš algoritam ID3 može pomoći automobilskim kompanijama predvidjeti da li će automobil biti popularan izbor među kupcima, na osnovu faktora poput njegove boje, vrsti motora i kilometraže. Analizom velikih skupova podataka o klijentima i osobinama automobila možemo izgraditi stabla odluka koja pružaju vrijedne uvide za marketinške, proizvodnju i prodajne strategije.

Ako ste u automobilskoj industriji ili bilo kojem drugom polju u kojem su važni klasifikacijski zadaci, a vi tražite pouzdan ID3 algoritma, voljeli bismo čuti od vas. Kontaktirajte nas za pokretanje diskusije o nabavci i pogledajte kako naš ID3 algoritam sa dobitkom informacija može imati koristi od vašeg poslovanja.

Zaključno, dobitak informacija je temeljni koncept u algoritmu ID3. Pomaže nam da donesemo informirane odluke o kojima se atributi koriste za dijeljenje podataka, što dovodi do preciznijeg i efikasnijeg stabla odluka. Bez obzira na to da li radite u podatkovnoj nauci, mašinskom učenjem ili bilo kojem polju koja zahtijeva klasifikaciju, razumijevanje dobitka informacija u kontekstu algoritma ID3 može vam dati konkurentnu ivicu.

Reference

Mitchell, TM (1997). Mašinsko učenje. McGraw-Hill.
Quinlan, JR (1986). Indukcija stabala odluka. Mašinsko učenje, 1 (1), 81-106.