9. listopada 2018. • Yutaro Yamada • Ofir Lindenbaum • Sahand Negahban • Yuval Kluger

Problemi s odabirom značajki detaljno su proučavani za linearnu procjenu, na primjer, Lasso, ali je manje naglaska stavljeno na odabir značajki za nelinearne funkcije. U ovom istraživanju predlažemo metodu za odabir značajki u problemima procjene nelinearnih funkcija velike dimenzije. .. Novi postupak se temelji na minimiziranju $ ell_0 $ norme vektora indikatorskih varijabli koje predstavljaju je li odabrana značajka ili ne. Naš pristup se oslanja na kontinuirano opuštanje Bernoullijevih distribucija, što omogućava našem modelu da nauči parametre približne Bernoullijeve distribucije putem spuštanja gradijentom. Ovaj opći okvir istovremeno minimizira funkciju gubitka uz odabir relevantnih značajki. Nadalje, pružamo informativno-teorijsko opravdanje uključivanja Bernoullijeve distribucije u naš pristup i pokazujemo potencijal tog pristupa u sintetskim i stvarnim aplikacijama. (Čitaj više)

18.1 Modeli s izborom ugrađenih značajki

Mnogi modeli kojima se može pristupiti pomoću funkcije karata vlaka proizvode jednadžbe predviđanja koje ne moraju nužno koristiti sve predviđatelje. Smatra se da ovi modeli imaju ugrađeni izbor značajki: ada, AdaBag, AdaBoost.M1, adaboost, bagEarth, bagEarthGCV, bagFDA, bagFDAGCV, bartMachine, blasso, BstLm, bstSm, C5.0, C5.0Cost, C5.0Rules, C5.0Tree, cforest, chaid, ctree, ctree2, cubist, deepboost, zemlja, enet, evtree, extraTrees, fda, ​​gamboost, gbm_h2o, gbm, gcvEarth, glmnet_h2o, glmnet, glmStepAIC, J48, JRrs, lass, laRrs LMT, LogitBoost, M5, M5Rules, msaenet, nodeHarvest, OneR, ordinalNet, ordinalRF, ORFlog, ORFpls, ORFridge, ORFsvm, pam, parRF, PART, penalized, PenalizedLDA, qrf, ranger, Rborist, rsso, rnf, rnf, rnf, rnf, rff, rff, rff, rff, rff, rff, rff, rff, rff, rf, rf rotacijaForest, rotacijaForestCp, rpart, rpart1SE, rpart2, rpartCost, rpartScore, rqlasso, rqnc, RRF, RRFglobal, sdwd, smda, sparseLDA, spikeslab, wsrf, xgbDART, xgbLinear, xgbTree Mnoge funkcije imaju pomoćnu metodu koja se naziva prediktori koji vraća vektor koji pokazuje koji su prediktori korišteni u konačnom modelu.

U mnogim će slučajevima upotreba ovih modela s ugrađenim odabirom značajki biti učinkovitija od algoritama u kojima je rutina pretraživanja pravih prediktora izvan modela. Ugrađeni izbor značajki obično spaja algoritam pretraživanja predviđanja s procjenom parametara i obično se optimizira s jednom ciljnom funkcijom (npr. Stope pogreške ili vjerojatnost).

18.2 Metode odabira značajki

Osim modela s ugrađenim izborom značajki, većina pristupa za smanjenje broja prediktora može se svrstati u dvije glavne kategorije. Koristeći terminologiju Johna, Kohavija i Pflegera (1994):

  • Omot metode ocjenjuju više modela koristeći postupke koji dodaju i / ili uklanjaju prediktore kako bi se pronašla optimalna kombinacija koja maksimizira performanse modela. U osnovi, metode omotavanja su algoritmi pretraživanja koji prediktori tretiraju kao ulaz i koriste performanse modela kao izlaz koji treba optimizirati. znak za umetanje ima metode omotanja temeljene na rekurzivnom uklanjanju značajki, genetskim algoritmima i simuliranom žarištu.
  • filtar metodama se ocjenjuje relevantnost prediktora izvan prediktivnih modela, a potom modeliraju samo prediktori koji prolaze neki kriterij. Na primjer, za probleme s klasifikacijom svaki bi se prediktor mogao pojedinačno ocjenjivati ​​kako bi se utvrdilo postoji li vjerojatna veza između njega i promatranih klasa. U klasifikacijski model tada bi bili uključeni samo prediktori s važnim odnosima. Saeys, Inza i Larranaga (2007) su filtriranje metoda filtriranja. znak za umetanje ima opći okvir za korištenje univarijantnih filtera.

Oba pristupa imaju prednosti i nedostatke. Metode filtriranja obično su računski učinkovite od metoda omota, ali kriterij odabira nije izravno povezan s učinkovitošću modela. Također, većina metoda filtriranja svaki prediktor procjenjuje zasebno i, prema tome, mogu se odabrati suvišni (tj. Visoko korelirani) prediktori, a važne interakcije između varijabli neće se moći kvantificirati. Loša strana metode omota je ta što se ocjenjuju mnogi modeli (što također može zahtijevati podešavanje parametara) i na taj način se povećava vrijeme računanja. Povećan je i rizik od prekomjernog uklapanja omota.

18.3 Vanjska provjera valjanosti

Važno je shvatiti da je odabir značajki dio procesa izrade modela i kao takav trebao biti izvana validiran. Kao što podešavanje parametara može rezultirati prekomjernim uklapanjem, odabir značajki može se preklapati s predviđanjima (posebno ako se koriste omoti za pretraživanje). U svakom od znak za umetanje Funkcije za odabir značajki, postupak odabira uključen je u sve petlje ponovnog oblikovanja. Vidjeti

Pogledajte Ambroise i McLachlan (2002) za demonstraciju ove problematike.