25 hauskaa kysymystä koneoppimishaastatteluun

Voivatko koneoppimishaastattelukysymykset olla hauskoja ja syviä samanaikaisesti?

Kuvalähde: https://xkcd.com/1838/

Monet tietotieteilijöistä opiskelevat koneoppimista (ML) enimmäkseen tietojenkäyttäjän näkökulmasta. Tämän seurauksena on mahdollista, että keskitymme oppimaan mahdollisimman monta uutta pakettia, kehystä, tekniikkaa ja keskitymme vähemmän perusteellisten teoreettisten näkökohtien syvälliseen tarkasteluun. Ja tässä määritelmäni koneoppimiselleni kattaa kaiken standardilaskennan (ts. Se ei ole vain syväoppiminen).

Koettelemalla ja mietittämällä jollain ponnisteluilla voidaan kuitenkin löytää niin monia ihania ML-kysymyksiä, jotka vastatessaan ja analysoidessaan voidaan paljastaa syvemmät näkökohdat kauniisti. Periaatteessa nämä kysymykset voivat auttaa meitä pääsemään päämme pois tästä yllä esitetystä kasasta. Emme vain halua sekoittaa tietojoukkoa koko päivän ajan, haluamme sukeltaa syvälle koneoppimistekniikoiden ominaisuuksiin, omituisuuksiin ja monimutkaisuuksiin ja omaksua ne…

Loppujen lopuksi Internetissä on runsaasti artikkelia “vakiohaastattelukysymyksistä koneoppimiseen”. Voimmeko tehdä vähän erilaisia ​​ja mielenkiintoisia?

Vastuuvapauslauseke: Lähetin vain kysymyksiä ajattelua ja kiihdyttää keskustelua. Valmiita vastauksia ei anneta. Joillakin kysymyksillä on vihje, mutta ne ovat todellakin enemmän keskustelua kuin lopullista vastausta. Jokainen kysymys on syytä keskustella yksityiskohtaisemmin. Ei ole asetettu vastausta. Jotkut kysymykset ovat harhautuneita, toiset ovat vain huvin vuoksi. Nauti vain :-) Käynnistystä varten minulla on hauska meme jokaisen viidennen kysymyksen jälkeen…

Hauskoja kysymyksiä

  • Rakensin lineaarisen regressiomallin, joka osoittaa 95%: n luottamusvälin. Tarkoittaako se, että on 95% mahdollisuus, että mallikertoimieni ovat todellisia arvioita toiminnosta, jota yritän lähentää? (Vihje: Se tarkoittaa tosiasiassa 95% ajasta ...)
  • Mikä on samankaltaisuus Hadoop-tiedostojärjestelmän ja k-lähimmän naapurin algoritmin välillä? (Vihje: ”laiska”)
  • Mikä rakenne on ekspressiivisyyden suhteen tehokkaampi (ts. Se voi edustaa tarkkaan annetun Boolean-funktion) - yksikerroksinen perceptron tai 2-kerrospäätöspuu? (Vihje: XOR)
  • Ja mikä on tehokkaampi - kaksikerroksinen päätöksentekopuu tai kaksikerroksinen hermoverkko ilman aktivointitoimintoa? (Vihje: epälineaarisuus?)
  • Voidaanko hermoverkkoa käyttää välineenä ulottuvuuden vähentämisessä? Selitä miten.
  • Jokainen malignoi ja torjuu sieppauksen termin lineaarisella regressiomallilla. Kerro minulle yksi sen apuohjelmista. (Vihje: melu / roskien kerääjä)
  • LASSO-säätö pienentää kertoimet tarkkaan nollaan. Ridge-regressio pienentää ne erittäin pieneksi, mutta ei-nolla-arvoksi. Voitko selittää eron intuitiivisesti kahden yksinkertaisen funktion | x | kuvaajista ja x²? (Vihje: Ne terävät kulmat | x | -kuvassa)
  • Oletetaan, että et tiedä mitään jakelusta, josta tietojoukko (jatkuvasti arvostetut numerot) tuli, ja sinua kielletään olettamasta, että se on normaalia Gaussialaista. Näytä yksinkertaisimmalla mahdollisella väitteellä, että todellisesta jakaumasta riippumatta voit taata, että ~ 89% tiedoista on +/- 3 standardipoikkeaman päässä keskiarvosta (Vihje: Markovin tohtorin neuvonantaja)
  • Suurimpaan osaan koneoppimisalgoritmeja liittyy jonkinlainen matriisikäsittely, kuten kertolasku tai inversio. Esitä yksinkertainen matemaattinen argumentti, miksi tällaisen ML-algoritmin mini-eräversio voi olla laskennallisesti tehokkaampi kuin täydellisen tietojoukon harjoittelu. (Vihje: Matriisin kertolaskun aikaominaisuudet ...)
  • Etkö ajattele, että aikasarja on todella yksinkertainen lineaarinen regressio-ongelma, jossa on vain yksi vastausmuuttuja ja yksi ennustaja - aika? Mikä on lineaarisen regression sopivuuden (ei välttämättä yhden lineaarisen termin, mutta jopa polynomisten astetermien) lähestymistavan ongelma aikasarjadatan tapauksessa? (Vihje: Menneisyys on indikaattori tulevaisuudelle ...)
  • Osoita yksinkertaisella matemaattisella perusteella, että optimaalisten päätöspuiden löytäminen luokitteluongelmaan kaikista mahdollisista puurakenteista voi olla eksponentiaalisesti vaikea ongelma. (Vihje: Kuinka monta puuta on viidakossa joka tapauksessa?)
  • Sekä päätöspuut että syvät hermoverkot ovat epälineaarista luokittelijaa, ts. Ne erottavat tilan monimutkaisella päätöksentekorajalla. Miksi sitten on niin paljon helpompaa seurata intuitiivisesti päätöksentekopuu mallia verrattuna syvään hermoverkkoon?
  • Takaisin leviäminen on syvän oppimisen työhevonen. Nimeä muutamia mahdollisia vaihtoehtoisia tekniikoita hermoverkon kouluttamiseksi käyttämättä takaisin etenemistä. (Vihje: Satunnainen haku ...)
  • Oletetaan, että sinulla on kaksi ongelmaa - lineaarinen regressio ja logistinen regressio (luokittelu). Kumpi niistä hyötyy todennäköisemmin äskettäin löydetystä erittäin nopeasta suuresta matriisikertolaskualgoritmista? Miksi? (Vihje: Kumpi käyttää todennäköisemmin matriisikäsittelyä?)
  • Mikä on ennustajien välisen korrelaation vaikutus pääkomponenttianalyysiin? Kuinka voit puuttua siihen?
  • Sinua pyydetään rakentamaan luokittelumalli meteoriittien vaikutuksista maan päälle (tärkeä projekti sivilisaatiolle). Alustavan analyysin jälkeen saat 99% tarkkuuden. Pitäisikö sinun olla onnellinen? Miksi ei? Mitä voit tehdä asialle? (Vihje: harvinainen tapahtuma…)
  • Onko mahdollista havaita korrelaatio jatkuvan ja kategorisen muuttujan välillä? Jos kyllä, miten?
  • Jos työskentelet geeniekspressiotietojen kanssa, ennustajamuuttujia on usein miljoonia ja vain satoja näytteitä. Esitä yksinkertainen matemaattinen argumentti, miksi tavallinen pienin neliö ei ole hyvä valinta tällaisessa tilanteessa, jos haluat rakentaa regressiomallin. (Vihje: Jotkut matriisialgebra…)
  • Selitä, miksi k-kertainen ristivalidointi ei toimi hyvin aikasarjamallin kanssa. Mitä voit tehdä asialle? (Vihje: Välitön menneisyys on tiukka tulevaisuuden osoitin ...)
  • Harjoitustietojoukon yksinkertainen satunnainen näytteenotto harjoitus- ja validointijoukkoon toimii hyvin regressio-ongelman ratkaisemiseksi. Mutta mikä voi mennä pieleen tämän lähestymistavan kanssa luokitteluongelmaan? Mitä siitä voidaan tehdä? (Vihje: Ovatko kaikki luokat yleisiä samassa asteessa?)
  • Mikä on sinulle tärkeämpää - mallin tarkkuus vai mallin suorituskyky?
  • Jos voisit hyödyntää useita CPU-ytimiä, mieluummin tehostetun puun algoritmi kuin satunnainen metsä? Miksi? (Vihje: jos sinulla on 10 kättä suorittaa tehtävä, käytät sitä hyväksi)
  • Kuvittele, että tietojoukosi tiedetään olevan lineaarisesti erotettavissa ja sinun on taattava algoritmisi konvergenssi ja enimmäiskerta iteraatioita / vaiheita (laskennallisista resurssista johtuen). Haluaisitko tässä tapauksessa valita kaltevuuslaskun? Mitä voit valita? (Vihje: Mikä yksinkertainen algoritmi takaa ratkaisun löytämisen?)
  • Oletetaan, että sinulla on erittäin pieni muisti / tallennustila. Millaista algoritmia haluat - logistinen regressio tai k-lähin naapuri? Miksi? (Vihje: Avaruuden monimutkaisuus)
  • Koneoppimallin rakentamiseksi sinulla oli alun perin 100 datapistettä ja 5 ominaisuutta. Vähentämään puolueellisuutta kaksinkertaistit ominaisuudet sisällyttämällä vielä viisi muuttujaa ja keräsi 100 lisäpistettä. Selitä onko tämä oikea lähestymistapa? (Vihje: Koneoppimisessa on kirous. Oletko kuullut siitä?)

Jos sinulla on jotain muuta hauskaa ML-kysymystä tai ideoita jaettavaksi, ota yhteyttä kirjoittajaan täällä. Hyviä kysymyksiä on vaikea tuottaa, ja ne herättävät uteliaisuutta ja pakottavat ajattelemaan syvästi. Kysyttämällä hauskaa ja mielenkiintoista kysymystä teet oppimiskokemuksesta nautinnollisen ja rikastuttavan samalla. Toivottavasti nautit tästä yrityksestä tehdä niin.