Kurzusok

Adatelemzés R-ben - Haladó

  • Banki, pénzügyi tanfolyamok
  • 2018. december 12. - 2019. április 17.

A KURZUS BEMUTATÁSA

A kurzus célja a manapság rendkívül divatos Data Science területen való elmélyülés az R programnyelv segítségével. Az órák keretében a résztvevők elméletileg megalapozott, ugyanakkor gyakorlatias szemléletű ismertetést kapnak az adatvizualizáció, a keresztmetszeti többváltozós statisztika, a gépi tanulás és a Big Data területeibe, különös tekintettel azok potenciális közgazdasági, banki és pénzügyi alkalmazásaira. Az alábbi témajavaslatok csupán egy ajánlott struktúrát tükröznek. A cél a megvalósítás során a lehető legnagyobb mértékben a résztvevők előképzettségéhez és munkahelyi igényeihez alkalmazkodni.

A TANANYAG TARTALMA


1. hét: Adatforrások, adattípusok, adattáblák, R alapok
Keresztmetszeti, idősoros és panel adatok. Strukturált és nemstrukturált adatok. Adatbázis-lekérdezések. Webscraping. R nyelv alapjai és grafikus felületei.

2. hét: Adatvizualizáció
Adatvizualizáció főbb alapelvei. A Grammar of Graphics, valamint a ggplot2 és Deducer kiegészítő csomagok. Egyváltozós ábrák. Kétváltozós kapcsolatvizsgálat vizuálisan (asszociáció, vegyes kapcsolat és korreláció).

3. hét: Haladó adatvizualizáció
Három- és többváltozós adatvizualizáció (mozaik, hőtérkép, színezett pontdiagram, buborékdiagram, pontdiagram-mátrix, korrgram, Chernoff-arcok, stb.). Térbeli koordináták ábrázolása (choropleth és egyéb térképek). Hálózati diagramok. Interaktív ábrák. Shiny applikációk.

4. hét: Döntési fák és véletlen erdők
Osztályozó és regressziós fák és alkalmazásaik a banki adósminősítés és csődelőrejelzés területén. CART algoritmus. Elágaztatás. Ensemble technikák. Véletlen erdő. Túlillesztés és keresztvalidáció.

5. hét: Osztályozás logit modellel
Osztályozó módszerek. Logit transzformáció. Becslés maximum likelihood elven. Az együtthatók értelmezése. Küszöbérték, első- és másodfajú hiba. Változószelekció. A modell jósága. Statisztika és gépi tanulás különbségei. Multinomiális és ordinális logit modellek.

6-7. hét: Lineáris regresszió és általánosításai I.
Regressziós módszerek. Becslés a legkisebb négyzetek módszerével. Az együtthatók értelmezése. A modell jósága. Változószelekció. A hibatagok vizsgálata. Nemlinearitás kezelése: keresztszorzatok, másodfokú tagok, spline függvények. Változószelekció ridge és LASSO módszerekkel. Általánosított lineáris modell.

8. hét: Klaszterelemzés
Profilképzés és csoportosítás. k-középpontú és hierarchikus klaszterezés. k-prototípus klaszterezés. Banki ügyfélkategorizálás.

9. hét: Főkomponenselemzés
A korrelációs mátrix és sajátértékei. A főkomponensek vizuális jelentése. Alkalmazás banki kamatlábakon. A főkomponensek interpretációja. Varimax rotáció.

10. hét: legközelebbi szomszéd és naiv bayes-i osztályozás
Osztályozás és regresszió egyszerű gépi tanulási módszerekkel. Interpretáció. Összevetés a hagyományos módszerekkel.

11-12. hét: Neurális hálók
A neurális hálók elvi megfontolásai, perceptronok szerepe, rejtett és nem rejtett hálózatok, tanítóval tanuló és nem tanítóval tanuló algoritmusok, összehasonlítás a hagyományos módszerekkel.

13. hét:Támaszvektor-gépek (SVM = Support Vector Machine)
Támaszvektor-gép fogalma. Lineáris, nemlineáris és soft margin SVMek. Magfüggvény (kernel) transzformáció.

14. hét: Szövegbányászat alapjai
Nemstrukturált adatok elemzése. Szózsák (bag-of-words) modell. Szótár felépítése és a szükséges transzformációk. Gyakoriságok elemzése. Asszociációk vizsgálata. Dokumentum-klaszterezés.

15-16. hét: Big Data alapjai
Big Data és a 3V (volume, velocity, variety). Osztott tárolás és feldolgozás. Hadoop és Spark. Big Data elemzés R-ben.



Jelentkezési határidő



Időpontok





További kurzusok a kategóriában