Po inštalácii prekladača jazyka R otvoríme terminál a spustíme prostredie príkazom R. Pre rozumnú prácu budeme potrebovať nejaké knižnice – na začiatok nainštalujeme:
> install.packages(“tidyverse”)
> install.packages(“readxl”)
> install.packages(“tidyr”)
Jazyk R obsahuje zopár tabuliek (data frames), ktoré nám poslúžia ako skúšobné údaje. Príkaz data() zobrazí tabuľky a data (mtcars) načíta tabuľku mtcars
> data()
> data (mtcars)
pridajme do mtcars vypočítaný stĺpec
> mtcars$sucin <- mtcars$mpg * mtcars$carb
Ak chceme načítať súbory, buď použijeme kompletnú cestu, alebo nastavíme pracovný adresár:
> getwd()
[1] “/home/dusan”
> setwd(“/home/dusan/r/test”)
Vytlačme si prvých 6 riadkov tabuľky mtcars
> head(mtcars,6)
Stiahnime si z webu nejaký súbor typu csv. Nájdeme si ho tak, že vyhľadávaču Google zadáme ako vyhľadávací riadok:
cars filetype:csv
jeden zo súborov stiahneme a presunieme do adresára test, povedzme, že sa volá cars-null.csv. Natiahneme si ho takto:
> mojeAuta <- read.csv(file=”/home/dusan/r/test/cars-null.csv”, header=TRUE, sep=”,”)
Aby sme natiahli súbor typu Excel, potrebujem najprv stiahnuť a nainštalovať knižnicu readxl, ako sme urobili vyššie a potom ju aktivovať. Buď si nájdeme súbor typu Excel pomocou Googlu alebo si ho vytvoríme v Exceli.
library(“readxl”)
skuskaExcel <- read_excel(“skuska.xlsx”,1, skip=3)
Najmenej práce s čistením (tidy po anglicky; to slovo budeme potrebovať) budeme mať, keď preskočíme všetky riadky so záhlavím tabuľky – napríklad v tomto prípade sme preskočili prvé tri riadky v Exceli a natiahli sme prvý hárok. Že sme uspeli sa dozvieme tak, že sa objavia údaje z nášho súboru vo výpise na konzole. Knižnica xlsx je dosť inteligentná a keď máme dobre pomenované stĺpčeky, tak mená natiahne. Ak nie, tak mená zmeníme príkazom
> colnames(skuskaExcel)[3:4] <- c(“Peter”, “Anton”)
V tomto prípade sa správne natiahli prvé dve mená stĺpčekov, ale tretie a štvrté sme museli zmeniť.