Jednoduché operácie v jazyku R

Po inštalácii prekladača jazyka R otvoríme terminál a spustíme prostredie príkazom R. Pre rozumnú prácu budeme potrebovať nejaké knižnice – na začiatok nainštalujeme:

> install.packages(“tidyverse”)
> install.packages(“readxl”)
> install.packages(“tidyr”)

Jazyk R obsahuje zopár tabuliek (data frames), ktoré nám poslúžia ako skúšobné údaje.  Príkaz data() zobrazí tabuľky a data (mtcars) načíta tabuľku mtcars

> data()

> data (mtcars)

pridajme do mtcars vypočítaný stĺpec

> mtcars$sucin <- mtcars$mpg * mtcars$carb

Ak chceme načítať súbory, buď použijeme kompletnú cestu, alebo nastavíme pracovný adresár:

> getwd()
[1] “/home/dusan”
> setwd(“/home/dusan/r/test”)

Vytlačme si prvých 6 riadkov tabuľky mtcars

> head(mtcars,6)

Stiahnime si z webu nejaký súbor typu csv. Nájdeme si ho tak, že vyhľadávaču Google zadáme ako vyhľadávací riadok:

cars filetype:csv

jeden zo súborov stiahneme a presunieme do adresára test, povedzme, že sa volá cars-null.csv. Natiahneme si ho takto:

> mojeAuta <- read.csv(file=”/home/dusan/r/test/cars-null.csv”, header=TRUE, sep=”,”)

Aby sme natiahli súbor typu Excel, potrebujem najprv stiahnuť a nainštalovať knižnicu readxl, ako sme urobili vyššie a potom ju aktivovať. Buď si nájdeme súbor typu Excel pomocou Googlu alebo si ho vytvoríme v Exceli.

library(“readxl”)

skuskaExcel <- read_excel(“skuska.xlsx”,1, skip=3)

Najmenej práce s čistením (tidy po anglicky; to slovo budeme potrebovať) budeme mať, keď preskočíme všetky riadky so záhlavím tabuľky – napríklad v tomto prípade sme preskočili prvé tri riadky v Exceli a natiahli sme prvý hárok. Že sme uspeli sa dozvieme tak, že sa objavia údaje z nášho súboru vo výpise na konzole. Knižnica xlsx je dosť inteligentná a keď máme dobre pomenované stĺpčeky, tak mená natiahne. Ak nie, tak mená zmeníme príkazom

> colnames(skuskaExcel)[3:4] <- c(“Peter”, “Anton”)

V tomto prípade sa správne natiahli prvé dve mená stĺpčekov, ale tretie a štvrté sme museli zmeniť.