Data Science Workshops

negative

##
##
2 + 2
## [1] 4
# or
sum(2, 2)
## [1] 4
sqrt(10)
## [1] 3.162278
# or
10^(1/2)
## [1] 3.162278
# Go to the main help page by running 'help.start() or using the GUI
# menu, find and click on the link to "An Introduction to R".
# FunctionName(arg.1 = value.1, arg.2 = value.2, ..., arg.n = value.n)
round(x = 2.34, digits = 1) # match by name
## [1] 2.3
round(2.34, 1) # match by position
## [1] 2.3
round(1, 2.34) # be careful when matching by position!
## [1] 1
round(digits = 1, x = 2.34) # matching by name is safer!
## [1] 2.3
sqrt(10) # calculate square root of 10; result is not stored anywhere
## [1] 3.162278
x <- sqrt(10) # assign result to a variable named x
help(help)
?help
?sqrt
help(package = "stats")
# Load packages tidyverse and rmarkdown using library() function
library(tidyverse)
library(rmarkdown)
##
##
##
?read_csv
baby_names <- read_csv("babyNames.csv")
write_rds(baby_names, file = “babynames.rds”)
# Read in the baby names data if you haven't already
baby_names <- read_csv("babyNames.csv")
# Filter data, keeping "Alex" and "Mark" in year 1992, and
# assign to a new object "baby_names_alexmark" 
# Use logical operators to specify the filtering condition
baby_names_alexmark <- filter(baby_names, 
             Year == 1992 & (Name == "Alex" | Name == "Mark"))

print(baby_names_alexmark) # explicit printing
## # A tibble: 4 x 4
##   Name  Sex   Count  Year
##   <chr> <chr> <dbl> <dbl>
## 1 Alex  Girls   366  1992
## 2 Mark  Girls    20  1992
## 3 Mark  Boys   8743  1992
## 4 Alex  Boys   7348  1992
baby_names_alexmark # implicit printing
## # A tibble: 4 x 4
##   Name  Sex   Count  Year
##   <chr> <chr> <dbl> <dbl>
## 1 Alex  Girls   366  1992
## 2 Mark  Girls    20  1992
## 3 Mark  Boys   8743  1992
## 4 Alex  Boys   7348  1992
# Arrange the data by Count to see the most popular name first
arrange(baby_names_alexmark, Count)
## # A tibble: 4 x 4
##   Name  Sex   Count  Year
##   <chr> <chr> <dbl> <dbl>
## 1 Mark  Girls    20  1992
## 2 Alex  Girls   366  1992
## 3 Alex  Boys   7348  1992
## 4 Mark  Boys   8743  1992
# Arrange the data in descending order instead
arrange(baby_names_alexmark, desc(Count))
## # A tibble: 4 x 4
##   Name  Sex   Count  Year
##   <chr> <chr> <dbl> <dbl>
## 1 Mark  Boys   8743  1992
## 2 Alex  Boys   7348  1992
## 3 Alex  Girls   366  1992
## 4 Mark  Girls    20  1992
# Select columns Name and Count and assign to a new object "baby_names_subset"
baby_names_subset <- select(baby_names, Name, Count)

# Use head() to glance at the first few lines
head(baby_names_subset)
## # A tibble: 6 x 2
##   Name  Count
##   <chr> <dbl>
## 1 Mary  51474
## 2 Susan 39200
## 3 Linda 37314
## 4 Karen 36376
## 5 Donna 34133
## 6 Lisa  33702
head(baby_names_subset, n = 6) # default is n = 6
## # A tibble: 6 x 2
##   Name  Count
##   <chr> <dbl>
## 1 Mary  51474
## 2 Susan 39200
## 3 Linda 37314
## 4 Karen 36376
## 5 Donna 34133
## 6 Lisa  33702
# Create a vector of consecutive values between 1 and 10
x <- 1:10 # a vector
x
##  [1]  1  2  3  4  5  6  7  8  9 10
# Which elements of x are above 7
x > 7 # a simple condition
##  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE
# Which elements of x are above 7 or below 3
x > 7 | x < 3 # two conditions combined
##  [1]  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE
# x %in% vector
# elements of x matching numbers 1, 5, or 10 
x %in% c(1, 5, 10) 
##  [1]  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE  TRUE
# Count the number of elements of x above 7
x > 7
##  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE
sum(x > 7)
## [1] 3
##
##
##
baby_names_george <- filter(baby_names, Name == "George")
arrange(baby_names_george, desc(Count))
## # A tibble: 97 x 4
##    Name   Sex   Count  Year
##    <chr>  <chr> <dbl> <dbl>
##  1 George Boys  14063  1960
##  2 George Boys  13638  1961
##  3 George Boys  12553  1962
##  4 George Boys  12084  1963
##  5 George Boys  11793  1964
##  6 George Boys  10683  1965
##  7 George Boys   9942  1966
##  8 George Boys   9702  1967
##  9 George Boys   9388  1968
## 10 George Boys   9203  1969
## # … with 87 more rows
baby_names_boys_1999 <- filter(baby_names,
                               Year == 1999 & Sex == "Boys")
filter(baby_names_boys_1999, Count == max(Count))
## # A tibble: 1 x 4
##   Name  Sex   Count  Year
##   <chr> <chr> <dbl> <dbl>
## 1 Jacob Boys  35361  1999
# Filter data, keeping "Alex" and "Mark" in year 1992, and
# assign to a new object "baby_names_alexmark"
# Arrange the result in a descending order by Count

# unpiped version
baby_names_alexmark <- filter(baby_names, Year == 1992 & (Name == "Alex" | Name == "Mark"))
arrange(baby_names_alexmark, desc(Count))
## # A tibble: 4 x 4
##   Name  Sex   Count  Year
##   <chr> <chr> <dbl> <dbl>
## 1 Mark  Boys   8743  1992
## 2 Alex  Boys   7348  1992
## 3 Alex  Girls   366  1992
## 4 Mark  Girls    20  1992
# piped version
baby_names %>% 
  filter(Year == 1992 & (Name == "Alex" | Name == "Mark")) %>%
  arrange(desc(Count))
## # A tibble: 4 x 4
##   Name  Sex   Count  Year
##   <chr> <chr> <dbl> <dbl>
## 1 Mark  Boys   8743  1992
## 2 Alex  Boys   7348  1992
## 3 Alex  Girls   366  1992
## 4 Mark  Girls    20  1992
# unpiped version
filter(dataset, condition)

# piped version
dataset %>% filter(condition)

# what the pipe is doing
output_of_thing_on_left %>% becomes_input_of_thing_on_right
# Use filter to extract data for your name (or another name of your choice)
# Arrange the data by Count
# Use filter to extract data for your name (or another name of your choice)
# Arrange the data by Count
baby_names %>% 
    filter(Name == "George") %>%
    arrange(desc(Count))
## # A tibble: 97 x 4
##    Name   Sex   Count  Year
##    <chr>  <chr> <dbl> <dbl>
##  1 George Boys  14063  1960
##  2 George Boys  13638  1961
##  3 George Boys  12553  1962
##  4 George Boys  12084  1963
##  5 George Boys  11793  1964
##  6 George Boys  10683  1965
##  7 George Boys   9942  1966
##  8 George Boys   9702  1967
##  9 George Boys   9388  1968
## 10 George Boys   9203  1969
## # … with 87 more rows
# Filter data keeping rows for name "Diana" and 
# assign to a new object called "baby_names_diana"
baby_names_diana <- filter(baby_names, Name == "Diana")
# Use qplot() function to plot Counts (y) by Year (x)
qplot(x = Year, y = Count,
     data = baby_names_diana)
# Use qplot() function to plot Counts (y) by Year (x). 
# Split trends by Sex using color.
qplot(x = Year, y = Count, color = Sex,
      data = baby_names_diana)
##
##
##
##
baby_names_george <- filter(baby_names, Name == "George")
qplot(x = Year, y = Count, data = baby_names_george)
qplot(x = Year, y = Count, color = Sex, data = baby_names_george)
qplot(x = Year, y = Count, color = Sex, data = baby_names_george, geom = "line")
# Use piping to add a new column to the data, called Count_1k, 
# which rescales counts to thousands
baby_names <- baby_names %>% mutate(Count_1k = Count/1000)
head(baby_names) 
## # A tibble: 6 x 5
##   Name  Sex   Count  Year Count_1k
##   <chr> <chr> <dbl> <dbl>    <dbl>
## 1 Mary  Girls 51474  1960     51.5
## 2 Susan Girls 39200  1960     39.2
## 3 Linda Girls 37314  1960     37.3
## 4 Karen Girls 36376  1960     36.4
## 5 Donna Girls 34133  1960     34.1
## 6 Lisa  Girls 33702  1960     33.7
# Group baby_names by Year and Sex and rank Count_1k in descending order,
# within each group (calling the resulting new column "Rank"). 
# Remember to ungroup at the end!
baby_names <-
  baby_names %>%
  group_by(Year, Sex) %>%
  mutate(Rank = rank(desc(Count_1k))) %>%
  ungroup()

head(baby_names)
## # A tibble: 6 x 6
##   Name  Sex   Count  Year Count_1k  Rank
##   <chr> <chr> <dbl> <dbl>    <dbl> <dbl>
## 1 Mary  Girls 51474  1960     51.5     1
## 2 Susan Girls 39200  1960     39.2     2
## 3 Linda Girls 37314  1960     37.3     3
## 4 Karen Girls 36376  1960     36.4     4
## 5 Donna Girls 34133  1960     34.1     5
## 6 Lisa  Girls 33702  1960     33.7     6
# Use case_when() to recode the newly created Rank column into:
# low (<=10), high (>40), and medium (all others).
# Call the resulting column "Count_levels".
baby_names <-
  baby_names %>%
  mutate(Count_levels = case_when(
                                  Count_1k <= 10                  ~ "low",
                                  Count_1k  > 10 & Count_1k <= 40 ~ "medium",
                                  Count_1k  > 40                  ~ "high"
                                  ))

head(baby_names)                            
## # A tibble: 6 x 7
##   Name  Sex   Count  Year Count_1k  Rank Count_levels
##   <chr> <chr> <dbl> <dbl>    <dbl> <dbl> <chr>       
## 1 Mary  Girls 51474  1960     51.5     1 high        
## 2 Susan Girls 39200  1960     39.2     2 medium      
## 3 Linda Girls 37314  1960     37.3     3 medium      
## 4 Karen Girls 36376  1960     36.4     4 medium      
## 5 Donna Girls 34133  1960     34.1     5 medium      
## 6 Lisa  Girls 33702  1960     33.7     6 medium
##
##
##
##
##
baby_names <- 
  baby_names %>%
  group_by(Year, Sex) %>%
  mutate(Proportion = Count/sum(Count)) %>%
  ungroup()

head(baby_names) 
## # A tibble: 6 x 8
##   Name  Sex   Count  Year Count_1k  Rank Count_levels Proportion
##   <chr> <chr> <dbl> <dbl>    <dbl> <dbl> <chr>             <dbl>
## 1 Mary  Girls 51474  1960     51.5     1 high             0.0255
## 2 Susan Girls 39200  1960     39.2     2 medium           0.0194
## 3 Linda Girls 37314  1960     37.3     3 medium           0.0185
## 4 Karen Girls 36376  1960     36.4     4 medium           0.0180
## 5 Donna Girls 34133  1960     34.1     5 medium           0.0169
## 6 Lisa  Girls 33702  1960     33.7     6 medium           0.0167
baby_names <- 
  baby_names %>%
  group_by(Year, Sex) %>%
  mutate(Rank = rank(desc(Count))) %>%
  ungroup()

head(baby_names)
## # A tibble: 6 x 8
##   Name  Sex   Count  Year Count_1k  Rank Count_levels Proportion
##   <chr> <chr> <dbl> <dbl>    <dbl> <dbl> <chr>             <dbl>
## 1 Mary  Girls 51474  1960     51.5     1 high             0.0255
## 2 Susan Girls 39200  1960     39.2     2 medium           0.0194
## 3 Linda Girls 37314  1960     37.3     3 medium           0.0185
## 4 Karen Girls 36376  1960     36.4     4 medium           0.0180
## 5 Donna Girls 34133  1960     34.1     5 medium           0.0169
## 6 Lisa  Girls 33702  1960     33.7     6 medium           0.0167
top1 <- 
  baby_names %>%
  filter(Rank == 1) %>%
  select(Year, Name, Sex, Proportion)

head(top1)
## # A tibble: 6 x 4
##    Year Name    Sex   Proportion
##   <dbl> <chr>   <chr>      <dbl>
## 1  1960 Mary    Girls     0.0255
## 2  1960 David   Boys      0.0403
## 3  1961 Mary    Girls     0.0236
## 4  1961 Michael Boys      0.0409
## 5  1962 Lisa    Girls     0.0234
## 6  1962 Michael Boys      0.0411
qplot(x = Year, 
      y = Proportion, 
      color = Sex, 
      data = top1, 
      geom = "line")
girls_and_boys <- inner_join(filter(baby_names, Sex == "Boys"), 
                             filter(baby_names, Sex == "Girls"),
                             by = c("Year", "Name"))

girls_and_boys <- mutate(girls_and_boys,
                         Product = Count.x * Count.y,
                         Rank = rank(desc(Product)))

filter(girls_and_boys, Rank == 1)
## # A tibble: 1 x 16
##   Name  Sex.x Count.x  Year Count_1k.x Rank.x Count_levels.x Proportion.x Sex.y
##   <chr> <chr>   <dbl> <dbl>      <dbl>  <dbl> <chr>                 <dbl> <chr>
## 1 Tayl… Boys     7688  1993       7.69     51 low                 0.00392 Girls
## # … with 7 more variables: Count.y <dbl>, Count_1k.y <dbl>, Rank.y <dbl>,
## #   Count_levels.y <chr>, Proportion.y <dbl>, Product <dbl>, Rank <dbl>
# Use summarize() to output the total number of boy's and girl's names in the sample
baby_names %>% 
  summarize(Girls_n = sum(Sex=="Girls"),
            Boys_n = sum(Sex=="Boys"))
## # A tibble: 1 x 2
##   Girls_n Boys_n
##     <int>  <int>
## 1  641084 407491
# Group baby_names by Year and calculate the sum of Count 
# Call the resulting column "Total" 
# Assign the result to an object called "bn_by_year" and remember to ungroup!
bn_by_year <-
  baby_names %>%
  group_by(Year) %>%
  summarize(Total = sum(Count)) %>%
  ungroup()

head(bn_by_year)
## # A tibble: 6 x 2
##    Year   Total
##   <dbl>   <dbl>
## 1  1960 4154377
## 2  1961 4140244
## 3  1962 4035234
## 4  1963 3958791
## 5  1964 3887800
## 6  1965 3626029
##
##
##
most_popular <- 
  baby_names %>% 
  group_by(Year, Sex) %>%
  filter(Rank <= 10)

head(most_popular, n = 10)
## # A tibble: 10 x 8
## # Groups:   Year, Sex [1]
##    Name     Sex   Count  Year Count_1k  Rank Count_levels Proportion
##    <chr>    <chr> <dbl> <dbl>    <dbl> <dbl> <chr>             <dbl>
##  1 Mary     Girls 51474  1960     51.5     1 high             0.0255
##  2 Susan    Girls 39200  1960     39.2     2 medium           0.0194
##  3 Linda    Girls 37314  1960     37.3     3 medium           0.0185
##  4 Karen    Girls 36376  1960     36.4     4 medium           0.0180
##  5 Donna    Girls 34133  1960     34.1     5 medium           0.0169
##  6 Lisa     Girls 33702  1960     33.7     6 medium           0.0167
##  7 Patricia Girls 32102  1960     32.1     7 medium           0.0159
##  8 Debra    Girls 26737  1960     26.7     8 medium           0.0132
##  9 Cynthia  Girls 26725  1960     26.7     9 medium           0.0132
## 10 Deborah  Girls 25264  1960     25.3    10 medium           0.0125
top10 <- 
  most_popular %>% # it is already grouped by Year and Sex
  summarize(TotalProportion = sum(Proportion))
qplot(x = Year, 
      y = TotalProportion, 
      color = Sex,
      data = top10,
      geom = "line")
# write baby_names to a .csv file
write_csv(baby_names, "babyNames.csv")
# write baby_names to an R file
write_rds(baby_names, "babyNames.rds")
ls() # list objects in our workspace
# Use save() function from the `base` R package to record some objects
# into a file named "myDataFiles.RData"
save(baby_names_diana, bn_by_year, baby_names_subset, file="myDataFiles.RData")  
# Load the "myDataFiles.RData"
# load("myDataFiles.RData")

Editor / IDE	Features	Ease of use	Language support
RStudio	Excellent	Easy	R only
Jupyter Lab	Good	Easy	Excellent
VS code	Excellent	Easy	Very good
Atom	Good	Moderate	Good
Vim	Excellent	Hard	Good
Emacs	Excellent	Hard	Excellent

Data Type	Function
comma separated	`read_csv()`
tab separated	`read_delim()`
other delimited formats	`read_table()`
fixed width	`read_fwf()`

Operator	Meaning
`==`	equal to
`!=`	not equal to
`>`	greater than
`>=`	greater than or equal to
`<`	less than
`<=`	less than or equal to
`%in%`	contained in

R Introduction

Setup

Software and Materials

Class Structure

Prerequisites

Goals

R basics

What is R?

Why use R?

How does R work?

Interfaces

Text editors, IDEs, & Notebooks

Source code & literate programming

Launch a session

Exercise 0

Syntax rules

Function calls

Assignment

Asking for help

Reading data

Installing & using packages

The tidyverse

Readers for common file types

Baby names data

Exercise 1

Manipulating data

Filter, select, & arrange

Logical & relational operators

Exercise 2.1

Pipe operator

Exercise 2.2

Plotting data

Exercise 3

Creating variables

Create or modify columns

Operating by group

Recoding variables

Exercise 4

Aggregating variables

Exercise 5

Saving work

Saving individual datasets

Saving multiple datasets

Wrap-up

Feedback

Resources

The `tidyverse`