19 octobre 2018

Introduction à ggplot

Le jeu de donnée

Harry <- Livres %>%  filter(Personnage == "Harry")
La syntaxe : Initialisation du graphe

Dans les aes on met les variables !

p <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep )) 

Les geom_

On peut ajouter sur notre graphe vide des "geom" qui sont des surcouches :

p +  geom_point()

p +  geom_point() + geom_line()

p +  geom_point() + geom_line() + geom_smooth(method ="lm") + geom_bar(stat = "identity")

Changer les couleurs ou les formes :

p <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep )) +
  geom_point(color = "orange", shape = 2) +
  geom_line(color = "firebrick")

Si on veut mettre une couleur en fonction d'une variable pour toutes les couches

p <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep,color = Livre )) +
  geom_point( shape = 2) +

Si on veut mettre une couleur en fonction d'une variable juste pour un type de graphe (une couche)

p <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep )) +
  geom_point(aes(color = Livre), shape = 2) +

Zoom sur le aes :

Toutes les variables doivent être dans un aes(), sinon il ne sait pas où la trouver et ne la considère pas comme une variable.

p <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep )) +
  geom_point(color = Livre, shape = 2) +
  geom_line(color = "firebrick")

Error in layer(data = data, mapping = mapping, stat = stat, geom = GeomPoint, : objet 'Livre' introuvable

p <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep )) +
  geom_point(color = Harry$Livre, shape = 2) +
  geom_line(color = "firebrick")

Error in grDevices::col2rgb(colour, TRUE) : nom de couleur 'philosophers_stone' incorrecte

p1 <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep )) + 
  geom_point(color = "blue")
p2 <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep, color = "blue")) + 
grid.arrange(p1, p2, ncol =2)

Choisir ses couleurs (formes ect..)

ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep,color = Livre )) +
  geom_point( shape = 2) +
  geom_line() + 
  scale_color_manual(values  = c("darkblue","darkorange","black",

ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep,color = Livre )) +
  geom_point( shape = 2) +
  geom_line() + scale_color_brewer(palette = "Dark2")

ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep,color = Livre )) +
  geom_point( shape = 2) +
  geom_line() + scale_color_viridis(discrete=TRUE)

Changer le nom des axis

p <- ggplot(data = Harry, aes(x = Num_chap, y = Nb_rep,color = Livre )) +
  geom_point( shape = 2) +
  geom_line() + scale_color_viridis(discrete=TRUE) + 
  xlab ("Numero de chapitre") +
  ylab("Nombre de 'Harry'")


Representer la répartition du nombre de répétions de Harry au sein des différents chapitres pour chaque livre.

Proposition de représentation

p2 <- ggplot(data = Harry, aes(x = Livre, y = Nb_rep))
p2 + geom_boxplot()

p2 <- ggplot(data = Harry, aes(x = Livre, y = Nb_rep))
p2 + geom_boxplot() + coord_flip()

p2 <- ggplot(data = Harry, aes(x = Livre, y = Nb_rep))
p2 + geom_violin() + coord_flip()

p2 <- ggplot(data = Harry, aes(x = Livre, y = Nb_rep))
p2 + geom_violin() + geom_point() + coord_flip()

Les points sont un peu les un sur les autres. Mais répartis un peu au hasard!

p2 <- ggplot(data = Harry, aes(x = Livre, y = Nb_rep))
p2 + geom_violin() + geom_jitter() + coord_flip()

Les points sont un peu les uns sur les autres, et répartis selon leur distribution (mieux !).

p2 <- ggplot(data = Harry, aes(x = Livre, y = Nb_rep))
p2 + geom_violin() + geom_beeswarm() + coord_flip()

p2 <- p2 + geom_violin() + geom_beeswarm() + coord_flip()

Exercice 2

On veut comparer visuellement l'évolution du nombre de réplicats de Harry (par chapitre) dans chacun des livres.
Pour cela on propose de mettre :

* En ordonnée le nombre de réplicat de Harry
* En abscisse le numéro du chapitre 
* En couleur le livre
* Représenter un point par livre et par chapitre 
* Relier les points de chaque livre ensemble 

ggplot(Harry, aes(x = Chap, y = Nb_rep, color = Livre)) + geom_point() + geom_line()

Les facets

On propose donc d'utiliser les facets :

ggplot(Harry, aes(x = Chap, y = Nb_rep, color = Livre)) +geom_point() + geom_line() + 
  facet_wrap(~Livre, ncol = 4) + theme(legend.position ="none")

Les facets

On ne veut pas forcement aller jusqu'à 30 chapitres pour tout le monde

ggplot(Harry, aes(x = Chap, y = Nb_rep, color = Livre)) +
  geom_point() +geom_line() + 
  facet_wrap(~Livre, scale ="free", ncol = 4) +
  theme(legend.position ="none")

Mais pour pouvoir comparer on aimerait le même axe des ordonnées

ggplot(Harry, aes(x = Chap, y = Nb_rep, color = Livre)) +
  geom_point() +
  geom_line()  +
  facet_wrap(~Livre, scale ="free_x", ncol = 4) +
  theme(legend.position ="none")

Si on veut changer les titres des facets

En utilisant des expression :

Harry$Livre_num <- factor(Harry$Livre, labels = paste("beta[",1:7,"]"))
ggplot(Harry, aes(x = Chap, y = Nb_rep, color = Livre_num)) +
  geom_point() +
  geom_line()  +
  facet_wrap(~Livre_num, scale ="free_x", 
             labeller = label_parsed , ncol=4) +
  theme(legend.position ="none")

Les facet grid

On peut aussi vouloir voir en fonction de 2 variables qualitatives :

HRH <- Livres %>% filter(Personnage  %in% c("Harry", "Ron", "Hermione"))
ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Livre)) +
  geom_point() +
  geom_line()  +
  facet_grid(Personnage~Livre, scale ="free", labeller = label_parsed) +
  theme(legend.position ="none")

Les thèmes : l'aspect general

Les thèmes prédéfinis :

p + theme_bw()

p + theme_classic()

p + theme_minimal()

p + theme_minimal()

p <- p + theme_minimal()

  • le texte (des abscisses, de la legende, du titre..) element_text(font = "bold" , size = 12 ,..)

  • les "rectanges" (le fond du graphe, le fond de la legende)
    element_rect(fill = "orange", color =" black")

  • Les lignes (des abscisses, du tour de la légende..) element_line(color = "blue" , linetype = 3, …)

p + theme( text = element_text(face = "bold", 
                               size = 12))

p + theme( axis.text = element_text(face = "bold", 
                                    size = 12))

p + theme( axis.text.x = element_text(face = "bold", 
                                      size = 12))

 p + theme( text = element_text(color =" white"),
            axis.text.x = element_text(color = "red"), 
            legend.background = element_rect(fill= "lightblue"), 
            plot.background = element_rect(fill="black"),
            axis.line = element_line(linetype = 3,
                                     colour = "blue"))

Choix du thème pour le reste de la présentation


Choix de la palettte de couleurs pour le reste de la présentation :

scale_colour_discrete <- function(...) scale_color_brewer(palette="Dark2")

Exercice :

Pour la suite de notre présentation on veut un thème avec :

  • Un fond vert clair (darkseagreen1)
  • Le fond de la légende dans le même ton mais en un peu plus foncé ( darkseagrenn2 )
  • Le text dans le même ton mais en encore plus foncé ( darkseagrenn3 )
  • Le titre en gras
  • Les lignes des abscisse en flèche pointillé
  • Que la couleur de vos graphes soit visible de tous par default
  • Que le 'remplisaage' de vos graphes soit visible de tous par défault

theme_set(theme_minimal() +
            theme( text = element_text(color =" gray50", face="bold"),
                   legend.background = element_rect(fill= "mintcream"),
                   axis.line = element_line(linetype = 3,
                                            colour = "darkblue"),
          strip.background = element_rect(fill = "mintcream", color ="black")))
scale_colour_discrete <- function(...) scale_color_hp(discrete = TRUE, house = "Ravenclaw")
scale_colour_continuous <- function(...) scale_color_hp( house = "Ravenclaw")
scale_fill_discrete <- function(...) scale_fill_hp(discrete = TRUE, house = "Ravenclaw")
scale_fill_continuous <- function(...) scale_fill_hp( house = "Ravenclaw")

Introduction à gganimate

Parce que c'est rigolo les graphes qui bougent!


C'est très facile : il suffit d'avoir dans notre jeu de donné une colonne état (continue ou non).
Le premier graphe sera produit avec les données de l'état 1 puis il bougera doucement vers les données de l'état 2 ect.

Différent "Arguments"

  • Transition
  • Shadow
  • Ease_aes

Premier exemple : Transition linéaire

p <- Livres %>% filter( Livre == "philosophers_stone" & Personnage %in% c("Harry", "Ron", "Hermione")) %>% 
  mutate( Chap =as.integer(Chap)) %>% 
  ggplot( aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) + geom_line()

Premier exemple : Transition linéaire

p <- Livres %>% filter( Livre == "philosophers_stone" & Personnage %in% c("Harry", "Ron", "Hermione")) %>% 
  mutate( Chap =as.integer(Chap)) %>% 
  ggplot( aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) + geom_line()+
animate(p, heigh = 300, width = 600)

p <- Livres %>% filter( Livre == "philosophers_stone" & Personnage %in% c("Harry", "Ron", "Hermione")) %>% 
  mutate( Chap =as.integer(Chap)) %>% 
  ggplot( aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) + geom_line()+
  transition_time(Chap) + shadow_wake(wake_length =0.15, wrap =FALSE) +
animate(p, heigh = 300, width = 600)

Les différentes shadow

HRH <- Livres %>% filter( Livre == "philosophers_stone" & Personnage %in% c("Harry", "Ron", "Hermione")) %>% 
  mutate( Chap =as.integer(Chap)) 
p0 <- ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) + geom_line()+
  transition_time(Chap) + shadow_null() +
  labs(title = "shadow_null", subtitle = 'Chap : {frame_time}')
p1 <- ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) + geom_line()+
  transition_time(Chap) + shadow_wake(wake_length =0.15, wrap =FALSE) +
  labs(title = "shadow_wake", subtitle = 'Chap : {frame_time}')
p2 <-  ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) + geom_line()+
  transition_time(Chap) + shadow_mark() +
  labs(title = "shadow_mark", subtitle = 'Chap : {frame_time}')
p3 <-  ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) + geom_line()+
  transition_time(Chap) + shadow_trail() +
  labs(title = "shadow_trail", subtitle = 'Chap : {frame_time}')

animate(p0, heigh = 300, width = 600)

animate(p1, heigh = 300, width = 600)

animate(p2, heigh = 300, width = 600)

animate(p3, heigh = 300, width = 600)

Les différentes transitions

Transition Reveal

transition_reveal: permet de garder en mémoire là ou il était avant. Fait passer les points par le chemin exact (pas comme dans shadow_mark()).

pr <-ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) + geom_point(size  =4) +
  transition_reveal(Personnage, Chap)   + geom_line() +
  ease_aes("linear") + labs(title = "transition_reveal", subtitle = 'Chap : {frame_along}')

animate(pr, heigh = 300, width = 600)

Transition States

Si on veut faire des pauses au différents états et ne pas voir ça comme un continuum :

ps <-ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) +geom_point(size  =4) +
  transition_states(Chap, transition_length = 1, state_length = 2)   + 
  labs(title = "transition_states", subtitle = 'Chap : {closest_state}') + shadow_mark()  + 

animate(ps, heigh = 300, width = 600)

Transition Layers

pl <-ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage, label = Chap)) +
  geom_point(size  =4) +
  geom_line() +  geom_text_repel() +
  transition_layers(layer_length = 1, transition_length = 1)   + 
  labs(title = "transition_layers", subtitle = 'Layers: {closest_layer}') 
animate(pl, heigh = 300, width = 600)

Transition Manual

Si on veut faire des pauses au différents états et ne pas voir ça comme un continuum :

pm <-ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) +geom_point(size  =4) +
  transition_manual( Chap)   + geom_line() +
  ease_aes("linear") + labs(title = "transition_manual", subtitle = 'Chap : {current_frame}')

animate(pm, heigh = 300, width = 600)

Transition Filter

pm <-ggplot(HRH, aes(x = Chap, y = Nb_rep, color = Personnage)) +geom_point(size  =4) +
  transition_filter(Personnage == "Harry", Personnage =="Ron", 
                    Personnage =="Hermionne",
                    transition_length = 1, filter_length = 1)   + geom_line() +
  ease_aes("linear") + labs(title = "transition_filter", subtitle = ' {closest_filter}')

animate(pm, heigh = 300, width = 600)


Pour l'interpolation entre les états (temps ou autre)

p3<- Harry %>%  
ggplot( aes(x = Chap, y = Nb_rep)) + geom_point() +
  transition_states(Livre, transition_length = 2, state_length = 1) +
  labs(title = 'Livre: {closest_state}', x = 'Numero Chaitre', y = "Number of replicats") +
animate(p3, heigh = 300, width = 600)


Pour l'interpolation entre les états (temps ou autre)

p4 <- Harry %>%  
ggplot( aes(x = Chap, y = Nb_rep)) + geom_point() +
  transition_states(Livre, transition_length = 2, state_length = 1) +
  labs(title = 'Livre: {closest_state}', x = 'Numero Chaitre', y = "Number of replicats") + 
animate(p4, heigh = 300, width = 600)


Pour l'interpolation entre les états (temps ou autre)

p4 <- Harry %>%  
ggplot( aes(x = Chap, y = Nb_rep)) + geom_point() +
  transition_states(Livre, transition_length = 2, state_length = 1) +
  labs(title = 'Livre: {closest_state}', x = 'Numero Chaitre', y = "Number of replicats") + 
animate(p4, heigh = 300, width = 600)


p1 <- Livres %>%  mutate( Chap =as.integer(Chap)) %>% spread(Personnage, Nb_rep) %>% 
  ggplot( aes(x = Ron, y = Hermione, color = Livre)) +geom_point() +
  transition_time(Chap) + shadow_wake(wake_length =0.15, wrap =FALSE) +                 
  labs(title = 'Chapitre: {frame_time}', x = 'Numero Chaitre', y = "Number of replicats")
animate(p1, heigh = 300, width = 600)


p2 <- Harry %>%  
ggplot( aes(x = Chap, y = Nb_rep)) +geom_point() +
  transition_states(Livre, transition_length = 1, state_length = 3) +
  labs(title = 'Livre: {closest_state}', x = 'Numero Chaitre', y = "Number of replicats")

animate(p2, heigh = 300, width = 600)

Exemple using Rhabit Package

p <- ggplot(tr_m, aes(x,y)) +
  geom_raster(data= Base,aes(fill = val)) +
  coord_equal() + scale_fill_viridis(name = "Estimation") +
  geom_point( size=3,color = rgb(0.2,0.2,0.2,0.1)) +
  transition_time(Temps)+  labs(title ='Temps : {frame_time}')
animate(p, heigh = 400, width = 400)

Exercice :

p <- Livres %>% filter(Personnage %in% c("Harry", "Ron", "Hermione")) %>%  mutate(Livre2 = as.numeric(Livre)) %>% 
ggplot( aes( x = Nb_rep, color = Personnage, fill= Personnage)) +
  geom_density()+transition_states(Livre, transition_length = 1, state_length = 1, wrap = FALSE) +
  labs(title = 'Livre: {closest_state}', x = 'Numero Chapitre', y = "Number of replicats") 
animate(p, heigh = 300, width = 600)

Faire des densités qui bougent :)

Faire des densités qui bougent :)

p <- Livres %>% filter(Personnage %in% c("Harry", "Ron", "Hermione","Bellatrix", "Voldemort")) %>% 
  mutate(Livre2 = as.numeric(Livre)) %>% 
ggplot( aes( x = Nb_rep, color = Personnage, fill= Personnage)) +
  geom_density()+transition_time(Livre2) +
  labs(title = 'Livre: {frame_time}', x = 'Numero Chaitre', y = "Number of replicats") +
  facet_wrap(~Personnage, scale ="free")
animate(p, heigh = 300, width = 600)

Réseaux avec ggplot : Vue d'ensemble

ggraph + tidygraph

Galerie 1

Galerie 2

Galerie 3

Le but aujourd'hui

Savoir utiliser ggraph+tidygraph pour représenter des réseaux (type "boule de noeuds")

Prise en main

Données Harry Potter

Deux frames : characters et relations

## 6      1     21    +

Premier pas en tidygraph

Attention à l'ordre de la première colonne

Graph minimal en ggraph

ggraph()+geom_*, deux lignes avec de nouveaux geom :

  • edges : link, arc, elbow, density, diagonal, hive
  • nodes : point, arc_bar, circle, tile, treemap
  geom_edge_link(aes(color=type)) +  


ggraph propose les layouts de igraph

ggraph_layouts <- c('linear','star', 'circle', 'gem', 'dh', 'graphopt','grid','mds',
                    'randomly','fr','kk', 'drl', 'lgl')

Exemple :

ggraph(data, layout="kk")+



Comment reproduire cette figure ?


set_graph_style() #fixe un thème dédié aux réseaux

p1<-ggraph(hp, layout="kk", maxiter = 100)+
  geom_edge_link(aes(color=type,alpha=..index..), show.legend=FALSE) +  
  geom_edge_link(aes(color=type,alpha=..index..), show.legend=FALSE) +  
  geom_edge_arc(aes(color=type,alpha=..index..), show.legend=FALSE) +  
  geom_edge_arc(aes(color=type,alpha=..index..), show.legend=FALSE) +  


Mosaïque facilitée

  geom_edge_link(aes(color=type)) +  

Vaincre la malédiction de la "boule de noeuds"

  • voisinnage d'un noeud
  • tailles proportionnelles à certaines mesures
  • filtrage d'arêtes/ de noeuds
  • mosaïque selon une variable

\(\Rightarrow\) Rendre le réseau lisible avec des commandes simples de ggraph x tidygraph

Travailler les données : tidygraph()

  • Travailler sur les arêtes ou les noeuds avec le verbe activate()
  • Repérer un voisinnage avec edge_is_incident() (7 autres booléens codés)
  • Mesure d'importance des noeuds : centrality_*() (32 codés)

Création de neib, importance, et house

HPData<-hp %>% 
  activate(edges) %>%
  mutate(neib=edge_is_incident(id)) %>%  
  activate(nodes) %>% 
  mutate(importance = centrality_degree(), house=characters$House)

Le réseau

p<-ggraph(HPData,layout="linear",circular=TRUE) + 
  geom_node_point(aes(size=importance, color=importance),show.legend=FALSE)


p<-p +  scale_edge_colour_manual(values=c("black","deepskyblue3"))


p + geom_edge_arc(aes(color=type, filter=neib)) 

Comment reproduire cette figure ?



ggraph(HPData,layout="star",center=id,order=order) + 
  geom_edge_link(aes(color=type,filter=neib)) +  
  geom_node_point(aes(color=house,size = importance)) +
  geom_node_text(aes(label = name), nudge_y = 0.1) +

layout="linear", alpha=..index..

Illustration sur données écologiques simulées

Selection d'arêtes

  • Situation type : données d'abondance continues, on souhaite retrouver le réseau d'interaction des espèces.

  • Modèles Graphiques Gaussiens : les entrées non-nulles de la matrice de précision donne les arêtes du graph.

\(\Rightarrow\) On estime \(\Omega\) avec parcimonie (ex: glasso)

Un graphe scale-free

Les voisins de 1 selon le seuil

Coups de pouces

But : facet avec les graphs correspondants aux troncatures des quantiles 10%, 25%, 50% et 91%.

  • Deux niveaux de difficultés : estim_tidy (facile) et estim_brut (plus dur)
  • Indice : ce n'est pas un filtrage…
  • Attention à l'ordre de la première colonne pour as_tbl_graph()
  • Pour comparer avec l'original : récupérer les coordonnées d'un create_layout()

Solution niveau 1

Le plus dur : conserver les mêmes positions de points que l'original.

dat <- original_graph  %>%  as_tbl_graph() 

Ajouter les coordonnées aux noeuds

data_avec_coord<- estim_tidy %>%  
  as_tbl_graph() %>% 
  activate(nodes) %>% 
  mutate(x=original_Layout$x,y=original_Layout$y) %>% 
  activate(edges) %>%
  mutate(neib =as.factor( 1*edge_is_incident(id)), 

Finalement :

  geom_edge_link(aes(colour=neib, alpha=neib),show.legend=FALSE)+
  geom_node_text(aes(label = name),nudge_x = 0.2,nudge_y = 0.2)+
  th_foreground(foreground = 'antiquewhite', border = TRUE)

Niveau 2 : transformation des données

Une solution avec tibble(), map(), gather, unnest() et filter() :


fun <- tibble(P = list(df), seuil =quant )  %>% 
  mutate(P = map(P,~rownames_to_column(.) %>% 
                   gather(key, value , -rowname))) %>% 
  unnest() %>% 
  mutate(value = ifelse(abs(value) > seuil ,1,0)) %>% 
  filter(value !=0)


Pour un gradient de seuil plus important

En clair

les packages ggraphet tidygraph

  • data.frames pour les noeuds et les arêtes : faciles d'ajouter, de modifier, de calculer des statistiques du graph
  • fluide grâce aux pipes
  • grammaire ggplot : un investissement avantageux !
  • Large spectre de possibilités
  • Par un data imaginist jeune, dynamique et motivé (et modeste)

  • Packages assez jeunes
  • D'autres packages existent ggdendro, ggtree, ggnetwork, geomnet, GGally, plus spécialisés. Mais avec autant de grammaires différentes…

ggraph et tidygraph : une combinaison généraliste qui a de l'avenir !

Graphes en pagaille

Joli graphique facile

Comparaison de moyennes :

HRH <- Livres %>% filter(Personnage  %in% c("Harry", "Ron", "Hermione"))
p <- ggplot(data = HRH, aes(x = Personnage, y = Nb_rep) ) + geom_boxplot()

Comparaison de moyennes :

p <- ggplot(data = HRH, aes(x = Personnage, y = Nb_rep) ) + geom_boxplot()
p + stat_compare_means()

Comparaison de moyennes :

my_comparisons <- list( c("Harry", "Ron"), c("Harry", "Hermione"), c("Hermione", "Ron") )
p <- ggplot(data = HRH, aes(x = Personnage, y = Nb_rep))  + geom_boxplot()  
p + stat_compare_means(aes(label = ..p.signif..),
                  method = "t.test",  comparison = my_comparisons) 

Comparaison de moyennes :

p <- ggboxplot(HRH, x = "Personnage", y = "Nb_rep",
                color = "Personnage", palette =c("#00AFBB", "#E7B800", "#FC4E07"),
                add = "jitter", shape = "Personnage", legend = "bottom")
 p + stat_compare_means(comparisons =  my_comparisons)

Comparaison de moyennes :

ggplot(data = HRH, aes(x = Personnage,  y = Nb_rep)) +
  stat_compare_means(aes(label = ..p.signif..),
                     method = "t.test", comparison = my_comparisons)  + 
  geom_boxplot(aes(color = Personnage)) + geom_beeswarm(aes(color = Personnage)) + 
  scale_color_manual(values = c("#00AFBB",  "#E7B800", "#FC4E07"))

Comparaison de moyennes :

On peut rajouter des arguments aux tests:

p + stat_compare_means(aes(label = ..p.signif..),
                  method = "t.test",method.args =  list(alternative = "greater"),
                  comparison = my_comparisons, paired = FALSE) 

On peut le faire bouger mais sans les p-values :(

p1 <- p + transition_states(Livre, state_length =  3, transition_length = 1 ) + 
  labs(title ='Livre : {closest_state}')
animate(p1, width= 800, height =  500)

Des jolis barplots

Par_livre <- HRH %>% group_by(Livre, Personnage) %>% summarise(Nb_rep= sum(Nb_rep)) %>% 
  mutate(Perso = paste(Personnage, as.numeric(Livre)))
ggbarplot(Par_livre, x = "Perso", y = "Nb_rep",
          fill = "Livre",    color = "white", palette = "Dark2",  
          sort.val = "desc", sort.by.groups = FALSE, x.text.angle = 90 )

Des jolis barplots

Par_livre <- HRH %>% group_by(Livre, Personnage) %>% summarise(Nb_rep= sum(Nb_rep)) %>% 
  mutate(Perso = paste(Personnage, as.numeric(Livre)))
ggbarplot(Par_livre, x = "Perso", y = "Nb_rep",
          fill = "Livre", color = "white",           
          palette = "Dark2",  sort.val = "desc", sort.by.groups = TRUE, x.text.angle = 90 )

Des jolis barplots

Par_livre <- HRH %>% group_by(Livre, Personnage) %>% summarise(Nb_rep= sum(Nb_rep)) %>% 
  mutate(Perso = paste(Personnage, as.numeric(Livre)))
p1 <- ggbarplot(Par_livre, x = "Perso", y = "Nb_rep",
          fill = "Livre", color = "white",  palette = "Dark2",
          sort.val = "desc", group = "Livre", sort.by.groups = TRUE,  x.text.angle = 90)

Des jolis barplots


Des lolipop plots

p2 <- ggdotchart(Par_livre, x = "Perso", y = "Nb_rep",
          color = "Livre", palette = "Dark2", sorting = "descending", add = "segments", 
           rotate = TRUE, group = "Personnage", dot.size = 6, label = round(as.numeric(Par_livre$Livre)), 
           font.label = list(color = "white", size = 9, vjust = 0.5), legend =" none",
           ggtheme = theme_pubr()           

Des jolis Lolipop plot


Plots de densité sur le coté :

Data <- Livres %>% spread(Personnage, Nb_rep)
pmain <- ggplot(Data, aes(x = Harry, y = Ginny, color = Livre, fill =Livre  )) + geom_point() + theme(legend.position = "bottom") 
ggMarginal(pmain, type = "density")

Plots de densité sur le coté :


xdens <- axis_canvas(pmain, axis = "x")+
  geom_density(data = Data, aes(x = Harry, fill = Livre),
              alpha = 0.7, size = 0.2)   + scale_fill_hp(discrete = TRUE, house = "Ravenclaw")

ydens <- axis_canvas(pmain, axis = "y", coord_flip = TRUE)+
  geom_density(data = Data, aes(x = Ginny, fill = Livre),
                alpha = 0.7, size = 0.2)   + scale_fill_hp(discrete = TRUE, house = "Ravenclaw")
p1 <- insert_xaxis_grob(pmain, xdens, grid::unit(.2, "null"), position = "top")
p2<- insert_yaxis_grob(p1, ydens, grid::unit(.2, "null"), position = "right")

Plots de densité sur le coté :

ggdraw( p2 )

Exercice :

Si on veut représenter des histogramme ?
Des boxplots ?

Pour des histogrammes

xdens <- axis_canvas(pmain, axis = "x")+
  geom_histogram(data = Data, aes(x = Harry, fill = Livre),
              alpha = 0.7, size = 0.2)  + scale_fill_hp(discrete = TRUE, house = "Ravenclaw")
ydens <- axis_canvas(pmain, axis = "y", coord_flip = TRUE)+
  geom_histogram(data = Data, aes(x = Ginny, fill = Livre),
                alpha = 0.7, size = 0.2)+
  coord_flip()  + scale_fill_hp(discrete = TRUE, house = "Ravenclaw")
p1 <- insert_xaxis_grob(pmain, xdens, grid::unit(.2, "null"), position = "top")
p2<- insert_yaxis_grob(p1, ydens, grid::unit(.2, "null"), position = "right")

Pour des histogrammes

ggdraw( p2 )

Pour des boxplots


# Marginal densities along x axis
xdens <- axis_canvas(pmain, axis = "x", coord_flip = TRUE)+
  geom_boxplot(data = Data, aes(y = Harry, fill = Livre)) + coord_flip() + 
  scale_fill_hp(discrete = TRUE, house = "Ravenclaw")
# Marginal densities along y axis
# Need to set coord_flip = TRUE, if you plan to use coord_flip()
ydens <- axis_canvas(pmain, axis = "y")+
  geom_boxplot(data = Data, aes(y = Ginny, fill = Livre))  +
  scale_fill_hp(discrete = TRUE, house = "Ravenclaw")
p1 <- insert_xaxis_grob(pmain, xdens, grid::unit(.2, "null"), position = "top")
p2<- insert_yaxis_grob(p1, ydens, grid::unit(.2, "null"), position = "right")

Pour des boxplots


Package `ggridges

Visualiser des densités séparément


  • Avec le geom_density_ridges
  • Astuce pour réordonner l'axe des y : scale_y_discrete

HP<-Livres %>% filter(Personnage %in% set)

geom_density_ridges(alpha = 0.7)+
scale_y_discrete(limits = set)+
theme(axis.text.y = element_text(size=13))
p <- p + scale_fill_hp(discrete=TRUE, house = "Gryffindor")

On peut animer !

p + labs(title='Livre : {closest_state}')+
transition_states(as.numeric(Livre), transition_length = 2, state_length = 1)

GGpairs :

On créer notre base de données :

mot <- c("dead", "love", "laugh", "book")
perso <- c("Harry", "Ron", "Ginny", "Hermione", "Voldemort")

Data <- Livres %>% filter(as.numeric(Livre) %in% c(1,3,6)) %>%
  spread(Personnage, Nb_rep) %>% select(c(mot, perso, Livre))  %>% 
  mutate_at(vars(mot), funs(ifelse(. !=0, "Present", "Absent")))

On étudies les Noms entre eux

ggpairs(Data, perso, title = "Croisement du nombre d'expression des prénoms")

On étudies les Noms entre eux

ggpairs(Data, perso, title = "Croisement du nombre d'expression des prénoms ", mapping = aes(color = Livre))

On compare les mots et les personnage :

ggduo(Data,  mot, perso,
      title = "Croisement du nombre d'expression des prénoms et de la présence de mot") 

Regression linéaire univariée :

Data %>%  ggplot(aes(x = Ron, y = Hermione)) + geom_point()

Data %>%  ggplot(aes(x = Ron, y = Hermione)) + geom_point() +

Data %>%  ggplot(aes(x = Ron, y = Hermione)) + geom_point() +
  stat_cor() +
     stat_poly_eq(label.y = 75,
    aes(label =  paste(..eq.label.., ..adj.rr.label.., sep = "~~~~")),
     parse = TRUE, formula = y~x

Les plot "à la plot.lm"

# Compute a linear model
m <- lm(Ron  ~ Hermione, data = Data)
# Create the plot
autoplot(m, which = 1:4, label.size = 2, data = Data,colour = "Livre") +
  theme(legend.position = "none")


Si on veut faire une correlation par Livre?


Si on veut faire une correlation par Livre ?

Data %>%  ggplot(aes(x = Ron, y = Hermione, color = Livre)) + geom_point() +

Data %>% 
  ggplot(aes(x = Ron, y = Hermione, color = Livre)) + geom_point() +
  geom_smooth(method="lm") +
    aes(label =  paste(..eq.label.., ..adj.rr.label.., sep = "~~~~")),
     parse = TRUE, formula = y~x

formula <- y ~ poly(x, 3, raw = TRUE)
Data %>% 
  ggplot(aes(x = Ron, y = Hermione, color = Livre)) + geom_point() +
  geom_smooth(formula = formula, method ="lm") +
    aes(label =  paste(..eq.label.., ..adj.rr.label.., sep = "~~~~")),
     parse = TRUE, formula = formula

Regression linéaire Multivariée

On veut expliquer Harry en fonction de Ginny, Ron, Choe, Cedric et du livre dans lequel on est.

Data <- Livres  %>% spread(Personnage, Nb_rep)
mod <-lm(darkness~(Harry+Ron+Voldemort+Lucius+ Livre), data = Data)
md <- step(mod)
## Start:  AIC=175.1
## darkness ~ (Harry + Ron + Voldemort + Lucius + Livre)
##             Df Sum of Sq    RSS    AIC
## - Voldemort  1     0.013 430.03 173.11
## - Ron        1     0.641 430.66 173.40
## <none>                   430.02 175.10
## - Harry      1    13.560 443.58 179.31
## - Lucius     1    13.937 443.95 179.48
## - Livre      6    75.556 505.57 195.47
## Step:  AIC=173.11
## darkness ~ Harry + Ron + Lucius + Livre
##          Df Sum of Sq    RSS    AIC
## - Ron     1     0.747 430.78 171.45
## <none>                430.03 173.11
## - Harry   1    13.802 443.83 177.43
## - Lucius  1    15.900 445.93 178.37
## - Livre   6    81.559 511.59 195.84
## Step:  AIC=171.45
## darkness ~ Harry + Lucius + Livre
##          Df Sum of Sq    RSS    AIC
## <none>                430.78 171.45
## - Harry   1    13.292 444.07 175.53
## - Lucius  1    16.388 447.16 176.92
## - Livre   6    81.194 511.97 193.99

grid.arrange(ggcoef(mod), ggcoef(md), ncol =2)

grid.arrange(ggcoef(mod, exclude_intercept = TRUE),
             ggcoef(md, exclude_intercept = TRUE), ncol =2)

ggcoef(md, exclude_intercept = TRUE,  exponentiate = TRUE,
  vline_color = "purple",  vline_linetype =  "solid",
  errorbar_color = "blue",  errorbar_height = .25)

p <- ggcoef(md, mapping = aes(x = estimate, y = term,  size = p.value))

Mais bon là plus c'est gros plus la p-value est grande c'est pas trop ce qu'on veut mettre en avant

p+ scale_size_continuous(trans = "reverse")

Regression linéaire multivariée : Le lasso

X <- Data %>% select(Harry, Ron, Lucius, Livre,Voldemort) %>% 
 model.matrix(~Harry+Ron+Lucius+Livre+Voldemort -1,.)
y <- Data$dead %>% as.numeric()
mod_lasso <- glmnet(X,y)
autoplot(mod_lasso, xvar = "lambda")

Représentation des coefficients

ggcoef(mod_lasso,mapping= aes(x = estimate, y =term, size = lambda),exclude_intercept = TRUE)

Les coefficients

On recupère les coefficients sous forme d'une matrice.
Chaque colonne est une étape du chemin de régularisation :

Exercice :

  • Niveau 1: Faire en ggplot la même chose que ggcoef pour un lambda que vous voulez
  • Niveau 2: Faire en ggplot exactement la même chose que ggcoef
  • Niveau 3: Faire en ggplot le graphe suivant :
  • Niveau 4: Idem mais au moment ou un coef devient non nulle il doit avoir une étiquette avec le nom de la variable
  • Niveau 5: Et si on a plusieurs variables réponses ?

p <- mod_lasso %>% coef %>%
  as.matrix %>% as.data.frame() %>% 
  rownames_to_column() %>% 
   `colnames<-`(c("rowname", round(mod_lasso$lambda,4))) %>% 
   slice(2:n()) %>% 
  gather(key, value, -rowname) %>% 
  mutate(key = factor(key, levels = unique(key)),
         Label = ifelse(value!=0, rowname, ""),
         nudge = (value!=0) * 0.1) %>% 
  ggplot(aes( x = rowname , y = value, label = Label, color = value)) +geom_point() + coord_flip() +
  # transition_manual(key) +
  labs( title = 'lambda~ {closest_state}') +
   # labs( title = 'lambda~ {current_frame}') + 
  geom_text_repel(nudge_x =0.1) + 
  #theme_pomological_fancy() + 
 # scale_color_gradient2(name = "Coefficient",mid= "#F5C04A", high ="#C03728", low = "#919C4C") +
  scale_fill_gradientn(colours = hp(256, house = "Ravenclaw"))+
  theme(legend.position = "bottom", legend.key.width = unit(2,"cm")) +
  transition_states(key, transition_length = 1, state_length = 1) 


animate(p, heigh = 300, width = 600)

p <- mod_lasso %>% coef %>%
  as.matrix %>% as.data.frame() %>% 
  rownames_to_column() %>% 
  `colnames<-`(c("rowname", round(mod_lasso$lambda,4))) %>% 
  slice(2:n()) %>% 
  gather(key, value, -rowname) %>% 
  mutate(lambda = as.numeric(key), key = factor(key, levels = unique(key)),
         Label = ifelse(value!=0, rowname, ""),
         nudge = (value!=0) * 0.1) %>% 
  ggplot(aes( x = lambda , y = value, label = Label, color = rowname)) +geom_point() +
  geom_line() +
  geom_text(aes(x = 1), hjust = 0) +
  geom_segment(aes(xend = 1, yend = value), linetype = 2, colour = 'grey') + 
  coord_cartesian(clip = 'off') +
 # theme_pomological_fancy() + 
  theme(plot.margin = margin(5.5, 50, 5.5, 5.5), legend.position = "none") +
  labs( title = 'lambda~ {frame_along}')  +
  transition_reveal(rowname, as.numeric(key))  


animate(p, heigh = 300, width = 600)