Begin'R
Les statistiques avec R
Navigation
[Retour au sommaire]
:Exercice : Bilan{#exo_fin} Dans cet exercice, on s'intéresse au jeu de données `IShare` disponible sur le lien suivant :
[](donnees/DonneesIShare.xlsx)
On souhaite en particulier étudier les caractéristiques des étudiants en filière scientifique âgés de 18 ans. Questions : * Importer le jeu de données. * Vérifier le types des variables. * Recoder la variable `sexe` pour qu'elle prenne les modalités `Femme` et `Homme` au lieu de `F` et `G`. * Extraire une base de données contenant uniquement les étudiants masculins âgés de 18 ans. * Calculer la valeur moyenne de l'indice de masse corporelle (variable `imc`) ainsi que la valeur médiane du nombre de fruits consommés par ces étudiants. * Pour ces étudiants, rajouter à la base de données une variable `ratio` contenant le rapport `malbouffe` sur le nombre de fruits consommés quotidiennement plus 1 : $$ratio = \frac{malbouffe}{fruits+1}$$ * Sauvegarder les modifications dans un fichier "donneesIShare2.csv". [Aide](#aide_exo_fin) :Aide{#aide_exo_fin, toggle=popup} * Pour extraire les étudiants masculins âgés de 18 ans, on pourra procéder en deux étapes. On extraira tout d'abord les étudiants masculins puis de cette nouvelle base on extraira ceux âgés de 18 ans. * Le calcul de la médiane d'une série de données se fait à l'aide de la fonction **`median()`** sur R. :Corrigé{#corrige_exo_fin, toggle=collapse, title-display=show} La première chose à faire est de convertir le fichier Excel au format CSV. ```r # lecture du jeu de données Donnees <- read.csv2(file="DonneesIShare.csv", header=TRUE, stringsAsFactors = TRUE) ``` ```r # Vérification du type des variables str(Donnees) ``` ``` ## 'data.frame': 5000 obs. of 11 variables: ## $ age : int 18 18 18 18 18 18 18 18 18 18 ... ## $ sexe : Factor w/ 2 levels "F","G": 2 1 1 1 1 1 1 2 1 2 ... ## $ filiere : Factor w/ 4 levels "Autre","Litteraire",..: 2 4 4 4 2 2 4 2 2 4 ... ## $ domicile : Factor w/ 5 levels "Autre","Collocation",..: 3 2 4 2 5 2 5 3 5 5 ... ## $ revenus : Factor w/ 3 levels "Famille","Multi-sources",..: 1 2 2 3 1 3 2 2 3 2 ... ## $ situation: Factor w/ 3 levels "Confortable",..: 2 2 2 2 2 2 2 2 3 2 ... ## $ etudes : Factor w/ 2 levels "Au moins 1 etudes sup",..: 2 2 2 1 2 2 2 2 2 1 ... ## $ fruits : int 4 5 3 5 3 4 4 4 4 4 ... ## $ malbouffe: num 9.4 8 12.3 8.6 12.8 10.5 10 10.6 11.1 9.9 ... ## $ exercice : int 0 1 2 3 3 5 6 10 11 12 ... ## $ imc : num 24.3 25.5 27.1 26.8 28.1 30.2 23.3 28.6 35.2 35.1 ... ``` ```r # Recodage de la variable Sexe levels(Donnees$sexe) ``` ``` ## [1] "F" "G" ``` ```r Donnees <- transform(Donnees, sexe = factor(sexe, labels=c("Femme","Homme"))) levels(Donnees$sexe) ``` ``` ## [1] "Femme" "Homme" ``` ```r # Extraction de la base de données contenant les étudiants masculins Homme <- subset(Donnees, sexe == 'Homme') # Extraction des étudiants masculins agés de 18 ans Homme_18ans <- subset(Homme, age == 18) # Calcul des statistiques mean(Homme_18ans$imc) ``` ``` ## [1] 28.14419 ``` ```r median(Homme_18ans$fruits) ``` ``` ## [1] 3 ``` ```r # Ajout de la variable ratio à la base de données Homme_18ans <- transform(Homme_18ans, ratio = malbouffe/(fruits+1)) ``` ```r # Sauvegarde des modifications write.csv2(Homme_18ans, file="donneesIShare2.csv", row.names = FALSE) ``` :Remarque Une fois qu'un jeu de données est importé, la bonne démarche pour l'analyser se résume en 4 étapes : 1. Vérifier les types de variables (quantitatives/qualitatives) à l'aide de la fonction `str()`. 2. Si besoin, corriger la nature des variables à l'aide des fonctions `as.factor()`, `as.ordered()`, ... 3. Analyser le jeu de données (extraction d'individus, de variables, calcul de statistiques). 4. Si besoin, sauvegarder le jeu de données modifié à l'aide la fonction `write.csv2()`. :Suite de la Manipulation de données {#manipulation, toggle=collapse, title-display=hidden} [Présentation du jeu de données](caps_2_1_presentation_donnees_melons.html) : présentation du jeu de données "Melons" sur lequel sont basés les exemples de cette partie [Conversion Excel -> CSV](caps_2_2_conversion_exel_vers_csv.html) : Comment convertir un fichier Excel en un fichier .csv [Importation sous R d'un fichier CSV](caps_2_3_importation_csv.html) [Solutions aux problèmes d'importation d'un fichier CSV](caps_2_4_probleme_importation_csv.html) [Caractéristiques d'un jeu de données](caps_2_5_caracterisitique_jeu_donnees.html) [Vérification du type de variables](caps_2_6_verification_type_variables.html) [Corriger la nature d'une variable](caps_2_7_corriger_type_variables.html) [Transformantion d'un jeu de données](caps_2_8_transformer_jeu_donnees.html) [Accéder à un sous-ensemble de variables et/ou d'individus](caps_2_9_extraire_sous_ensemble.html) [Extraire un sous-ensemble avec la fonction "subset"](caps_2_10_extraire_sous_ensemble_subset.html) [Sauvegarder un jeu de données](caps_2_11_sauvegarder_jeu_donnees_csv.html) [Manipulation d'un tableau de données (dataframe)](caps_2_13_dataframe.html) [Exercice bilan](caps_2_12_exercice_bilan_manipulation_jeu_donnees.html)