________________________________________________________________
Voulez-vous suivre ce cours à distance ou en personne?
Contactez-nous par email : info@nanforiberica.com , téléphones : +34 91 031 66 78 / +34 605 98 51 30, WhatsApp : +34 685 60 05 91 , ou contactez nos bureaux
________________________________________________________________
Une fois que nous connaissons R à un niveau de base, la meilleure façon d’affiner nos compétences en R est de travailler de front sur un problème d’analyse de données. Dans ce cours, nous adoptons une approche basée sur des cas d'utilisation en abordant les données des taxis de la ville de New York à l'aide de R. De nombreux exercices de laboratoire sont proposés pour renforcer les concepts et en apprendre de nouveaux.
Nous n'hésitons pas à utiliser des packages tiers lorsque cela simplifie notre travail : et notamment les packages SIG, ggplot2 pour le traçage et dplyr pour le traitement des données. Cependant, seul dplyr est pertinent pour le cours et exploré en profondeur. La visualisation des données et les packages SIG sont hors de portée et ne sont pas traités en profondeur, bien qu'une explication de base soit fournie et que tout le code soit fourni aux utilisateurs qui souhaitent approfondir leur temps libre.
Bien que nous n'abordions pas Microsoft R Server (MRS) au cours de ce cours, un objectif secondaire du cours est de préparer les utilisateurs à MRS et à son ensemble d'outils et de fonctionnalités pour le traitement et l'analyse évolutifs du Big Data. Ce cours peut donc également être considéré comme un prérequis pour apprendre à utiliser MRS.
Après avoir terminé ce cours, les participants seront en mesure d'utiliser R pour effectuer une tâche d'analyse de données approfondie qui commence par l'ingestion d'un fichier plat brut et la réalisation d'une analyse exploratoire des données, avec de nombreux résumés et visualisations pour démarrer. L'utilisateur appréciera des packages tels que dplyr qui nous aident à mettre en place des pipelines de données robustes et faciles à modifier, ggplot2 et sa notation simple, et apprendra à mieux penser comme un programmeur R et à écrire de manière plus efficace et plus simple. Code R.
Nous suivrons le flux de travail suivant pendant le cours.
- Mise en place de l'environnement
- Chargement des données dans R
- Inspection des données : nous effectuons des contrôles d'intégrité des données et obtenons une idée de celles-ci.
- Nettoyage des données : Nous traitons les types de colonnes, notamment les colonnes factorielles
- Être plus efficace : nous apprenons comment le prétraitement peut conduire à plus d'efficacité
- Création de nouvelles fonctionnalités : en commençant par les données brutes, nous nous demandons comment nous pouvons en faire une donnée plus utile à l'analyse en ajoutant des fonctionnalités pertinentes.
- Résumé et visualisation des données : nous explorons différentes manières de résumer les données en utilisant à la fois base R et dplyr. Nous utilisons ggplot2 pour visualiser les résultats