Ce projet de Machine Learning vise à prédire les prix des maisons en Californie en utilisant des données socio-économiques et géographiques.
L'objectif est de développer un modèle précis capable d'estimer la valeur d'un bien immobilier basé sur ses caractéristiques et sa localisation.
Analyser les facteurs influençant les prix immobiliers californiens
Développer des modèles prédictifs performants
Identifier les variables les plus impactantes sur les prix
Créer un outil de prédiction utilisable pour l'évaluation immobilière
Source : California Housing Dataset (scikit-learn)
Période : Recensement de 1990
TypeMedInc = Revenu médian du quartier
NumériqueHouseAge = Âge médian des maisons
NumériqueAveRooms = Nombre moyen de pièces
NumériqueAveBedrms = Nombre moyen de chambres
NumériquePopulation = Population du quartier
NumériqueAveOccup = Occupation moyenne
Latitude = Coordonnée géographique
Longitude = Coordonnée géographique
PRICE = Prix médian des maisons
1. Analyse Exploratoire des Données Statistiques descriptives et distribution des variables Analyse des corrélations entre variables Visualisation géographique des prix Détection des valeurs aberrantes
2. Préparation des Données Vérification des valeurs manquantes Division train/test (80%/20%) Analyse de la qualité des données
3. Modélisation Régression Linéaire : Modèle de référence Random Forest : Modèle avancé pour améliorer les performances Validation croisée et optimisation des hyperparamètres
4. Évaluation Métriques : R² Score, RMSE Analyse des résidus Comparaison des performances
Pandas = Manipulation des données
NumPy = Calculs numériques
Matplotlib/Seaborn = Visualisation
Scikit-learn = Machine Learning