How to use fuzzy matching in Power Query to clean up Excel data

https://www.profitableratecpm.com/f4ffsdxe?key=39b1ebce72f3758345b2155c98e6709c

Les recherches Excel standard sont des perfectionnistes qui échouent en raison de fautes de frappe ou d’espaces supplémentaires. Bien que vous puissiez pirater une solution en utilisant les fonctions XLOOKUP, TRIM et LOWER imbriquées, elle est fragile et difficile à maintenir. La correspondance floue Power Query est la méthode de travail la plus intelligente et « suffisamment proche ».

Power Query utilise un algorithme de correspondance floue sophistiqué pour calculer un score de similarité entre deux chaînes, comblant ainsi le fossé entre « Microsoft » et « Mcrosoft » sans une seule modification manuelle. Cela signifie que vous pouvez fusionner des exportations compliquées avec des bases de données principales plus propres en quelques secondes.

L’expérience complète de Power Query, y compris la création et la modification de requêtes, est disponible de manière native dans Excel pour Microsoft 365 (ordinateur de bureau), Excel pour le Web (offres Business et Enterprise) et Power BI.

Le but : Une histoire de deux tables

Imaginez que vous disposez d’un rapport de ventes (T_Sales, orange) rempli d’entrées manuelles et que vous devez extraire la région de vente d’une table principale (T_Master, vert).

Un tableau Excel orange avec les noms d'entreprises mal orthographiés dans la première colonne et les totaux des ventes dans la deuxième colonne, et un tableau Excel vert avec le nom et la région.

Cependant, en raison de fautes de frappe et de conventions de dénomination différentes dans T_Sales, un XLOOKUP standard renverrait #N/A pour presque toutes les recherches. Nous avons donc besoin d’Excel pour examiner les noms dans T_Sales, trouver la correspondance la plus proche dans T_Master et renvoyer la région, même si l’orthographe est légèrement erronée.

Pour gérer des raccourcis métier spécifiques qu’aucun algorithme ne peut deviner (comme “MSFT”), vous avez également besoin d’une petite table de pont (T_Abbrev, bleu) avec les en-têtes de colonnes From et To. Assurez-vous que ce tableau est prêt avant de commencer.

Une feuille de calcul Excel avec un tableau nommé T_Sales, un deuxième nommé T_Master et un troisième nommé T_Abbrev.

Étape 1 : Importez vos données à l’aide de connexions

Avant de laisser libre cours à l’algorithme, vous devez intégrer les trois tables dans le moteur Power Query. Commencez par vous assurer que vos plages de données sont formatées sous forme de tableaux Excel (Ctrl+T). Ensuite, importez le premier tableau en sélectionnant n’importe quelle cellule du tableau et en cliquant sur Données > À partir du tableau/plage.

Une cellule d'un tableau Excel est sélectionnée et From Table ou Range dans l'onglet Data est mis en surbrillance.

Trois tableaux Excel avec leurs noms au-dessus et le logo Excel en haut.

Si vous ne renommez pas les tableaux dans Excel, c’est aujourd’hui le jour pour commencer

Qu’y a-t-il dans un nom ? Eh bien, beaucoup.

Pour éviter d’encombrer votre classeur, ne cliquez pas sur le bouton standard « Fermer et charger » après avoir importé chaque table dans Power Query. Au lieu de cela, cliquez sur la flèche vers le bas et sélectionnez « Fermer et charger vers ».

Le menu déroulant Fermer et charger dans l’éditeur Power Query est développé et Fermer et charger vers est sélectionné.

Ensuite, dans la boîte de dialogue Importer des données, sélectionnez « Créer uniquement une connexion » et cliquez sur « OK ».

Seule la case Créer une connexion dans la boîte de dialogue Importer des données d'Excel est cochée.

Après avoir répété ce processus pour les trois tables, vous les verrez sous forme de connexions uniquement dans le volet Requêtes et connexions (qui s’ouvre automatiquement après la création de la première connexion), prêtes pour la fusion.

Trois tables sont répertoriées en tant que connexions uniquement dans le volet Requêtes et connexions de Microsoft Excel.

Étape 2 : Fusionnez vos tables pour commencer le nettoyage

Pour commencer le nettoyage, cliquez avec le bouton droit sur “T_Sales” dans le volet Requêtes et connexions et sélectionnez “Fusionner”.

T_Sales dans le volet Requêtes et connexions d'Excel est cliqué avec le bouton droit et Fusionner est sélectionné dans le menu résultant.

Ensuite, dans la boîte de dialogue Fusionner, sélectionnez “T_Master” comme deuxième table et dans les deux aperçus de table, sélectionnez la colonne “Nom”. Essentiellement, vous dites à Excel que vous souhaitez écraser les tables T_Sales et T_Master, et la colonne Nom est ce qui les relie.

Boîte de dialogue Fusionner d'Excel, avec la colonne Nom dans les tables T_Sales et T_Master sélectionnée.

Maintenant, cochez « Utiliser la correspondance floue pour effectuer la fusion » pour indiquer à Excel que certaines connexions ne sont pas parfaites en raison de fautes de frappe ou de conventions de dénomination incohérentes. Sous le capot, l’option Ignorer la casse est cochée par défaut, ce qui signifie que « MICROSOFT » correspondra correctement à « Microsoft » sans aucune étape supplémentaire. Pour le type de jointure, restez sur « Left Outer » : cela garantit que vous conservez chaque transaction de vente tout en marquant simplement les informations régionales correspondantes.

La case Utiliser la correspondance floue pour effectuer la fusion est cochée dans la boîte de dialogue Fusionner d'Excel.

Boîte de dialogue Excel Rechercher et remplacer avec quelques caractères génériques autour.

Comment utiliser les caractères génériques dans Microsoft Excel pour affiner votre recherche

Trouvez des correspondances partielles en un instant.

Étape 3 : Composez le seuil de similarité

OK, vous avez donc indiqué à Excel les tableaux que vous fusionnez, la variable de connexion et que les correspondances ne sont pas exactes. Maintenant, vous devez définir le seuil.

Cliquez sur la flèche à côté de “Options de correspondance floue”.

La flèche d'expansion de correspondance floue dans la boîte de dialogue Fusionner dans Excel.

Le seuil de similarité est une échelle de 0,00 à 1,00, où 0,00 correspond à toutes les valeurs avec n’importe quel niveau de similarité et 1,00 correspond uniquement aux valeurs exactes. Notez dans la capture d’écran ci-dessus que trois des six lignes correspondent. En effet, Power Query utilise par défaut un seuil de similarité de 0,80. À ce niveau, le moteur est strict : il détecte facilement « Microsoft Inc » mais échoue sur les fautes de frappe plus agressives comme « Appel » ou « Gogle ».

Dans ce cas, un seuil de 0,50 est suffisamment bas pour détecter « Appel » et « Gogle » sans faire correspondre accidentellement des mots sans rapport. Il trouve cinq lignes sur six, ne laissant que l’abréviation « MSFT » sans correspondance.

Le seuil de correspondance floue dans Excel est défini sur 0,5 et l'évaluation confirme que 5 lignes sur 6 correspondent.

Étape 4 : Appliquer la table de transformation pour les abréviations

Aucun algorithme n’est assez intelligent pour savoir que « MSFT » signifie Microsoft. C’est là que la table T_Abbrev entre en jeu : dans le menu déroulant Table de transformation, cliquez sur “T_Abbrev”, ce qui oblige le moteur à traiter vos remplacements manuels comme des correspondances parfaites. Une fois sélectionné, votre nombre de matchs en bas passera à un parfait six sur six.

Le tableau nommé T_Abbrev est sélectionné dans le menu déroulant Tableau de transformation de la boîte de dialogue Fusionner d'Excel et la correspondance de sélection est 6 sur 6.

Étape 5 : Nettoyez et résumez votre rapport final

Lorsque vous cliquez sur « OK », vous êtes redirigé vers l’éditeur Power Query avec une nouvelle colonne remplie de résultats de tableau.

L’éditeur Power Query affiche une colonne de résultats de tableau.

Cliquez sur l’icône “Développer” dans l’en-tête de colonne, décochez “Utiliser le nom de colonne d’origine comme préfixe” pour éviter les en-têtes maladroits comme T_Master.Name, puis cliquez sur “OK”.

La flèche d’expansion de la table dans l’en-tête d’une colonne T_Master dans l’éditeur Power Query est cliquée et la case des noms d’origine est décochée.

Vous pouvez voir que les noms sont désormais standardisés dans une nouvelle colonne Name.1 et que les régions sont ajoutées dans une nouvelle colonne Région.

Une colonne Name.1 et une colonne Region dans l’éditeur Power Query, insérées à l’aide d’une correspondance floue dans une fusion.

À partir de là, supprimez la colonne Nom d’origine en désordre (cliquez avec le bouton droit sur l’en-tête de la colonne et sélectionnez “Supprimer”), cliquez et faites glisser la nouvelle colonne Nom vers la gauche afin qu’elle soit la première colonne du tableau, puis renommez-la (double-cliquez sur l’en-tête de la colonne) en quelque chose comme Nom officiel. Pendant que vous y êtes, assurez-vous que les types de données corrects sont attribués à chaque colonne en cliquant sur les icônes dans les en-têtes de colonne.

Une table transformée dans l’éditeur Power Query avec des noms de sociétés cohérents et une colonne Région fusionnée.

Le logo Excel sortant d’une ampoule entouré d’étincelles colorées.

Comment nettoyer et importer des données à l’aide de Power Query dans Excel

Ne négligez pas cet incroyable outil Excel !

Étant donné que ce processus marque chaque transaction individuelle, vous vous retrouvez avec plusieurs lignes pour la même entreprise. Pour transformer cela en un rapport propre, dans l’onglet Transformation, cliquez sur “Regrouper par”.

Le bouton Regrouper par dans l’éditeur Power Query.

Ensuite, dans la boîte de dialogue Regrouper par, sélectionnez le bouton radio “Avancé” en haut. Cela vous permet de regrouper plusieurs colonnes à la fois. Dans ce cas, nous souhaitons regrouper selon les colonnes Nom et Région. Pour ce faire, pour le premier regroupement, sélectionnez « Nom officiel ». Ensuite, cliquez sur « Ajouter un regroupement » et sélectionnez « Région ».

L’option Avancé dans la boîte de dialogue Power Query Group By est cochée et les colonnes Nom officiel et Région sont sélectionnées.

Maintenant, définissez le calcul. Dans le champ Nouveau nom de colonne, saisissez Ventes totalesdans le champ Opération, sélectionnez « Somme » et dans le champ Colonne, sélectionnez « Ventes ».

Les champs Nouveau nom de colonne, Opération et Colonne de la boîte de dialogue Power Query Group By sont renseignés.

Lorsque vous cliquez sur « OK », toutes les lignes répétées sont regroupées.

Les tables sont fusionnées et les données sont nettoyées dans l'éditeur Power Query.

Une fois que vous avez examiné les résultats pour confirmer que toutes les données apparaissent comme prévu, cliquez sur « Fermer et charger » dans l’onglet Accueil.

La moitié supérieure du bouton Fermer et charger dans l’éditeur Power Query est sélectionnée.

Désormais, vos données joliment résumées et parfaitement orthographiées apparaissent dans une nouvelle feuille Excel. Voici une capture d’écran avant et après qui vous montre les avantages de l’utilisation de la correspondance floue de Power Query pour fusionner et nettoyer des ensembles de données désordonnés dans Excel.

Une capture d'écran côte à côte de données désordonnées à gauche et de données nettoyées, fusionnées et standardisées à droite.


Les recherches standard sont trop rigides pour la réalité des données désordonnées. En utilisant la correspondance floue, vous échangez la saisie manuelle des données contre un système automatisé et évolutif qui comprend l’intention plutôt que la simple syntaxe. Ce n’est qu’une des nombreuses façons d’exploiter les outils Power Query pour ranger les données de feuilles de calcul désordonnées : une fois que vous aurez commencé, vous ne pourrez plus vous arrêter !

Système d’exploitation

Windows, macOS, iPhone, iPad, Android

Essai gratuit

1 mois

Microsoft 365 inclut l’accès aux applications Office telles que Word, Excel et PowerPoint sur jusqu’à cinq appareils, 1 To de stockage OneDrive et bien plus encore.


Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button