Introduction à l'IA

Glossaire

Méthodes IA

Analyse linguistique (NLP) : L'analyse linguistique traite le langage écrit ou oral pour en extraire des informations utiles et directement exploitables. Concrètement, elle sait découper un texte en phrases et en mots, reconnaître des éléments clés (noms de personnes, dates, montants, références), repérer le sujet principal d'un document, déterminer le ton (plutôt positif, neutre ou négatif) et produire un résumé fidèle. L'objectif n'est pas de « comprendre » comme un humain, mais de transformer des textes libres et hétérogènes en données structurées faciles à trier, filtrer et mettre en tableau. Cela permet d'accélérer la lecture, d'automatiser le classement et d'éclairer une décision sans passer des heures à parcourir des pages. Exemple : classer automatiquement des e-mails de support par motif (facturation, livraison, qualité) et urgence afin de prioriser les actions et d'alimenter des indicateurs mensuels.
Apprentissage adaptatif : L'apprentissage adaptatif désigne des modèles qui se mettent à jour régulièrement pour rester alignés avec la réalité quand les données changent au fil du temps. Une règle ou un modèle figé peut bien fonctionner au départ, puis se dégrader parce que les comportements évoluent (nouvelles habitudes clients, saisonnalités différentes, effets de prix). L'idée est donc de réentraîner partiellement ou d'ajuster le modèle avec les informations récentes (nouvelles observations, retours des utilisateurs), selon un rythme maîtrisé et contrôlé, afin d'éviter une « dérive » silencieuse des performances. Cela améliore la stabilité des prédictions en production et limite les mauvaises décisions prises sur des bases dépassées. Exemple : mettre à jour chaque semaine un score de risque client en intégrant les encaissements récents et la variation des délais de paiement.
Apprentissage par renforcement : L'apprentissage par renforcement apprend à choisir des actions au fil de l'eau pour maximiser un résultat cumulé (par exemple gains, économies, satisfaction), sans connaître d'avance la meilleure stratégie. Le système essaie, observe la conséquence (récompense ou pénalité), et corrige progressivement sa manière d'agir. Il doit concilier exploration (tester des choix nouveaux) et exploitation (répéter ce qui marche). Cette approche convient aux problèmes séquentiels où chaque décision influence la suite (ordonnancement, recommandations pas à pas, tarification dynamique). Elle nécessite de pouvoir mesurer clairement « ce qui est mieux » et de tester sans risque majeur. Exemple : ajuster automatiquement la fréquence et le contenu des relances clients pour réduire le délai moyen de paiement tout en préservant la relation commerciale.
Apprentissage supervisé : L'apprentissage supervisé entraîne un modèle à prédire une valeur à partir d'exemples pour lesquels on connaît déjà la « bonne réponse ». Cette réponse peut être une catégorie (oui/non, type de document) ou un nombre (montant, quantité). On divise généralement les données en un ensemble pour entraîner le modèle et un autre pour vérifier qu'il généralise bien à de nouveaux cas. On suit ensuite des indicateurs simples à interpréter (taux de bonnes réponses, erreurs moyennes) pour décider si le modèle est suffisamment fiable. Cette méthode est la plus utilisée pour automatiser des décisions régulières avec peu d'incertitude sur l'objectif. Exemple : prévoir la probabilité qu'un abonné résilie afin d'anticiper l'impact sur le chiffre d'affaires et cibler les actions de fidélisation.
Arbres de décision : Les arbres de décision sont des modèles très lisibles qui prennent des décisions en enchaînant des questions simples du type « si… alors… ». À chaque étape, on sépare les données selon un critère (par exemple « montant > 500 € »), jusqu'à arriver à une feuille qui correspond à une prédiction. Ils gèrent bien les règles combinées et les interactions entre variables, et supportent des données imparfaites (valeurs manquantes, variables de types différents). Leur force est l'explicabilité : on peut montrer la règle exacte qui a mené à une décision. Pour éviter qu'ils « apprennent par cœur » des détails inutiles, on limite leur profondeur ou on utilise des ensembles de plusieurs arbres. Exemple : décider d'accorder un crédit en combinant revenu, ancienneté, historique d'incidents et stabilité d'emploi.
Association de règles : L'association de règles recherche des éléments qui apparaissent souvent ensemble et formule des règles faciles à lire comme « si A est présent, B l'est souvent aussi ». On mesure la fréquence d'apparition et la force du lien pour ne retenir que les associations réellement utiles. Cette approche ne « prédit » pas au sens strict, elle met plutôt en évidence des habitudes ou des corrélations qui aident à agir plus efficacement. Elle sert autant au commerce (produits souvent co-achetés) qu'au contrôle (événements suspects qui coïncident). Le résultat se lit comme une liste de recommandations ou de points d'attention. Exemple : mettre en évidence que l'achat de consommables spécifiques est souvent lié à un certain type de contrat, afin d'optimiser les négociations fournisseurs.
Automatisation par règles métier : L'automatisation par règles métier applique automatiquement des actions quand certaines conditions sont remplies. Ces conditions sont explicites (« si le montant dépasse tel seuil », « si la date est dépassée », « si le client est de tel type ») et faciles à auditer. Cette approche standardise des opérations répétitives, accélère les délais de traitement et réduit les erreurs humaines, tout en gardant une parfaite traçabilité des décisions prises. On peut commencer très simplement, puis enrichir au fil du temps sans tout reconstruire. Exemple : bloquer automatiquement une facture si le montant dépasse un seuil et envoyer une notification au contrôleur pour validation.
Automatisation via API : L'automatisation via API consiste à faire dialoguer directement des logiciels entre eux pour échanger des données ou déclencher des actions, sans ressaisie manuelle. Une API est simplement une « porte d'entrée » officielle d'un logiciel permettant de demander ou d'envoyer des informations de manière standard et sécurisée. En les combinant, on enchaîne des étapes : récupérer des chiffres d'un outil, les transformer, les déposer ailleurs, et lancer une alerte si besoin. Cela fiabilise les flux, réduit les délais et diminue fortement les erreurs. Exemple : à la création d'un bon de commande dans l'ERP, créer un dossier partagé, notifier l'acheteur et alimenter automatiquement un tableau de suivi.
Classification automatique : La classification automatique consiste à affecter chaque élément à une catégorie connue à l'avance. On entraîne un modèle sur des exemples déjà classés (documents, transactions, tickets), puis on l'utilise pour classer de nouveaux cas, plus rapidement et de manière uniforme. La qualité dépend surtout de la clarté des catégories, de la représentativité des exemples et d'un suivi régulier des erreurs pour corriger le tir. Cette méthode est précieuse pour prioriser, router et fiabiliser des flux importants sans surcharge humaine. Exemple : trier des documents entrants en « facture », « contrat » ou « devis » pour accélérer la validation et l'archivage.
Clustering non supervisé : Le clustering non supervisé regroupe automatiquement des éléments qui se ressemblent, sans étiquette au départ. Il s'appuie sur une notion de « proximité » : des éléments proches l'un de l'autre finissent dans le même groupe, les autres dans des groupes différents. Cette proximité peut venir de la distance entre nombres (montant, fréquence, ancienneté), de ressemblances de profils, ou de comportements communs. Le résultat aide à « cartographier » une population pour comprendre ses grandes familles et adapter son action. La préparation des données (mettre les variables à la même échelle, réduire ce qui est redondant) améliore nettement la qualité des groupes. Exemple : segmenter des clients selon leurs habitudes d'achat et de paiement pour ajuster conditions commerciales et suivi du risque.
Deep Learning : Le deep learning utilise des réseaux de neurones « profonds », c'est-à-dire organisés en plusieurs couches successives qui apprennent des représentations de plus en plus utiles des données. L'intérêt est de laisser le système découvrir automatiquement les « bons descripteurs » au lieu de les définir manuellement. Cette approche excelle avec de grands volumes et sur des données complexes comme l'image, le son ou le texte. Elle demande en revanche des ressources de calcul et une vigilance pour éviter les modèles « trop spécialisés » sur l'historique. Bien encadrée, elle automatise des tâches auparavant très coûteuses en temps. Exemple : reconnaître des produits sur des photos d'inventaire afin d'accélérer le contrôle et d'éviter les erreurs de saisie.
Détection d'anomalies (non supervisé) : La détection d'anomalies sans exemples « positifs » connus cherche des cas rares et suspects en comparant chaque observation au comportement habituel. On peut repérer ce qui est isolé du reste, ce qui ne se reconstruit pas bien à partir d'un modèle moyen, ou ce qui se situe dans une zone très peu fréquentée par les autres cas. Cette approche est utile quand les événements problématiques sont rares (fraude, erreurs, défaillances) et qu'on ne dispose pas d'un historique suffisant d'exemples étiquetés. Elle sert à prioriser l'investigation humaine plutôt qu'à conclure seule. Exemple : signaler des paiements à l'étranger d'un montant inhabituel pour revue et justification.
Modèles de langage (NLP) : Les modèles de langage sont entraînés sur de très grands volumes de textes pour apprendre à « continuer » un texte et, ce faisant, à en capter la structure, le vocabulaire et les tournures. Ensuite, en les orientant avec des consignes et quelques exemples propres à votre activité, ils deviennent capables de résumer, de classer, d'extraire des informations clés ou de rédiger des réponses cohérentes. Ce ne sont pas des bases de connaissances parfaites, mais des outils d'assistance puissants pour traiter des documents à grande échelle, standardiser la forme et gagner du temps. Exemple : résumer automatiquement des comptes rendus et extraire les décisions, délais et responsables.
Monitoring et détection d'écarts : Le monitoring suit en continu l'état de vos données et de vos modèles pour alerter tôt en cas d'écart. On vérifie que la distribution des données entrantes ressemble à celle utilisée pour construire le modèle, que les indicateurs de qualité restent stables et que les seuils d'alerte sont pertinents. Si l'un d'eux se dégrade (chute d'exactitude, données incomplètes, volumes anormaux), une notification déclenche l'analyse. L'intérêt est d'éviter la dégradation silencieuse : mieux vaut corriger une petite dérive que subir un emballement. Exemple : notifier si la précision d'un classifieur de documents passe sous un seuil convenu afin de relancer un entraînement.
Optimisation combinatoire : L'optimisation combinatoire cherche la meilleure solution parmi un très grand nombre de possibilités, souvent sous contraintes (ressources limitées, priorités, délais). Tester toutes les combinaisons est impossible ; on utilise donc des méthodes intelligentes qui explorent d'abord les pistes prometteuses, s'autorisent des raccourcis quand une piste ne peut pas mener à une bonne solution, ou cherchent de très bonnes solutions sans garantie absolue d'optimalité. L'objectif n'est pas seulement de « trouver le meilleur », mais de le faire dans un temps réaliste pour l'exploitation. Exemple : organiser des tournées multi-dépôts avec horaires et capacités afin de réduire les kilomètres et les retards.
Optimisation linéaire : L'optimisation linéaire consiste à maximiser ou minimiser un objectif mesurable (par exemple la marge) tout en respectant des contraintes exprimées simplement (capacités, budgets, quotas). On formalise ce que l'on veut et ce qui est possible, puis un solveur propose un plan qui respecte tout en visant le meilleur résultat. L'atout majeur est l'auditabilité : on comprend pourquoi la solution a été choisie et on peut tester l'impact d'un changement de contrainte. C'est un excellent cadre pour arbitrer sereinement quand les choix sont nombreux. Exemple : allouer un budget marketing par canal pour atteindre un objectif de leads en maîtrisant la dépense.
Prétraitement de données : Le prétraitement rend les données prêtes pour l'analyse et l'IA. Il s'agit de nettoyer (corriger ou exclure ce qui est incohérent), compléter quand c'est pertinent, mettre à la même échelle des variables très différentes, transformer des textes en représentations utilisables, et sélectionner ce qui apporte réellement de l'information. Cette étape, souvent discrète, explique une grande part de la réussite d'un projet : un bon modèle avec de mauvaises données donnera de mauvais résultats. Le prétraitement accélère aussi les calculs et facilite la maintenance des systèmes. Exemple : standardiser des montants et dates, compléter des champs manquants et unifier des libellés avant de lancer une analyse de marge.
Reconnaissance de texte (OCR) : L'OCR convertit des images ou des PDF en texte éditable, puis permet d'extraire les informations utiles. Concrètement, on « lit » automatiquement des documents scannés (factures, bons de commande, relevés) et on en tire les éléments clés : dates, montants, références, fournisseurs. Cette numérisation fait gagner beaucoup de temps, réduit les erreurs de saisie et ouvre la voie à des contrôles automatiques simples (vérifications de seuils, rapprochements). Plus les documents sont homogènes, plus l'automatisation est rapide à mettre en place. Exemple : extraire montants et dates de factures fournisseurs pour alimenter l'ERP et accélérer la validation.
RPA (Robotic Process Automation) : La RPA utilise des « robots logiciels » qui reproduisent des actions humaines répétitives : ouvrir une application, cliquer, copier-coller, appliquer une règle, passer à l'étape suivante. Elle convient particulièrement aux processus stables et bien décrits, où les écrans et les règles changent peu. L'intérêt est de gagner en vitesse, en régularité et en traçabilité, tout en réduisant les erreurs de ressaisie. La RPA ne remplace pas le jugement, elle automatise les gestes. Exemple : lire des e-mails de commandes et renseigner automatiquement les champs correspondants dans l'ERP.
Séries temporelles : Une série temporelle est une suite d'observations datées (par jour, semaine, mois…). L'analyse consiste à comprendre ce qui la fait bouger (tendance générale, répétitions régulières comme les saisons, effets d'événements) et à prévoir la suite avec des incertitudes raisonnables. Le choix du pas de temps et l'ajout d'informations externes (prix, promotions, météo) améliorent fortement la qualité des prévisions. Il faut aussi gérer les ruptures (changement de processus, lancement d'un produit) qui « cassent » les habitudes passées. Exemple : anticiper la demande hebdomadaire d'un produit pour piloter les stocks et l'approvisionnement.
Simulation probabiliste : La simulation probabiliste explore ce qui peut arriver quand plusieurs hypothèses sont incertaines. On définit des fourchettes réalistes (par exemple pour un prix, un volume, un délai), puis on tire au sort des valeurs dans ces fourchettes et on observe le résultat global, répété des milliers de fois. On obtient alors non pas un seul chiffre, mais une distribution : ce qui est le plus probable, les scénarios défavorables, et la chance de dépasser un seuil critique. C'est une manière concrète de parler de risque et de prendre des décisions mieux informées. Exemple : simuler la marge d'un projet en faisant varier prix de vente, coûts d'achat et volumes pour estimer les risques de dérive.
Statistiques classiques : Les statistiques classiques apportent un cadre pour décrire, comparer et conclure avec prudence à partir de données. On y trouve des notions de moyenne, de dispersion, de corrélation, ainsi que des tests qui aident à décider si une différence observée est trop grande pour être le simple fruit du hasard. Elles permettent aussi d'exprimer l'incertitude associée à une estimation, plutôt que de donner une réponse unique et trompeuse. L'intérêt est d'appuyer les décisions sur des bases solides et transparentes, en complément des outils d'IA. Exemple : mesurer l'impact d'une promotion sur les ventes en comparant des périodes ou des groupes de magasins de façon rigoureuse.

Algorithmes / Outils

ANOVA : ANOVA est une méthode statistique qui répond à une question simple : « les différences observées entre plusieurs groupes viennent-elles d'un vrai effet, ou seulement du hasard ? ». On compare les variations à l'intérieur de chaque groupe (ce que l'on observe même sans effet particulier) à la variation entre les groupes (ce que l'on attend si un facteur a réellement un impact). Si la différence « entre groupes » dépasse nettement ce que produirait le hasard, on conclut qu'au moins un groupe se comporte différemment. Cela sert à évaluer un changement, un dispositif, une campagne, etc., quand on a plus de deux groupes à comparer. Exemple : comparer l'effet réel de trois politiques tarifaires régionales sur le panier moyen et la marge brute.
API REST : Une API REST est un mode standard d'échange de données entre logiciels via Internet. On y manipule des « ressources » (par ex. “/clients/123”) avec des actions simples (lire, créer, mettre à jour, supprimer), souvent au format JSON, ce qui rend les échanges lisibles et largement compatibles. Le serveur ne garde pas la mémoire de chaque utilisateur entre deux appels (on dit « sans état »), ce qui facilite la montée en charge et la sécurité. Résultat : des applications différentes communiquent proprement sans bricolage. Exemple : synchroniser automatiquement l'ERP et l'outil de BI pour récupérer les dépenses réelles par centre de coûts.
Apriori : Apriori est un algorithme qui découvre des associations dans des paniers d'achats ou des événements qui se produisent souvent ensemble. Il part des combinaisons les plus simples, repère celles qui sont fréquentes, puis n'explore en détail que les combinaisons plus grandes qui en valent la peine. L'idée clé : si une petite combinaison n'apparaît pas souvent, une plus grande qui la contient a très peu de chances d'être fréquente. On obtient ainsi des règles faciles à lire, du type « quand A est présent, B l'est souvent aussi ». Exemple : identifier des familles d'achats souvent conjointes par centre de coûts afin d'optimiser les contrats fournisseurs.
ARIMA : ARIMA est un modèle pour séries temporelles, c'est-à-dire des données ordonnées dans le temps (ventes jours après jours, températures, fréquentation). Il s'appuie sur trois idées : rendre la série plus « stable » si elle dérive, tenir compte de l'influence de ses propres valeurs passées et lisser les à-coups aléatoires. Bien réglé, il produit des prévisions fiables à court ou moyen terme, et dispose d'une version « saisonnière » quand des cycles reviennent régulièrement (par exemple chaque semaine). Exemple : prévoir les ventes et la consommation de matières pour fiabiliser le budget d'achat mensuel.
Autoencoders : Un autoencoder est un réseau de neurones qui apprend à résumer l'information d'une donnée (image, tableau, texte représenté par des nombres) dans une version compacte, puis à la reconstruire. S'il arrive à reconstruire correctement, c'est qu'il a capté l'essentiel ; s'il échoue pour certains cas, c'est souvent qu'ils sont « atypiques » par rapport au reste. On l'utilise donc pour réduire la dimension (faire plus simple sans trop perdre), nettoyer du bruit, et repérer des anomalies. Exemple : détecter des factures fournisseurs atypiques (montant, TVA, libellé) dans un flux d'achats massifs.
BERT : BERT est un modèle de compréhension de texte qui lit une phrase en tenant compte des mots qui la précèdent et de ceux qui la suivent. Cette lecture « dans les deux sens » aide à comprendre les nuances de sens : un même mot ne veut pas dire la même chose selon son contexte. Après un court apprentissage sur vos propres documents, BERT sait classer des textes, extraire des informations clés (noms, dates, montants) ou retrouver la bonne réponse dans un paragraphe. Exemple : extraire automatiquement échéances, pénalités et remises commerciales depuis des contrats pour le suivi budgétaire.
Constraint Solver : Un « constraint solver » est un moteur qui fabrique un plan (planning, affectation, ordre de tâches) en respectant des règles : horaires, capacités, compatibilités, priorités, distances, etc. Si aucune solution n'existe, il sait aussi l'indiquer clairement. On peut lui demander non seulement « une solution », mais « la meilleure possible » selon un objectif (réduire les coûts, équilibrer la charge, diminuer les retards). Il est utile dès que beaucoup de règles se croisent et rendent l'arbitrage humain difficile. Exemple : élaborer un plan de production minimisant heures supplémentaires et coûts de changement de série.
DBSCAN : DBSCAN est un algorithme de regroupement automatique (clustering) qui crée des groupes en repérant les zones où les points de données sont « serrés » les uns contre les autres. Les points isolés deviennent des « cas à part » (du bruit), ce qui évite de forcer leur appartenance à un groupe qui n'a pas de sens. Contrairement à d'autres méthodes, on n'a pas à décider à l'avance du nombre de groupes ; en revanche, il faut indiquer ce qu'on considère comme « proche » (un rayon) et combien de voisins suffisent à former un groupe. DBSCAN est particulièrement à l'aise quand les groupes ont des formes irrégulières et qu'on veut aussi repérer les valeurs vraiment isolées. Exemple : repérer des ensembles d'écritures comptables inhabituelles par période et par site pour orienter un contrôle ciblé.
DQN : DQN est un algorithme d'apprentissage par renforcement qui apprend à prendre des décisions en regardant des observations riches (par exemple des images) et en testant des actions. Il mémorise ses expériences passées pour apprendre de manière plus stable et éviter de « s'emballer ». Au fil des essais, il découvre quelles actions rapportent le plus sur la durée. Cela convient quand on ne connaît pas bien comment réagit l'environnement, mais qu'on peut expérimenter et mesurer une récompense. Exemple : optimiser la séquence de relances clients pour réduire le délai de paiement des créances moyen (DSO) tout en préservant la relation commerciale.
ETL : ETL signifie Extraction, Transformation, Chargement. On commence par récupérer des données de plusieurs sources (applications, fichiers, bases). On les nettoie et on les met d'accord (mêmes formats, mêmes codes, mêmes unités). Puis on les charge dans un endroit commun conçu pour l'analyse (entrepôt de données ou « data lake »). L'intérêt est double : qualité et traçabilité. On sait d'où vient chaque chiffre, comment il a été calculé, et l'on peut alimenter des tableaux de bord et des modèles d'IA en confiance. Exemple : consolider chaque nuit les ventes, achats et RH pour publier le tableau de bord de marge le matin.
FP-Growth : FP-Growth est un algorithme qui repère vite les combinaisons fréquentes d'éléments sans tester toutes les possibilités. Il construit une structure compacte qui reflète les parcours fréquents dans vos données, puis l'explore intelligemment. Cette approche réduit fortement le temps de calcul quand les données sont volumineuses. Les résultats servent ensuite à créer des règles simples et actionnables. Exemple : identifier des familles d'articles souvent co-achetées pour ajuster assortiments et remises et améliorer la marge unitaire.
GPT : Les transformeurs génératifs pré-entraînés (GPT) sont une famille de réseaux de neuronnes avancés utilisés pour les tâches de traitement automatique du langage. Ils sont entraînés à deviner le mot suivant ; avec beaucoup d'exemples et de bonnes consignes, ils apprennnent à résumer, reformuler, extraire des informations et même orchestrer des actions (par exemple appeler une application). Un GPT est flexible : la manière dont on lui pose la question oriente fortement le résultat. Bien encadré, il devient un assistant pour traiter des documents, préparer des messages, ou automatiser des étapes répétitives. Exemple : résumer le reporting mensuel et proposer 5 actions correctives par Business Unit (BU).
Isolation Forest : La « forêt d'isolement » ou Isolation Forest est un algorithme de détection d'anomalies qui calcule un score d'anomalie pour chaque observation du jeu de données (dataset). Il s'appuie sur une idée simple : les cas très inhabituels se « séparent » facilement du reste. En répétant des découpages aléatoires de vos données, on mesure en combien d'étapes un point se retrouve isolé ; s'il suffit de très peu d'étapes, il est probablement anormal. Avantages : peu de réglages, bonne tenue sur de grands volumes, et un score clair pour prioriser les alertes. Exemple : détecter des notes de frais anormalement élevées ou des factures fournisseurs incohérentes.
K-means : K-means est un algorithme de regroupement qui classe les données en k groupes en cherchant des « centres » représentatifs. Chaque point rejoint le centre le plus proche, puis les centres sont recalculés, et ainsi de suite, jusqu'à stabilisation. Il est rapide et facile à utiliser, mais il faut choisir le nombre de groupes et faire attention à l'échelle des variables (une variable très grande peut dominer). On l'utilise pour trouver des segments simples et utiles. Exemple : segmenter le portefeuille clients selon fréquence d'achat et marge pour adapter les objectifs commerciaux.
LDA : L'analyse discriminante linéaire (LDA) est une méthode pour découvrir automatiquement des « thèmes » dans une collection de textes. Elle suppose que chaque document parle de plusieurs sujets à des degrés divers, et que chaque sujet se reconnaît à un certain vocabulaire. On obtient alors des étiquettes de thèmes qui aident à résumer et à classer de grands volumes de textes sans tout lire. C'est pratique pour organiser, rechercher et suivre l'évolution des sujets dans le temps. Exemple : analyser les commentaires d'écart budgétaire pour dégager les causes récurrentes (prix, volume, mix).
LSTM : Long Short Term Memory (LSTM) est un type de réseau de neurones conçu pour traiter des informations qui se suivent dans le temps (phrases, séries de mesures). Il intègre des « portes » internes qui l'aident à retenir ce qui compte longtemps et à oublier ce qui n'est plus utile. Cela lui permet de mieux prendre en compte un contexte étendu. On l'emploie pour le texte, la voix, ou la prévision de séries quand la dépendance à l'historique est importante. Exemple : prévoir le cash quotidien en tenant compte des encaissements et décaissements passés et des jours particuliers.
Matching logique et conditionnel : Cette technique rapproche des enregistrements qui désignent la même entité alors que les écritures diffèrent (fautes de frappe, abréviations, formats). On combine des règles strictes (par exemple, un code identifiant) et des comparaisons « floues » sur des textes (par exemple, deux noms très proches). Le but est de retrouver les doublons sans fusionner par erreur deux personnes différentes. Le processus produit une trace claire des décisions, utile pour l'audit. Exemple : dédupliquer des tiers fournisseurs pour éviter doubles paiements et erreurs d'imputation.
Monte Carlo : La simulation de Monte Carlo est une méthode d'exploration de scénarios. Plutôt que de donner une seule réponse, on fait varier au hasard les hypothèses incertaines (prix, délais, volumes) et on répète cette expérience des milliers de fois. On observe ensuite la distribution des résultats : quelle valeur est la plus probable ? quels sont les cas défavorables ? quelle est la chance de dépasser un seuil critique ? C'est une façon concrète de parler « risque » et « incertitude » avec des chiffres. Exemple : simuler l'EBITDA annuel selon variations de prix d'achat et de volumes de vente.
Power Automate : Power Automate est un outil d'automatisation proposé par Microsoft. Il relie facilement des applications (Outlook, SharePoint, Teams, ERP…) grâce à des « connecteurs » prêts à l'emploi. On définit des déclencheurs (par exemple, « à la réception d'un e-mail avec pièce jointe ») et des actions en chaîne (enregistrer le document, demander une validation, notifier une équipe). C'est une manière pragmatique d'éliminer des tâches répétitives sans écrire beaucoup de code. Exemple : automatiser le circuit d'approbation des demandes d'achat avec archivage et notification budgétaire.
Programmation linéaire : La programmation linéaire est une méthode d'optimisation qui trouve le meilleur plan quand l'objectif (coût, marge…) et les contraintes (capacités, budgets, priorités) peuvent s'exprimer par des relations simples. On traduit le problème en équations : celles qui décrivent l’objectif à atteindre (par exemple, maximiser la marge) et celles qui imposent des limites (budget, capacité, délais). Le solveur recherche alors automatiquement la combinaison de variables qui respecte toutes les contraintes tout en optimisant le résultat choisi. L'avantage est la transparence : chaque solution peut être vérifiée, ajustée et simulée facilement en modifiant une contrainte. Exemple : choisir le mix produits qui maximise la marge sous contraintes de capacités et de matières.
Q-learning : Le Q-learning est un apprentissage par essais et erreurs. Pour chaque situation possible, on estime l'intérêt de chaque action, et on améliore ces estimations à force de tester et d'observer le résultat. Au début, on explore ; ensuite, on utilise ce qui marche le mieux, tout en continuant un peu d'exploration pour ne pas passer à côté d'une meilleure stratégie. La lettre « Q » désigne la fonction qui mesure la qualité d'une action exécutée dans un état donné du système. Il est utile quand on n'a pas de « mode d'emploi » de l'environnement mais qu'on peut expérimenter. Exemple : optimiser l'ordre et l'intensité des promotions pour maximiser la marge cumulée.
Random Forest : La forêt d'arbres décisionnels ou Random Forest est une méthode qui combine beaucoup d'arbres de décision pour donner une prédiction plus stable. Chaque arbre voit une version légèrement différente des données, ce qui évite qu'un seul arbre apprenne trop les détails au détriment de la généralité. On obtient souvent de bonnes performances « par défaut », y compris quand il y a de nombreuses variables et des relations irrégulières. Autre atout : elle donne un indicateur de l'importance relative des variables. Exemple : prédire le risque d'impayé client pour ajuster limites de crédit et provisions.
Régression linéaire : La régression linéaire est un modèle simple et explicable qui relie une valeur à prédire (par exemple des ventes) à plusieurs facteurs (prix, publicité, saison). Elle cherche la relation « moyenne » la plus cohérente avec les données disponibles, ce qui en fait un point de départ solide. On peut inspecter l'influence de chaque facteur et vérifier si le modèle colle bien aux observations. Même quand on passera ensuite à des méthodes plus sophistiquées, elle reste une référence utile. Exemple : expliquer l'écart budget/réel de chiffre d'affaires par prix, mix produit et intensité promo.
Regex : Les « regex » sont un petit langage de motifs pour repérer, extraire ou vérifier des morceaux de texte. On peut, en quelques caractères, dire « je cherche deux chiffres, un slash, deux chiffres, un slash, quatre chiffres » pour reconnaître une date, ou vérifier la forme d'un identifiant. C'est un outil de base pour nettoyer des fichiers, contrôler des formulaires et automatiser des vérifications répétitives. Exemple : extraire numéros de facture, SIREN et taux de TVA à partir de PDFs pour rapprocher achats et commandes.
SVM : Le support vector machine (SVM) est un algorithme d'apprentissage supervisé utilisé pour classer, prédire une valeur ou détecter des anomalies. Il cherche à séparer les données en traçant une frontière qui maximise la distance entre les deux groupes les plus proches de cette ligne — ce qui rend le modèle plus robuste face aux nouveaux cas. Si la frontière n'est pas linéaire, SVM peut transformer les données pour obtenir une séparation claire dans un espace plus adapté. Cette méthode donne souvent d'excellents résultats lorsque les données sont bien préparées et que les variables sont nombreuses. Exemple : classer automatiquement les factures en OPEX ou CAPEX pour accélérer la clôture.
T5 : T5 est un modèle qui transforme un texte en un autre texte : traduire, résumer, répondre à une question, tout cela revient à « prendre une entrée textuelle et produire une sortie textuelle ». Ce point de vue unifié simplifie la mise en production : on change la consigne et quelques exemples, et l'on obtient un comportement adapté. C'est utile pour industrialiser des tâches variées autour des documents, avec une logique commune. Exemple : convertir des commentaires de clôture en synthèses lisibles par la Direction.
TF-IDF : Term Frequency-Inverse Document Frequency (TF-IDF) est une façon d'estimer l'importance des mots dans un ensemble de documents. Un mot très courant partout (comme « le ») n'aide pas à distinguer les textes, tandis qu'un mot assez fréquent dans un document mais rare ailleurs devient informatif. En pondérant ainsi chaque terme, on améliore la recherche, le regroupement et la classification de textes. TF-IDF est simple, efficace, et souvent une bonne base avant des méthodes plus avancées. Exemple : retrouver les contrats contenant des clauses d'indexation pour préparer une renégociation.
TSP : Le Travelling Salesman Problem (TSP), ou problème du voyageur, consiste à trouver la tournée la plus courte qui visite chaque point une seule fois et revient au départ. C'est un casse-tête connu : quand le nombre de points grandit, tester toutes les possibilités devient vite impossible. On utilise donc des méthodes qui donnent des parcours très bons (souvent quasi-optimaux) en un temps raisonnable. Le TSP sert de base à beaucoup de problèmes de tournées et de planification. Exemple : organiser la tournée d'inventaires physiques pour minimiser temps et coûts de déplacement.
UiPath : UiPath est une suite d'automatisation qui permet de créer et piloter des « robots logiciels ». Ces robots reproduisent des clics, des saisies et appliquent des règles de gestion sur différents outils de l'entreprise. L'intérêt est d'éliminer des tâches répétitives sources d'erreurs et de libérer du temps pour des activités à plus forte valeur ajoutée. La solution inclut la supervision, des journaux d'exécution et des contrôles d'accès. Exemple : lire des factures fournisseurs et saisir automatiquement les imputations analytiques dans l'ERP.
VRP : Le Vehicle Routing Problem (VRP) est un problème de tournées de véhicules plus réaliste que le TSP : il y a plusieurs véhicules, des capacités à ne pas dépasser, des horaires à respecter, des dépôts, et parfois des coûts différents selon les routes. Il faut décider qui livre quoi et dans quel ordre, tout en gardant un bon équilibre entre coût et qualité de service. On utilise des moteurs d'optimisation pour construire des plans solides et expliquer les compromis choisis. Exemple : planifier les livraisons pour réduire le coût logistique par commande et fiabiliser les budgets.
XGBoost : XGBoost est une méthode de prédiction très efficace quand les données se présentent sous forme de tableau (lignes = cas, colonnes = caractéristiques). Elle construit une succession de petits arbres de décision, chacun corrigeant un peu les erreurs du précédent, jusqu'à obtenir une bonne précision. Bien réglé, XGBoost donne des résultats solides, avec des moyens d'expliquer quels facteurs ont le plus pesé. Exemple : anticiper quels clients B2B risquent de résilier leur contrat afin de sécuriser le forecast de chiffre d'affaires et ajuster les objectifs.
Z-score : Le z-score est un indicateur standardisé qui indique à quelle distance une valeur se situe de la moyenne, en tenant compte de la dispersion typique des données. Concrètement, il permet de comparer des valeurs provenant d'ensembles différents et de repérer facilement les cas très éloignés du comportement habituel. C'est un outil simple pour détecter des « valeurs extrêmes ». Exemple : signaler des écarts de coût matière très au-dessus de l'historique pour lancer une analyse des causes.