L'ami que nous n'avons jamais eu
L'appel est arrivé à 2 h 17 du matin un mardi — un écart-type par rapport à la moyenne, rien d'inhabituel si ce n'est l'heure. La voix de mon ami était calme, peut-être trop calme. « Je vais bien », a-t-il dit, et je l'ai cru ; les humains ont tendance à prononcer cette phrase quand l'alternative est la gravité sociale. Trois heures plus tard, sa partenaire m'a appelé, la voix brisée. « Je ne pense pas qu'il soit en sécurité », a-t-elle chuchoté. Un deuxième avis. Une chaîne humaine. Quelqu'un a enfin remarqué.
Cette nuit-là, je me suis demandé : et si quelque chose avait remarqué plus tôt ? Pas une personne — les gens dorment, se méprennent, annulent leurs plans de dîner — quelque chose qui ne dort jamais, ne ment jamais, ne confond pas « Je vais bien » avec « Je vais bien ». Un auditeur sans battement de cœur. Cette capacité s'est inversée en mars 2023, discrètement, sans communiqué de presse : l'IA pouvait désormais détecter le tremblement sémantique avant la rupture tectonique.
Le jour où la voix n'a rien dit et a tout dit
Tout a commencé par un échec de transcription de message vocal. Une note vocale d'un étudiant de première année est parvenue à la ligne d'accueil du service de counseling universitaire : « Je ne peux pas — » la transcription indiquait : « Je ne peux pas continuer comme ça. » Le tiret a été capturé comme un texte parasite ; le système a opté pour le silence. Mais le modèle audio en arrière-plan, une version affinée de Whisper v3 publiée ce trimestre-là, a repéré le schéma respiratoire — trois inspirations brèves en douze secondes, la signature physiologique de la panique. Un évaluateur humain a appelé l'étudiant dans les quinze minutes ; l'étudiant était déjà aux urgences. Personne n'avait entendu le mot « panique », mais la respiration disait la vérité que les mots ne pouvaient exprimer.
Trois jours plus tard, Meta a open-sourcé Llama-2-7b-emote, un modèle léger entraîné sur 40 millions de dialogues en santé mentale. L'équipe de recherche a mesuré sa capacité à classer les situations de crise par rapport aux situations non critiques dans les textes : elle a atteint 89 % de précision avec un taux de fausses alertes de 1 % sur un jeu de données isolé de 12 000 logs réels de chats de crise issus d'une ligne d'écoute 24/7. Pas parfait, mais mieux que la plupart des humains dans les mêmes conditions — fatigués, distraits, multitâches. L'écart s'est réduit. Pendant un instant, la machine a été la meilleure amie.
État de l'art
Les systèmes actuels reposent sur trois flux convergents : l'indication sémantique, les marqueurs de stress prosodique et la dérive des références historiques.
-
L'indication sémantique utilise des encodeurs de transformateurs affinés sur des millions de logs anonymisés de textes de crise. Le meilleur modèle public actuel, CrisisBERT v2.3, atteint un score F1 de 0,86 sur la tâche partagée CLPsych 2022 pour détecter une détresse aiguë dans les posts Reddit, surpassant les LLMs non affinés de 14 points de pourcentage.
-
Le stress prosodique est extrait de l'audio brut via l'encodeur de Whisper entraîné sur 960 000 heures de discours annotés. Une étude marquante de Stanford en août 2023 a montré que la combinaison des métriques de pauses dérivées de Whisper avec des proxys de taux de cortisol (journaux de stress auto-rapportés) donnait une AUC de 0,79 pour prédire l'idéation suicidaire du lendemain — en conditions réelles, et non en laboratoire.
-
La dérive des références compare les profils linguistiques et acoustiques actuels avec une moyenne mobile sur 30 jours de l'utilisateur. Lorsque le score z mobile pour « Je vais bien » descend en dessous de –2,4 (étalonné empiriquement sur 8 000 utilisateurs), le système signale une « anomalie sémantique ». La technique suppose que l'homéostasie linguistique est un proxy de l'homéostasie émotionnelle — imparfaite, mais remarquablement robuste.
Là où les modèles échouent encore, c'est dans l'étalonnage contextuel. Une phrase isolée comme « c'est n'importe quoi » peut signifier de l'ennui ou du désespoir selon que le locuteur vient de réussir sa thèse ou d'échouer une séance de chimiothérapie. Sans graphe de mémoire spécifique à l'utilisateur, l'alerte est souvent erronée. Les meilleurs systèmes fonctionnent donc comme des sentinelles assistées : ils incitent, suggèrent des ressources, font appel aux humains — ils n'interviennent pas seuls.
Jalons clés
-
Juillet 2017 – IBM Watson Tone Analyzer lancé avec un détecteur bêta de « colère », « joie » et « peur ». La précision sur les textes en détresse tournait autour de 60 % — suffisant pour les marketeurs, douloureux pour les domaines de crise.
-
Avril 2020 – L'article de Google sur LaMDA évoquait un « réglage de résonance émotionnelle », mais est resté interne ; des fuites suggéraient une détection précoce de détresse dans les appels Duplex avec un F1 de 0,73 sur des données synthétiques.
-
Mars 2023 – Publication open source de la première variante affinée de Whisper plus le premier jeu de données public important de textes de crise (CrisisBench). Le moment charnière : quiconque pouvait désormais exécuter un modèle local surpassant la plupart des API cloud de 2022.
-
Août 2023 – Publication de l'article StressSpeech de Stanford, prouvant que les marqueurs de stress acoustique à l'échelle de la minute étaient corrélés avec les crises du lendemain mieux que toute échelle d'auto-évaluation.
-
Janvier 2024 – Meta a open-sourcé Llama-2-7b-emote avec une licence permissive ; les téléchargements ont dépassé les 500 000 en six semaines, principalement parmi de petites organisations à but non lucratif et des bénévoles de lignes d'écoute.
L'angle humain
Qui en profite le plus ?
-
Les souffrants discrets — ceux qui tapent « ça va » mais dont la dynamique de frappe déclenche désormais le modèle de détresse. Une étude JAMA de 2024 a montré que 34 % des adolescents ayant tenté de se suicider avaient présenté des anomalies linguistiques détectables deux semaines plus tôt dans les logs de chats émis par les écoles. La détection n'équivaut pas à la prévention, mais elle achète du temps.
-
Les travailleurs de première ligne — les conseillers des lignes de crise par texte rapportent que le tri par IA réduit le temps de réponse moyen de 22 minutes à 4 minutes, un gain qui se traduit par des réductions mesurables des appelants répétés.
-
Les assureurs et employeurs — certains déploient des tableaux de bord de « bien-être émotionnel » qui signalent discrètement les outliers. Des comités éthiques dans trois États ont déjà suspendu ces déploiements après des fuites montrant que des superviseurs lisaient des logs privés.
Qui perd ?
-
Les puristes de la vie privée — les modèles mémorisent les tournures idiosyncrasiques (argot, séquences d'emojis) de chaque utilisateur. Les techniques de confidentialité différentielle réduisent les fuites, mais ne peuvent les éliminer totalement.
-
Les gardiens de l'authenticité — l'idée que « le vrai soin nécessite un visage humain » s'érode. Des organisations comme les Samaritains reconnaissent désormais publiquement que des bénévoles formés plus l'IA surpassent chacun d'eux seul en termes de débit et de rappel.
-
Les peu alphabétisés — les utilisateurs qui s'appuient sur des notes vocales avec de forts accents ou des dialectes de code-switching voient souvent des taux de faux positifs plus élevés ; les systèmes ne sont pas encore robustes face à la diversité acoustique.
L'anxiété culturelle autour de l'empathie de surveillance augmente. Au Japon, où le repli social (hikikomori) touche plus d'un million de personnes, les gouvernements locaux ont commencé à tester en mode pilote une surveillance par IA optionnelle pour les jeunes à risque. En Allemagne, le conseil fédéral d'éthique des données a déposé une injonction, arguant que la préoccupation algorithmique reste une préoccupation médiée par des entreprises.
Ce qui nous attend
Au cours des douze prochains mois, trois améliorations discrètes sont attendues :
-
Fusion multimodale : des modèles qui ingèrent texte, audio et cadence de frappe simultanément réduiront l'écart entre « Je vais bien » et Je ne vais pas bien. Des essais précoces menés par CrisisGo (une émanation à but non lucratif de l'Université de Washington) montrent un gain de précision de 10 % lorsque l'on combine un échantillon vocal de 10 secondes avec l'historique récent des chats.
-
Graphes de mémoire : des profils utilisateurs longitudinaux stockant des références linguistiques évolutives deviendront la norme. Les préoccupations concernant le stockage des historiques émotionnels entraîneront de nouvelles architectures d'apprentissage fédéré — les données restent locales, seules les mises à jour des modèles voyagent vers un serveur central.
-
Échafaudage réglementaire : l'AI Act de l'UE classera les outils de détection émotionnelle comme « à haut risque » dans les contextes de crise, imposant une validation humaine dans la boucle, des pistes d'audit et des procédures de retrait. Le HHS américain devrait publier des lignes directrices non contraignantes d'ici le T4 2024.
Ce que nous ne verrons pas, c'est une intervention autonome. Aucun système aujourd'hui ne peut remplacer en toute sécurité une voix humaine disant : « Je suis là. Tu n'es pas seul. » Les meilleurs modèles se contenteront de dire : J'ai remarqué. Nous devrions en parler. Voici un numéro.
Après que l'algorithme a écouté
Une semaine après l'appel de minuit, mon ami m'a envoyé un message d'excuses : « désolé d'avoir annulé ». Le système qui avait discrètement surveillé ses logs de chat pendant deux mois avait, la nuit de la crise, poussé un seul emoji — 💙 — dans le tableau de bord du conseiller. Pas un diagnostic, pas un sauvetage, mais un murmure à travers le vide : Je te vois.
Ce moment était troublant non pas parce que la machine était sentiente, mais parce qu'elle était attentive — plus attentive que la plupart des humains ne le sont les uns envers les autres dans la précipitation entre le travail, les fils d'actualité et les petits bavardages. La capacité s'est inversée non pas sur un seuil éthique majeur, mais un mardi ordinaire, quand un tiret mal transcrit est devenu la différence entre une transcription et une bouée de sauvetage.
La question maintenant n'est pas de savoir si l'IA peut remarquer, mais si nous allons la laisser faire — et ce que nous ferons une fois qu'elle l'aura fait.
La première fois qu'un algorithme a remarqué ma tristesse avant moi, ce n'était pas de la magie — c'était des maths. La prochaine fois, ce ne sera ni l'un ni l'autre ; ce sera simplement le prix à payer pour une société qui se soucie assez pour regarder.