Les streamers virtuels peuvent‑ils s’imposer dans le live e‑commerce ?
En 2016, la vague du live e‑commerce a balayé le marché et a connu une croissance fulgurante. Fin 2021, une série d’affaires — l’épisode du « nid d’hirondelle » de Xinba, le scandale fiscal de Viya, l’arrêt prolongé des lives de Li Jiaqi et le retrait progressif de Luo Yonghao — ont refroidi la filière et marqué l’entrée officielle dans la seconde mi‑temps du live e‑commerce.
Parallèlement, le concept de métavers a explosé et la piste des humains numériques virtuels est devenue brûlante. Même si le métavers Web3 n’est pas encore pleinement arrivé, les personnages virtuels sont déjà partout sous les projecteurs : galas de Nouvel An, publicités de marque, co‑animation d’émissions, ventes en live, etc.
Lors du Double 11 de 2022, la plateforme JD.com a utilisé « Youguang », un produit de live virtuel grand public de Morpho Technology. Le streamer virtuel a participé à sept sessions de live, pour une durée cumulée de 1 380 minutes, plus de 500 références mises en avant et un GMV total proche de 3 millions de RMB. Au milieu de la nuit, on voit également des humains numériques dans de nombreuses rooms de marques. Alors, les streamers virtuels peuvent‑ils remplacer les animateurs humains ? Cet article examine les difficultés des agences MCN et des marques dans le live e‑commerce, la valeur et les limites des streamers virtuels pilotés par « humain derrière l’avatar » et par l’IA, ainsi que l’avenir du triptyque « personne‑produit‑scénario » dans les studios live intelligents.
Le live e‑commerce entre dans sa seconde mi‑temps
Selon le 50ᵉ Rapport statistique sur le développement d’Internet en Chine (2022), le nombre d’utilisateurs du live e‑commerce a atteint 469 millions, soit 5,33 millions de plus qu’en décembre 2021 et 44,6 % de l’ensemble des internautes. Les données de NetEconomics indiquent qu’en 2021, le volume des transactions du live e‑commerce a atteint 2 361,51 milliards de yuans, pour un taux de pénétration de 17,97 %. Malgré les turbulences, la popularité du live e‑commerce ne faiblit pas.
Aujourd’hui, le live e‑commerce se dirige progressivement vers plus de maturité et de régulation. Les catégories de produits se sont étendues au‑delà des cosmétiques, de la mode et de l’alimentaire, pour couvrir l’ameublement, la puériculture, le sport & outdoor et bien d’autres segments. Les méthodes d’animation sont passées de simples opérations promotionnelles à des formats de contenu variés : vulgarisation, slogans rythmés, saynètes scénarisées, etc. Dans le même temps, les plateformes renforcent la supervision des marchands et la compétition se joue de plus en plus sur les capacités opérationnelles globales.
Agences MCN : le casse‑tête de la gestion des talents
Fin 2021, la Chine comptait plus de 20 000 agences MCN, la croissance ralentissant à mesure que le « gâteau du trafic » atteignait un plafond. Dans ce contexte hautement concurrentiel, les MCN adoptent des stratégies multi‑plateformes et multi‑comptes pour se disputer le trafic et les audiences. Par exemple, « Make a Friend » (Jiao Ge Pengyou) s’appuie sur l’influence de Luo Yonghao sur Douyin pour élargir sa base d’utilisateurs et gère 17 comptes en matrice, permettant aux consommateurs de choisir la room qui leur convient.
La gestion des talents est le défi central des agences MCN. D’un côté, il est difficile de recruter et les coûts de main‑d’œuvre ne cessent d’augmenter ; de l’autre, une fois les animateurs devenus célèbres, ils peuvent quitter l’agence et entraîner une perte de trafic. Pour les retenir, les MCN doivent améliorer salaires et avantages. La gestion des super‑animateurs est encore plus délicate : l’affaire fiscale de Viya ou le conflit entre Li Ziqi et son agence ont servi d’avertissement à tout le secteur. Quand une superstar quitte le navire ou fait scandale, les pertes pour l’agence sont considérables. C’est pourquoi les plateformes et les MCN élargissent sans cesse leurs matrices de talents et diversifient leurs activités afin de réduire la dépendance à un petit nombre de « têtes d’affiche ».
Les animateurs e‑commerce, pris dans une concurrence féroce
Le succès du live e‑commerce tient à deux valeurs différenciantes offertes aux consommateurs : le « mieux » et le « moins cher ». Dans une room, les clients peuvent voir directement l’apparence et les fonctionnalités des produits, pendant que l’animateur assure les démonstrations — essayage de vêtements, tests de maquillage, etc. Les spectateurs peuvent aussi interagir en temps réel avec l’animateur pour obtenir plus d’informations : c’est la « valeur informationnelle ». À force d’échanges, une relation affective se tisse entre l’animateur et son audience ; cette connexion et cette confiance constituent la « valeur de crédit », c’est‑à‑dire le « mieux ». Le « moins cher » vient de l’agrégation de la demande : seuls les animateurs de tête peuvent jouer pleinement les économies d’échelle et négocier des prix avantageux de manière continue.
Pour concrétiser ces valeurs, un animateur doit posséder des capacités fortes de présentation, d’interaction et de gestion du stress. La présentation implique de transmettre la valeur du produit avec expressivité, expertise et charisme personnel. L’interaction exige une communication efficace avec le public, des réponses précises et un renforcement de la confiance d’achat. La résistance au stress signifie rester performant sous haute pression, sans laisser les émotions négatives déborder dans la room.
D’après le Rapport 2021‑2022 sur le développement des MCN en Chine, le nombre d’animateurs de live e‑commerce devait atteindre 1,234 million en 2022. Outre les animateurs professionnels, de nombreuses célébrités et KOLs de niches se sont également lancés dans la vente en direct. L’effet Matthieu des têtes d’affiche est déjà visible : « Make a Friend » tourne en mode « live 7×24 h », tandis que Oriental Selection diffuse environ 17,5 heures par jour. Des marques comme L’Oréal, Florasis ou Li‑Ning recourent à des streamers virtuels en nocturne pour assurer un live continu 24 h sur 24. Mais alors, comment ces streamers virtuels se comportent‑ils réellement ?
Les streamers virtuels peuvent‑ils remplacer les humains ?
Aujourd’hui, les humains numériques virtuels sont principalement pilotés de deux manières : par un « humain derrière l’avatar » et par l’IA.
L’« humain derrière l’avatar » est la personne qui contrôle le streamer virtuel pendant le live. Grâce à la motion capture et à la capture faciale, il permet l’interaction entre le personnage virtuel et le monde réel. Un kit de capture de mouvement corps entier coûte environ 29 000 yuans, avec 800 yuans de frais annuels pour le logiciel ; un équipement de capture faciale revient à environ 6 000 yuans. L’opérateur est « l’âme » du personnage virtuel, l’avatar n’en étant que la « coquille ». Le pilotage par IA, lui, repose sur des technologies d’IA pour créer, animer et générer le contenu du personnage, lui conférant des capacités de perception et d’expression ; l’avatar peut analyser des entrées extérieures et générer voix et mouvements pour interagir avec les utilisateurs.
Pilotage humain : plus de show que de vente
Les streamers virtuels pilotés par un humain séduisent les spectateurs par la nouveauté de leur format et sont très appréciés des agences MCN, qui y voient un moyen d’obtenir davantage de trafic. Mais ils ne peuvent pas tester les produits en direct comme de vrais animateurs, si bien qu’un assistant humain est souvent nécessaire pour mettre en avant les points forts : rendu du maquillage sur la peau, tombé d’un vêtement, etc.
Après la « chute » de Viya, certains se sont demandé si les streamers virtuels pilotés par un humain ne risquaient pas de connaître les mêmes dérives. L’idole virtuelle japonaise Kizuna AI a perdu en popularité après un changement d’opérateur, et le groupe d’idoles virtuelles A‑Sou a suscité l’indignation des fans en raison du mauvais traitement réservé aux personnes derrière les avatars. Ces cas montrent que les fans attachent plus d’importance à l’« âme » qu’à l’apparence virtuelle. Cela remet en question l’idée selon laquelle les idoles virtuelles seraient un modèle à faible coût et faible risque : l’éthique et le professionnalisme des opérateurs sont tout aussi essentiels.
Les animateurs e‑commerce ont, de fait, une dimension d’idole. Si Li Jiaqi est apprécié par « toutes les filles », c’est parce que les fans le trouvent authentique et porteur d’énergie positive. La confiance et le lien émotionnel se construisent sur la personne réelle. Pour les MCN, exploiter des streamers virtuels pilotés par un humain n’est donc pas un pari sans risque.
Pilotage par IA : une technologie encore immature
Des marques comme L’Oréal, YSL ou Lancôme utilisent des streamers virtuels pilotés par IA pour leurs propres lives. Mais leurs performances restent en deçà de celles des animateurs humains, si bien qu’ils sont généralement programmés sur des créneaux nocturnes. La version de base du studio intelligent d’Alibaba Cloud est facturée 99 000 yuans par an et par flux, incluant la génération intelligente de scripts, l’interaction multimodale et l’intégration intelligente avec les plateformes marketing.
Sur Taobao, les avatars des studios intelligents sont le plus souvent des personnages 3D de style cartoon, dotés de bibliothèques de mouvements riches et de voix de synthèse réalistes, avec un style de vente dynamique. Les marques peuvent personnaliser les tenues de leurs streamers virtuels : dans le flagship The North Face, l’avatar porte par exemple les vêtements de la marque. La présentation produit repose principalement sur des visuels, avec des effets de texte qui apparaissent à l’écran lorsque l’avatar met en avant les points clés. Le décor de la room présente une profondeur 3D pour créer un arrière‑plan virtuel interactif ; lors des présentations produits, un fond bleu permet d’incruster les images des articles. Le déroulé d’interaction est assez standardisé : message de bienvenue, incitation à s’abonner et à commander, séquences de questions‑réponses, etc.
Le flagship JD exploité par L’Oréal utilise un avatar 2D semi‑réaliste, qui peut être créé en entraînant le modèle à partir d’une simple vidéo de deux minutes. La présentation des produits s’inspire fortement des lives humains : les visuels sont alignés devant l’avatar. Mais comme celui‑ci ne peut pas manipuler physiquement les produits, les tests manquent de crédibilité et peuvent susciter le rejet des utilisateurs. À ce stade, les streamers virtuels pilotés par IA ressemblent davantage à des « vases décoratifs » : ils attirent surtout les curieux et se contentent d’introductions basiques et de réponses simples aux questions.
Studios intelligents : personnes, produits et scénarios
Avatars virtuels : une belle enveloppe et une âme intéressante
Les humains numériques virtuels se déclinent en une grande variété de styles visuels, du 2D au 3D, du cartoon à l’hyper‑réalisme. Plus le réalisme est poussé, plus les coûts de production sont élevés. En 2022, une vidéo d’humain virtuel hyper‑réaliste coûtait entre 8 000 et 15 000 yuans par seconde, et la production d’une vidéo de quatre minutes mettant en scène l’influenceuse virtuelle Liu Yexi a dépassé le million de yuans. Avec les progrès de la modélisation, les barrières techniques, les coûts et les délais devraient néanmoins diminuer.
Des figures hyper‑réalistes comme Liu Yexi ou AYAYI attirent une grande attention, mais la « fille d’à côté » virtuelle Angie a conquis les fans par son style réconfortant. Comme le dit l’adage : « Les visages jolis se ressemblent tous, les âmes intéressantes sont rares. » Les capacités d’un humain virtuel peuvent être copiées, mais pour se démarquer, il faut un positionnement clair, un contenu de qualité et un travail de long terme. Les technologies AIGC réduisent le coût de création, mais des contenus vraiment remarquables reposent toujours sur l’imagination humaine.
La plus grande valeur du live réside dans l’interaction. Renforcer l’interactivité améliore le sentiment de présence et influence fortement la décision d’achat. La zone de commentaires est le principal canal d’échange entre l’animateur et le public ; il est donc crucial d’améliorer la capacité des avatars à analyser ces messages. Les humains virtuels doivent évaluer la pertinence et l’importance des commentaires, détecter l’humeur des utilisateurs et l’atmosphère générale, puis générer des réponses adaptées. En combinant des modèles comme ChatGPT avec des graphes de connaissances, les streamers virtuels pilotés par IA pourront prendre des décisions plus intelligentes et produire des réponses plus complètes et plus profondes, ce qui enrichira l’expérience d’interaction et incitera davantage de spectateurs à rester en room.
Présentation des produits : l’exigence de réalisme
Le cœur d’un live repose sur le réalisme – dans la présentation, l’essai et l’évaluation des produits – mais c’est précisément le plus grand défi pour les streamers virtuels. Le bad buzz de la streamer virtuelle Ling lors d’un live beauté a montré qu’un avatar sans problème de peau ne peut guère susciter d’empathie. Même si des technologies 3D comme le SLAM améliorent l’interaction entre humains numériques et environnement réel, il reste difficile d’atteindre un véritable réalisme dans la manipulation des produits, tandis que les utilisateurs réclament toujours plus de détails.
Le Rapport 2022 sur l’indice global d’évaluation des humains numériques virtuels distingue trois étapes de développement : la phase « humanisée », où les mouvements, l’apparence et la voix du personnage correspondent grosso modo à ceux d’un humain, avec une première communication temps réel basée sur l’IA ; la phase « comparable à l’humain », où l’on passe de la simple imitation visuelle à une interaction émotionnelle de haute qualité ; et la phase « surhumaine », où les capacités des humains virtuels dépassent celles des personnes réelles et où le « virtuel » tend à devenir une entité à part entière. Peut‑être faudra‑t‑il encore une dizaine d’années avant que les streamers virtuels, dotés de corps physiques réalistes, puissent véritablement s’imposer dans les studios de live e‑commerce.
Des décors en mutation, un champ des possibles infini
Le décor n’est pas aussi fondamental que la « personne » et le « produit », mais des effets visuels soignés peuvent retenir davantage les spectateurs. Les studios virtuels sur fond vert restent une solution économique : grâce à l’incrustation, il est possible de créer rapidement des arrière‑plans virtuels, et certaines applications mobiles de keying sur fond vert ne coûtent qu’un abonnement unique de 288 yuans. Le coût de construction d’un décor virtuel dépend toutefois de l’échelle et de la complexité : plus le studio est grand et sophistiqué, plus l’investissement est élevé. À l’avenir, la démocratisation des équipements de MR devrait accélérer l’itération technologique : les utilisateurs pourront alors se retrouver plongés au cœur de la scène, interagir avec le décor, les animateurs et les autres spectateurs, et vivre une expérience d’achat immersive et réellement interactive.
