Dans les coulisses : 1,5 million de crédits ElevenLabs et la décision de revenir à NotebookLM
Publié le 4 mai 2026 — Patrick de Carvalho, CEO Apps Velocity
Selon le rapport MIT NANDA de juillet 2025, 95 % des projets IA en entreprise échouent. Pas par manque de modèles. Par manque de stratégie en amont. Sept dirigeants de PME sur dix ratent leurs projets IA, et nous, on a failli rater le nôtre. Pas un projet client. Le nôtre. Notre podcast. Voici exactement comment, pourquoi, et ce qu'on en a tiré comme méthode.
Sommaire
- Le besoin réel : 126 épisodes, pas 1, pas 10
- Les promesses commerciales des deux outils
- L'expérimentation ElevenLabs Studio v3 en détail
- Pourquoi ça ne marche pas pour ce cas d'usage
- Les vrais cas d'usage où ElevenLabs reste imbattable
- L'expérience NotebookLM : pourquoi le résultat est supérieur
- Les leçons de méthode pour un dirigeant qui choisit en 2026
- La bascule, exactement comment on l'a faite
- Trois actions concrètes pour décider maintenant
- FAQ
En bref
ElevenLabs vs NotebookLM : pour produire un podcast à deux voix sur 126 épisodes, NotebookLM Studio l'emporte en 2026 sur le ratio temps/qualité conversationnelle. ElevenLabs Studio v3 produit des voix d'une qualité supérieure mais reste un moteur de lecture, pas de dialogue. NotebookLM improvise la conversation à partir de la source, ce qu'aucun script préécrit n'arrive à reproduire. Coût mensuel quasi identique (≈ 20 $/mois). Coût opérationnel : NotebookLM ×17 plus rapide que la production manuelle ElevenLabs.
1. Le besoin réel : 126 épisodes, pas 1, pas 10
Quand on parle d'outils IA pour les dirigeants de PME, on lit beaucoup de tests sur un épisode de démonstration. Cinq minutes. Une voix sympa. « Magique. » Ce n'est pas un test. C'est une démo.
Notre besoin réel, sur le projet podcast RAPID, est d'un autre ordre.
| Paramètre | Valeur |
|---|---|
| Nombre d'épisodes | 126 |
| Cadence | 2 épisodes par semaine, mardi + vendredi 06h00 |
| Durée d'un épisode | 10 à 15 minutes |
| Format | Dialogue conversationnel à 2 voix journalistes |
| Plateforme de diffusion | Acast |
| Démarrage | Rétroactif au 6 janvier 2026 |
| Durée totale de diffusion | 14 mois |
| Stratégie | Antéchronologique, pour disposer de 4 mois d'antériorité au lancement public du livre |
Le livre RAPID — Patrick de Carvalho et Pascal Roche, Éditions JNPJ, 420 pages, 11 chapitres et 6 annexes, sortie le 11 mai 2026 — est dense. Méthode RAPID© en cinq phases : Recenser, Analyser, Piloter, Itérer, Déployer. Chaque épisode du podcast doit transformer un fragment du livre en conversation à deux voix qui tient l'auditeur 12 minutes en moyenne.
Ce n'est plus un test outil. C'est un test industriel. Sur ce volume, la moindre friction ergonomique se multiplie par 126. Une faiblesse qui passerait inaperçue sur un épisode unique devient un mur de cinq jours de clics quand on l'extrapole.
C'est cette grille de lecture qu'il faut adopter avant de choisir un outil IA, en 2026 comme avant. Pas la démo. Le périmètre réel.
2. Les promesses commerciales des deux outils
Avant de raconter ce qu'on a fait, voici ce qu'on lit sur les pages produit en avril 2026.
ElevenLabs Studio v3. « Most expressive AI voice model. » 70+ langues. Audio tags inline [curious], [laughs], [skeptical], [short pause] pour piloter l'émotion mot à mot. Endpoint Text-to-Dialogue dédié au multi-voix. Selon ElevenLabs, le modèle v3 réduit de 68 % les erreurs sur les textes complexes (formules chimiques, numéros de téléphone). La promesse : qualité hollywoodienne, contrôle absolu.
NotebookLM Studio (Google). « Audio Overviews » — deux voix IA qui débattent, plaisantent, font des analogies, condensent une source en podcast immersif. Format paramétrable (deep dive, brief, critique, débat). Mode interactif. Plan Pro à 19,99 $/mois. La promesse : un podcast en trois minutes.
Les deux promesses sont vraies. Toutes les deux. Le piège, c'est qu'elles ne s'appliquent pas au même cas d'usage. Et personne ne vous le dit.
3. L'expérimentation ElevenLabs Studio v3 en détail
On a commencé par ElevenLabs. Notre intuition de départ : avec 126 épisodes à produire, on veut le maximum de contrôle. Donc l'outil qui permet de piloter chaque mot, chaque pause, chaque émotion. Logique. Erreur.

Le setup
- Plan Pro, 1,5 million de crédits achetés (équivalent ≈ 30 à 50 heures audio selon le modèle).
- Voix retenues après tests : Charles Pestel pour V1, Victoire pour V2. Timbres complémentaires, articulation française irréprochable, registres journalistiques.
- 126 scripts dialogués V1/V2 produits avec Claude en collaboration éditoriale, format strict :
[V1] : Bienvenue dans cet épisode du podcast RAPIDE. [curious] Pascal, on parle aujourd'hui de la Phase R...
[V2] : Exactement. [pause] Et le plus contre-intuitif, c'est que la majorité des dirigeants commencent par la mauvaise question.
Chaque épisode comporte une trentaine de segments alternés, soit environ 3 800 nodes au total sur les 126 épisodes.
Workflow manuel testé sur les 4 premiers épisodes
Dans l'interface Studio v3, chaque segment doit être collé puis associé à la voix correspondante via un menu déroulant. Trente segments par épisode × 126 épisodes = 3 780 clics manuels minimum, sans compter les corrections phonétiques (RAPID écrit « RAPIDE » pour que le moteur prononce « rapide » et non « ré-a-pé-i-dé », Carvalho écrit « Carvalo » pour éviter le « lho » portugais, JNPJ écrit « ji-èn-pé-ji »).
Estimation à plat : 5 jours de travail humain ininterrompu pour un seul opérateur. Sur des semaines de travail réelles, comptez deux semaines.
Workflow API testé en parallèle
Pour contourner l'interface, on a écrit un script PowerShell qui attaque l'API Studio v3 :
- authentification par clé API ;
- payload
multipart/form-dataavec un node JSONfrom_content_jsonportant le texte segmenté et levoice_idpar node ; - création d'un projet, déclenchement du rendu, polling sur les snapshots ;
- téléchargement du MP3 final.
Faisable. Documenté. Mais le format from_content_json reste capricieux sur les retours à la ligne, les caractères spéciaux français et la position des audio tags. Chaque épisode demande une étape de validation manuelle pour vérifier que la segmentation a tenu. On a stabilisé un script viable. Le coût d'ingénierie n'est pas négligeable.
Le résultat sonore : 4 MP3, et un constat
EP00, EP00B, EP001, EP002 produits manuellement. Voix Charles Pestel et Victoire impeccables. Chaque mot maîtrisé. Audio tags qui fonctionnent. Pas un seul accident de prononciation sur RAPID, Carvalho ou JNPJ.
Et pourtant. À l'écoute des quatre épisodes mis bout à bout, le verdict tombe. Pas un dialogue. Une présentation alternée.
V1 lit son paragraphe. V2 lit le sien. V1 reprend. V2 enchaîne. Aucune relance. Aucune surprise. Aucun « ah, intéressant », aucun micro-rire, aucune respiration imprévue. Le moteur lit, magnifiquement, mais il ne converse pas.
Patrick a tranché en une phrase, casque sur les oreilles : « NotebookLM, c'est carrément un niveau supérieur sur le côté conversationnel. »
Cette phrase a coûté un mois d'expérimentation, 1,5 million de crédits et un script PowerShell de 400 lignes. Elle valait le coup.
4. Pourquoi ça ne marche pas pour ce cas d'usage
Trois raisons. Aucune n'est une faiblesse d'ElevenLabs. Toutes sont des inadéquations entre l'outil et le besoin.
Un script lu reste un script lu. Même piloté par les meilleurs audio tags du marché, un texte préécrit garde la rigidité d'un texte préécrit. Les pauses sont placées par l'auteur. Les hésitations sont planifiées. Les relances sont scriptées. L'auditeur le sent en quinze secondes. Il n'y croit pas.
L'alternance V1/V2 ne fait pas un dialogue. Un dialogue humain, c'est de l'écoute mutuelle, du rebond, du désaccord, du « attendez, vous voulez dire que… ». Un script à deux voix où chaque voix lit son tour, c'est une lecture à deux pupitres. Excellent pour un livre audio à deux narrateurs. Mortel pour un podcast.
L'effort ergonomique tue la productivité. À 30 segments par épisode, on est dans une logique de chaîne d'assemblage. Industrialiser avec ElevenLabs Studio v3 demande soit 5 jours de clics manuels par lot de 126, soit un développement API stable. Sur la durée d'une saison, c'est tenable. Mais le ratio temps investi/qualité ressentie n'est pas favorable face à NotebookLM.
Voilà la vraie leçon. Ce n'est pas qu'ElevenLabs « est moins bon ». C'est qu'ElevenLabs ne fabrique pas de la conversation, il fabrique de la lecture. Et notre besoin était de la conversation.
5. Les vrais cas d'usage où ElevenLabs reste imbattable
Je tiens à le dire clairement, parce que les retours d'expérience honnêtes ne sont jamais des verdicts. ElevenLabs Studio v3 reste, en mai 2026, l'outil de référence sur plusieurs cas d'usage où aucun concurrent ne le surclasse.
| Cas d'usage | Pourquoi ElevenLabs gagne |
|---|---|
| Livre audio mono-voix | Contrôle phonétique absolu, registre narratif tenu sur 8 heures sans dérive |
| Personnage récurrent (jeu vidéo, doublage, série animée) | Voice cloning d'une voix de référence, reproductibilité parfaite épisode après épisode |
| Voice cloning marketing client | Cloner la voix du dirigeant pour ses formations internes ou son onboarding |
| Publicité radio à fort enjeu commercial | Audio tags pour piloter l'émotion mot à mot, conformité au copy strict |
| Livre audio multilingue | 70+ langues avec qualité homogène, idéal pour une diffusion internationale |
| Documentaire narratif scripté | Voix off à émotions calibrées, contrôle ligne par ligne |
Sur ces cas, ne testez pas NotebookLM. NotebookLM ne sait pas faire. Il fait autre chose.
L'erreur du dirigeant pressé en 2026, c'est de chercher « le meilleur outil IA audio ». Cet outil n'existe pas. Existent des outils adaptés à des cas d'usage. ElevenLabs et NotebookLM ne sont pas concurrents : ils sont complémentaires.
6. L'expérience NotebookLM : pourquoi le résultat est supérieur
On bascule. Et on observe.
Le workflow NotebookLM Studio
- Une source
.mdchargée dans le notebook. Cette source est le contenu verbatim du chapitre du livre, étoffé de quelques exemples terrain, débarrassée des QCM et des tableaux qui parasitent la voix off. - Un prompt collé dans le champ « Personnaliser » du Studio. Trois à cinq phrases. On indique le format souhaité (deep dive), la durée cible (12 minutes), l'angle (« deux journalistes économiques qui démontent la méthode RAPID© »), et les éléments à mettre en valeur. C'est tout.
- Clic sur « Generate ».
- Trois minutes plus tard : un MP3 conversationnel à deux voix.

Pourquoi le résultat est supérieur
Le moteur improvise le dialogue à partir de la source. Il ne lit pas un texte qu'on lui a écrit. Il construit la conversation, ce qui change tout.
Les deux voix se relancent. Une dit « ah, intéressant, vous voulez dire que… » et l'autre rebondit avec une analogie. Il y a des micro-rires, des « hum », des pauses naturelles, des reformulations qui sonnent comme deux journalistes en studio. Pas parce que l'outil simule mieux. Parce qu'il fabrique le dialogue, au lieu de le lire.
« Audio Overview takes your dry, text-heavy sources and converts them into a stunningly realistic podcast with two AI hosts who banter, make jokes, use analogies. » — Documentation NotebookLM 2026
C'est exactement ce qu'on observe à l'écoute.
La contrepartie honnête
Trois faiblesses qu'il faut connaître.
Moins de contrôle phonétique. Sur RAPIDE, Carvalho et JNPJ, la première version dérapait. Solution : on adapte la source elle-même. Dans le .md chargé, on écrit RAPIDE en majuscules pour forcer le rapide-mot, Carvalo sans le « h » muet portugais, et JNPJ écrit « JNPJ » avec un glossaire d'introduction qui guide le moteur. Quatre lignes en haut de source. Réglé.
Moins de fidélité ligne à ligne. Le moteur improvise, donc il choisit. Il peut omettre un détail qu'on jugeait important, ou en ajouter un sur lequel on n'avait pas insisté. Solution : structurer la source en hiérarchisant — l'essentiel en haut, le détail en bas, et on accepte que le moteur priorise comme il l'entend.
Moins de paramétrage fin. Pas d'audio tags. Pas de réglage de pause. On vit avec.
Ces trois contreparties, mises dans la balance avec le rendu conversationnel, sont des contreparties acceptables. Largement.
7. Les leçons de méthode pour un dirigeant qui choisit en 2026
J'écris cet article comme dirigeant pour des dirigeants. Voici les quatre leçons que je retiens, et que j'utilise désormais avec mes clients quand on aborde un choix d'outil IA.
Leçon 1 — Distinguer « qualité de la voix » et « qualité de la conversation »
Ce ne sont pas les mêmes outils. Ce ne sont pas les mêmes moteurs. Ce ne sont pas les mêmes architectures. Quand un commercial vous vend « la meilleure voix IA », demandez-lui : lecture ou conversation ? Si c'est lecture (livre audio, voix off, narration), ElevenLabs et ses équivalents dominent. Si c'est conversation (podcast à deux voix, débat, interview simulée), NotebookLM et ses équivalents dominent. Aucun outil ne fait les deux à un niveau professionnel en 2026.
Leçon 2 — Le coût caché de l'ergonomie
Un clic ne coûte rien. 3 800 clics coûtent une semaine. Avant tout déploiement IA, multipliez le geste élémentaire par le volume cible, et regardez le résultat. Si le résultat est en jours-homme, vous avez un problème de méthode, pas un problème d'outil.
C'est exactement ce que dit la Phase A (Analyser) de la méthode RAPID© : avant d'industrialiser, on instrumente le coût opérationnel réel, en temps humain, pas seulement en euros.
Leçon 3 — L'illusion du contrôle
L'intuition naturelle d'un dirigeant : « je veux contrôler ». Donc l'outil qui offre le plus de paramètres gagne. C'est faux. Plus de paramètres = plus de surface ergonomique = plus de friction. Plus de paramètres ne veut pas dire plus de qualité finale. Cela veut dire plus d'effort pour atteindre la qualité.
Sur notre projet, ElevenLabs offrait plus de contrôle. NotebookLM en offrait moins. Le résultat NotebookLM était supérieur. Parce que l'outil avait été conçu pour la conversation, pas pour la lecture. Le bon paramètre, c'est l'outil. Pas les sliders dans l'outil.
Leçon 4 — Tester sur le périmètre réel, pas sur la démo
Pas un épisode. Cinq épisodes. Pas un cas favorable. Un cas représentatif, avec ses bizarreries phonétiques, son volume réel de segments, ses délais réels. La démo ment toujours par sélection. Le périmètre réel ne ment jamais.
Cette règle vaut pour le podcast IA. Elle vaut pour tous les outils IA qu'on évalue en PME, sans exception. Plus de 150 projets accompagnés depuis fin 2013 par Apps Velocity me l'ont confirmé : ce qui pilote la décision, c'est le test sur volume représentatif, pas le pilote sur cas idéal.
8. La bascule, exactement comment on l'a faite
On ne jette pas un mois de travail. On le recycle. Voici la bascule, méthodique.
| Asset produit avant la bascule | Devenir après la bascule |
|---|---|
126 scripts ElevenLabs .md dialogués V1/V2 |
Recyclés en transcripts officiels : SEO blog, show notes Acast, sous-titres YouTube si extension vidéo |
| 4 MP3 ElevenLabs (EP00, EP00B, EP001, EP002) | Conservés en archive interne. Comparatif sonore disponible si demande |
| 1,5 M crédits ElevenLabs Pro | Réaffectés à d'autres usages : voix off livre audio FR, voix off livre audio EN, formations internes |
| Script PowerShell API ElevenLabs Studio v3 | Conservé pour cas d'usage mono-voix futurs |
Et nouveau workflow NotebookLM, opérationnel en moins d'une semaine :
- Pour chaque épisode, on extrait du livre RAPID le fragment de source pertinent (chapitre, sous-section, annexe).
- On nettoie le fragment : suppression des QCM, des tableaux complexes, des appels de note. On enrichit éventuellement avec un cas terrain non publié dans le livre.
- On ajoute en haut un mini-glossaire phonétique de quatre lignes :
RAPID = rapide,Carvalho = Carvalo,JNPJ = ji-èn-pé-ji,Beyond Coder = biyonde codeur. - On charge la source dans NotebookLM.
- On colle un prompt court (3 à 5 phrases) dans Personnaliser : format deep dive, durée 12 min, deux journalistes économiques, angle terrain.
- On clique Generate. Trois minutes.
- On télécharge le MP3, on le passe dans Canva pour finalisation (musique d'intro/outro, normalisation).
- Upload Acast, planification de la diffusion.
Temps moyen par épisode, hors préparation de la source : 18 minutes. Pour 126 épisodes : ≈ 38 heures de production audio sur la saison entière. À comparer aux 5 jours par lot manuel ElevenLabs, sans même compter les corrections.
9. Trois actions concrètes pour décider maintenant
Si vous lisez cet article comme dirigeant qui se pose la question des outils audio IA en 2026, voici trois actions à prendre cette semaine.
Action 1 — Définissez votre cas d'usage en une phrase. « Lecture de mon livre audio en mono-voix. » Ou : « Podcast conversationnel à deux voix sur 50 épisodes. » Ou : « Voix off de mes formations internes. » Tant que la phrase n'est pas claire, le choix d'outil est un coup de dés.
Action 2 — Testez sur 5 unités, pas sur 1. Cinq épisodes. Cinq chapitres. Cinq publicités. Sur la cinquième unité, vous saurez si l'outil tient le rythme ou si chaque unité demande deux fois plus d'effort que la précédente. Cinq, c'est le nombre où la fatigue ergonomique apparaît.
Action 3 — Calculez le coût par geste × volume cible. 30 clics par épisode × 126 épisodes = 3 780 clics. 1 source .md × 126 épisodes = 126 chargements. Comparez. Le bon outil, c'est celui dont le geste élémentaire est compatible avec votre volume. Pas celui dont la voix est la plus belle sur la démo.
Ces trois actions découlent directement de la méthode RAPID©. Recenser : qu'est-ce que je veux produire, en quel volume ? Analyser : quel est le coût opérationnel réel par unité ? Piloter : sur quel périmètre je teste avant d'industrialiser ? Itérer : qu'est-ce que j'apprends à chaque cycle ? Déployer : à quelle condition je passe à l'échelle ?
Je ne perds jamais. Soit je gagne, soit j'apprends. Sur ce projet podcast, on a beaucoup appris en un mois. Et on a gagné une saison entière de 126 épisodes derrière.
10. FAQ
Quel est le meilleur outil de podcast IA en 2026 ? Il n'y a pas de « meilleur outil » universel. Pour un podcast à deux voix conversationnel, NotebookLM Studio domine en 2026 grâce à son moteur d'improvisation de dialogue. Pour une narration à voix unique, un livre audio, une voix off scriptée ou une publicité radio à fort enjeu, ElevenLabs Studio v3 reste imbattable. Le choix dépend du cas d'usage, pas de la marque.
Combien coûte la production d'un podcast IA en 2026 ? Pour une saison de 126 épisodes à deux voix, le coût mensuel d'un plan NotebookLM Pro tourne autour de 19,99 $/mois, soit ≈ 280 $ sur 14 mois de production. Le coût mensuel d'un plan ElevenLabs Pro est d'environ 99 €/mois. La différence majeure n'est pas dans le tarif : elle est dans le temps humain de production, qui peut varier d'un facteur 17 selon l'outil retenu.
ElevenLabs vs NotebookLM : lequel choisir pour ma PME ? Posez-vous une seule question : voulez-vous de la lecture ou de la conversation ? Lecture = ElevenLabs. Conversation = NotebookLM. Si vous hésitez, c'est que votre cas d'usage n'est pas encore clair. Reformulez-le avant de choisir l'outil.
Combien de temps pour produire un épisode de podcast IA en 2026 ? Avec NotebookLM Studio, comptez 15 à 20 minutes par épisode hors préparation de source : 3 minutes de génération + 12 à 15 minutes de finalisation (édition, intro/outro, upload). Avec ElevenLabs Studio v3 en mode manuel et 30 segments par épisode, comptez 45 minutes à 1 h par épisode, sans compter les corrections phonétiques.
Peut-on utiliser ElevenLabs et NotebookLM ensemble ? Oui, et c'est même la recommandation. NotebookLM pour les épisodes conversationnels du podcast. ElevenLabs pour la voix off du livre audio mono-voix associé, pour les formations internes en voix clonée du dirigeant, et pour toute publicité ou bande-annonce nécessitant un contrôle phonétique absolu. Les deux outils ne se substituent pas : ils se complètent.
Comment fiabiliser la prononciation des noms propres dans NotebookLM ?
On adapte la source plutôt que l'outil. En haut du fichier .md chargé, ajoutez un mini-glossaire phonétique de trois à cinq lignes (« Carvalho se prononce kar-va-lo », « RAPID se prononce rapide », « JNPJ se prononce ji-èn-pé-ji »). Le moteur de NotebookLM indexe ces consignes et les applique sur l'ensemble de la sortie audio. Quatre lignes valent mieux que dix audio tags.
Sources
- MIT NANDA, State of AI in Business 2025, MIT Sloan, 2025-07, résumé via ELMARQ
- Denis Atlan, Baromètre IA & ROI PME France 2022-2025 (200 déploiements), denisatlan.fr, 2025, denisatlan.fr/barometre-ia-pme
- France Num, Baromètre France Num 2025 : le numérique et l'IA dans les TPE et PME, francenum.gouv.fr, 2025, francenum.gouv.fr
- ElevenLabs, Eleven v3 Documentation et Audio Tags, elevenlabs.io, 2026, elevenlabs.io/v3
- ElevenLabs, Pricing 2026 — Creator & Pro Plans, elevenlabs.io, 2026, elevenlabs.io/pricing
- NotebookLM (Google), Audio Overviews & Studio Features 2026, notebooklm.google, 2026, recap via DigitalOcean
- France Num, Podcast « Les PME & l'IA : histoires vécues », francenum.gouv.fr, 2026, francenum.gouv.fr
À propos de l'auteur. Patrick de Carvalho est CEO d'Apps Velocity, société fondée fin 2013, spécialisée dans le déploiement de l'IA en PME et ETI françaises. Plus de 150 projets accompagnés. Co-auteur avec Pascal Roche du livre RAPID (Éditions JNPJ, 11 mai 2026, 400 pages), qui détaille la méthode RAPID© en cinq phases : Recenser, Analyser, Piloter, Itérer, Déployer. Site officiel : rapid.appsvelocity.com