Non classé

Au-delà du “wrapper” : comment l’IA générative redessine l’économie des médias


Le dernier rapport “Future of AI” de Google for Startups dresse le portrait d’une industrie à l’aube d’une bascule : effondrement des coûts de production, avènement du “vibe design” et redéfinition du rôle de l’entrepreneur. Huit dirigeants et investisseurs y livrent leurs paris. Décryptage, et ce que cela change vu d’ici.

Le temps où il suffisait de brancher une interface conversationnelle sur un grand modèle de langage pour lever des fonds est révolu. C’est le constat qui traverse tout le recueil que vient de publier Google for Startups. L’écosystème a tranché : les simples “wrappers”, ces fines couches applicatives posées sur les API d’OpenAI ou d’Anthropic, n’ont plus de valeur défendable. Pour survivre, il faut intégrer l’intelligence artificielle au cœur des workflows.

Dans son avant-propos, Darren Mowry, vice-président Global Startups chez Google, résume la promesse en deux mots : “vibe design”. Une époque où la maîtrise technique s’efface devant la capacité à formuler une vision. Si vous pouvez le décrire, la machine peut le générer. Le cycle qui va de l’idée à l’échelle se comprime à un rythme inédit. Le reste du rapport décline cette thèse, intervenant après intervenant. Reste à savoir lesquels de ces paris se réaliseront, et à quelles conditions.

La vidéo d’entreprise : le crépuscule de PowerPoint

Première cible désignée : le texte statique. À mesure que le coût marginal de la production vidéo s’effondre, le monde de l’entreprise s’apprêterait à abandonner ses longs documents et ses interminables diaporamas.

C’est l’analyse de Victor Riparbelli, cofondateur et PDG de la licorne Synthesia. Pour lui, l’écart de coût historique entre la rédaction d’un mémo et la production d’une vidéo est en train de s’évaporer. Il prédit un monde où des clips de 45 secondes remplaceront les longues présentations, et où les programmes de formation deviendront plus faciles à digérer. L’ère des “collègues IA” et des avatars servant de jumeaux numériques aux dirigeants ou aux formateurs cesserait d’être une hypothèse pour devenir un levier de productivité.

Le pari est crédible côté entreprise. Il reste à prouver côté audience, là où la fatigue vidéo et la défiance envers les avatars sont déjà des réalités.

Le storytelling comme dernier rempart

Si l’exécution technique se marchandise, quelle barrière à l’entrée reste-t-il aux créateurs ? Le récit, répondent en chœur plusieurs intervenants.

Joaquín Cuenca Abela, PDG de Freepik, anticipe un basculement économique du cinéma d’ici deux à trois ans, les productions assistées par l’IA générant selon lui plus de revenus que le cinéma traditionnel. Mais loin d’annoncer la mort de l’art, il y voit un déplacement de l’humain vers un rôle de directeur créatif. Sa formule est plus nuancée qu’il n’y paraît : l’IA aura du goût, dit-il, et ce goût sera copiable. Ce qui ne l’est pas, c’est le vécu humain, cet ensemble d’expériences uniques que la machine ne peut pas répliquer. C’est là que se logerait la valeur rare.

La même logique frappe le jeu vidéo. Selon David Benjamin, du Creative Lab de Google, des développeurs solos concevront bientôt des mondes interactifs dignes des studios AAA, ouvrant la voie à des jeux “liquides” qui adaptent leur gameplay et leur narration au comportement du joueur. Son conseil aux fondateurs est moins euphorique que sa prédiction : dans un monde où chaque développeur solo accède à la génération d’actifs de niveau AAA, la différenciation se fera par des récits humains et une identité forte, pas par la technologie.

Vers un monde “post-clavier” et hyper-personnalisé

Côté infrastructure, le séisme s’annonce tout aussi radical. Grace Isford, partner chez Lux Capital, décrit un futur “post-clavier”, porté par des interfaces neuronales capables d’intuiter nos commandes. Pour soutenir ces nouvelles modalités, le cloud centralisé devra coexister avec des essaims de modèles miniatures, capables de tourner directement sur l’appareil. Elle insiste sur un point que le reste du rapport effleure : ces interfaces sont nettement plus gourmandes en calcul, et le marché aura besoin de nouvelles entreprises d’infrastructure pour répondre à cette demande.

Cette omniprésence de l’IA court-circuiterait les médias de masse. Darian Shirazi, de Gradient, prédit l’ascension des créateurs indépendants hyper-spécialisés. Les marques médiatiques historiques, souvent perçues à travers des prismes idéologiques, perdraient leur hégémonie au profit d’individus qui ont creusé un sujet en profondeur. Bonne nouvelle pour le journalisme indépendant, à condition de miser sur l’expertise vérifiable plutôt que sur le volume.

La prime à l’authenticité contre le “AI slop”

Paradoxe central du rapport : la facilité de création engendre son propre antidote. La prolifération de contenus génériques, ce “AI slop” que tout le monde redoute, va revaloriser l’authenticité et la profondeur émotionnelle.

Grace Wang, cofondatrice et CMO d’OpusClip, le formule clairement : à mesure que la production vidéo devient abordable, les éléments humains comme le jugement narratif, le goût et le point de vue prennent une valeur exponentielle. Elle pointe au passage une faille précieuse : les audiences locales préfèrent encore les voix authentiques et les sous-titres traduits aux voix off générées, parce que l’IA ne capte pas encore l’émotion d’une vraie voix. Une opportunité de marché, dit-elle, pour les startups qui sauront combler ce vide.

Et demain ? Les agents ne se contenteront plus de transcrire vos réunions. Dans la vision de Sami Ede, de Leonardo.Ai, ils orchestreront des campagnes de bout en bout, du personnage central à la transition vidéo en passant par l’ambiance sonore. Son avertissement aux fondateurs est plus terre à terre : on ne construit plus des outils, mais des workflows complets, et il faut composer avec la rareté des GPU et les coûts de distribution.

L’arsenal est prêt

Pour catalyser cette transition, Google déploie déjà son catalogue. Le rapport met en avant Gemini Image (Nano Banana) pour la génération visuelle haute fidélité avec cohérence des personnages, Veo pour la vidéo cinématique pouvant aller jusqu’à la 4K avec audio synchronisé, Lyria pour la musique professionnelle, Gemini Audio pour la voix expressive, et Genie, un modèle qui simule image par image la physique d’environnements interactifs. L’outillage est réel et impressionnant. Il a aussi une particularité : il appartient à celui qui publie le rapport.

Ce que cela change, vu d’ici

Et c’est là que l’enthousiasme du rapport rencontre une frontière qu’il ne voit pas. Toutes ces promesses, la vidéo à coût nul, les agents qui orchestrent, les mondes interactifs en temps réel, reposent sur une base que le document tient pour acquise : le calcul. Shirazi parle de demande régionale en data centers comme d’une évidence, Ede rappelle que les GPU sont rares, Isford réclame de nouvelles infrastructures vidéo. Mais la carte mentale qui sous-tend tout cela ne contient ni le Maghreb ni l’Afrique.

C’est précisément le travail que ni Gemini ni Google ne feront à notre place. Pour un marché qui fonctionne en darija, en arabe dialectal et dans des dizaines de langues africaines, la faiblesse de l’IA sur la voix et le contexte culturel n’est pas un détail, c’est une porte d’entrée défendable. Et tant que l’infrastructure de calcul nord-africaine restera invisible dans les statistiques mondiales, elle restera hors des flux d’investissement que ce rapport décrit avec tant d’assurance.

En 2026, la question pour les fondateurs d’ici ne sera donc pas seulement “quelle profondeur d’expérience humaine mon produit libère-t-il ?”. Elle sera aussi, et d’abord : où vit le compute qui rend ce produit possible, et qui le contrôle ?

Walid Naffati

Source : Google for Startups, “Future of AI : Perspectives on generative media for startups”.
Facebook Comments

Plus Populaires

To Top