Développer une compétence de transcription vidéo Bilibili

Certains lecteurs m’ont demandé s’il était possible d’automatiser la prise de notes à partir de vidéos Bilibili. J’ai créé une compétence pour cela et je la publie maintenant en open source.

Cette compétence fonctionne ainsi : donnez-lui un lien Bilibili, elle télécharge automatiquement l’audio de la vidéo, l’envoie à une IA pour transcription, utilise une autre IA pour générer un résumé, et enfin enregistre la transcription complète et le résumé dans une boîte de réception Obsidian.

L’ensemble du processus ne nécessite aucune opération manuelle ; il suffit d’attendre un peu et c’est terminé.

Outils nécessaires

Cette compétence nécessite quelques outils pour fonctionner ensemble.

yt-dlp

C’est un outil en ligne de commande pour télécharger l’audio/vidéo de diverses plateformes. La compétence l’utilise pour télécharger le flux audio des vidéos Bilibili sous forme de fichiers M4A.

Installation sur macOS (recommandée) :

brew install yt-dlp

Si vous n’avez pas Homebrew, vous pouvez également installer via pip :

pip install yt-dlp

ffmpeg

yt-dlp dépend de ffmpeg pour le traitement audio ; sans lui, des erreurs peuvent survenir.

brew install ffmpeg

Python 3

La compétence inclut un script Python qui gère les appels API, le traitement des fichiers et le rendu des modèles. macOS est généralement livré avec Python 3 ; vérifiez avec :

python3 -V

Tant que vous voyez un numéro de version, c’est bon. Aucune version spécifique n’est requise.

API Gemini (Transcription audio)

La transcription utilise le modèle Gemini de Google, plus précisément gemini-3-flash-preview.

Ce modèle dispose d’un quota gratuit quotidien pour les comptes Google standards, suffisant pour une utilisation quotidienne. Si vous dépassez le quota, vous obtiendrez une erreur 429 ; attendez simplement le lendemain pour que le quota soit réinitialisé.

Obtenez une clé API sur : aistudio.google.com

Une fois à l’intérieur, cliquez sur Get API key à gauche et créez-en une.

API DeepSeek (Résumé de contenu)

Le résumé utilise DeepSeek, qui correspond bien à mes habitudes de résumé.

Obtenez une clé API sur : platform.deepseek.com

Créez un compte, puis créez une clé API. L’API DeepSeek est très abordable ; un petit rechargement dure longtemps.

Installation et utilisation

Étape 1 : Télécharger le pack de compétence

Téléchargez depuis mon blog : https://blog.discoverlabs.ac.cn/downloads/bili-to-obsidian-skill/

Après extraction, placez le dossier dans ~/.claude/skills/, en vous assurant que le chemin est ~/.claude/skills/bili_to_obsidian/.

Étape 2 : Remplir la configuration

Ouvrez ~/.claude/skills/bili_to_obsidian/scripts/bili_to_obsidian.py et trouvez les premières lignes :

API_KEY = "YOUR_GEMINI_API_KEY"
DEEPSEEK_API_KEY = "YOUR_DEEPSEEK_API_KEY"

TEMPLATE_PATH = Path("/path/to/your/Obsidian-vault/02-Templates/Note.md")
OUTPUT_DIR = Path("/path/to/your/Obsidian-vault/00-Inbox")

Modifiez ces champs :

YOUR_GEMINI_API_KEY : Remplacez par la clé obtenue sur aistudio.google.com
YOUR_DEEPSEEK_API_KEY : Remplacez par la clé obtenue auprès de DeepSeek
TEMPLATE_PATH : Remplacez par le chemin complet de votre modèle de note Obsidian
OUTPUT_DIR : Remplacez par le chemin complet de votre boîte de réception Obsidian

Si vous n’utilisez pas de modèle de note Obsidian, vous pouvez définir TEMPLATE_PATH sur un chemin inexistant ; le script générera un format de base si le modèle n’est pas trouvé, ce qui fonctionne quand même.

Étape 3 : Invoquer

Dans Claude Code, entrez :

/bili_to_obsidian paste-the-Bilibili-video-link-here

Attendez ensuite la fin ; cela prend généralement quelques minutes.

Remarques importantes

Le quota gratuit de Gemini est limité par jour. Si vous traitez beaucoup de vidéos en une journée et rencontrez une erreur 429, vous avez dépassé le quota. Attendez le lendemain pour que le quota soit réinitialisé. Si vous le dépassez fréquemment, créez plusieurs comptes Google et alternez les clés API.

Les lignes de chemin doivent être modifiées pour les vôtres. Celles du pack téléchargé proviennent de mon ordinateur ; les utiliser directement provoquera des erreurs.

Le format est basé sur mon modèle Obsidian. Si la structure de votre modèle diffère, le contenu de la transcription pourrait être mal placé. Dans ce cas, donnez simplement le script à une IA, décrivez la structure de votre modèle et demandez-lui d’ajuster les points d’ancrage.

Téléchargement

Téléchargez depuis mon blog (j’ai supprimé mes propres clés API) :

https://blog.discoverlabs.ac.cn/downloads/bili-to-obsidian-skill/

J’utilise cette compétence depuis un certain temps. Elle est particulièrement pratique pour transcrire des vidéos éducatives Bilibili et les enregistrer directement dans Obsidian pour référence.

De plus, le téléchargement audio utilise yt-dlp, qui prend en charge non seulement Bilibili mais aussi des centaines de sites vidéo comme YouTube, Twitter, Douyin, etc. Cette compétence n’est donc pas limitée à Bilibili ; vous pouvez l’utiliser avec des liens d’autres plateformes. N’hésitez pas à l’essayer et à l’étendre davantage.