Una aproximación a la
transcripción de videos usando Python
¿Es posible utilizar el lenguaje Python para ayudarnos a la transcripción de videos (o audios)?
Intentaremos buscar una respuesta a esta interrogante, explorando algunas librerías que nos ofrece Python para conseguir este objetivo mediante un ejercicio simple.
#Transcripcion #Python #MoviePy #SpeechRecognition
Librerías a explorar:
- MoviePy
- SpeechRecognition
Como punto de partida tenemos que contar con el video que utilizaremos para experimentar esta metodología de transcripción. Recomendamos utilizar para las pruebas un audio de poca duración.
Comenzaremos por instalar ffmpeg y MoviePy desde la interfaz que sea de su preferencia (PyCharm, Google Colab, Jupyter Notebook u otro)


#Transcripcion #Python #MoviePy #SpeechRecognition
Librerías a explorar:
- MoviePy
- SpeechRecognition
Como punto de partida tenemos que contar con el video que utilizaremos para experimentar esta metodología de transcripción. Recomendamos utilizar para las pruebas un audio de poca duración.
Comenzaremos por instalar ffmpeg y MoviePy desde la interfaz que sea de su preferencia (PyCharm, Google Colab, Jupyter Notebook u otro)
#Manos a la obra!
pip install ffmpeg moviepy
Luego importaremos la librería MoviePy
Procedemos a procesar el archivo que queremos transcribir (asegurate de tener bien definida la ubicación del archivo). Para ello utilizaremos la función VideoFileClip:
Utilizando las funciones audio y write_audiofile, extraemos el audio del video (verifica la carpeta donde se almacenará el audio).
Ya que tenemos el archivo de audio, ahora toca importar la librería Speech Recognition
import speech_recognition as sr
El último paso previo será definir la variable reconocedora a través de la función Recognizer y depurar el archivo de audio sacando ruidos blancos o de ambiente aplicando las funciones AudioFile, adjust_for_ambient_noise y record como lo mostramos a continuación.
Y ahora, finalmente procedemos a transcribir el audio final seleccionando el lenguaje que queremos identificar.
En nuestro caso seleccionamos español de Chile (es-CL). Para esto llamamos a la función recognize_google.
Nota: Google soporta una gran cantidad de lenguajes y distintos acentos según país. Por ejemplo, en español podemos encontrar: es-CO (Colombia), es-Bo (Bolivia), es-PE (Perú), es-AR (Argentina), etc. Puedes revisar todos los idiomas disponibles en este enlace.
Facilitador

Felipe Castro Gutiérrez
- Geógrafo de la Universidad Católica de Temuco.
- Magíster (c) en Planificación Territorial. Docente de pregrado con 5 años de experiencia en las áreas de Cartografía, Sistemas de Información Geográfica, Teledetección y Planificación Territorial para carreras como Geografía, Ingeniería en Geomensura, Agronomía, Geología, Antropología y Arqueología.