Introducción al Procesamiento del Lenguaje Natural en RStudio
[Curso modo no presencial]
El objetivo del presente taller es introducir los elementos conceptuales, metodológicos y técnicos relativos a cada uno de los eslabones de la cadena de valor del trabajo con datos para efectos del procesamiento de lenguaje natural o datos de texto. En particular, el desarrollo de las técnicas de análisis de texto ha permitido el cierre de la brecha entre el análisis “cuantitativo” y “cualitativo” en ciencias sociales, por lo cual los prospectos de futuro en esta familia de técnicas es bastante amplio. Por su parte, la cadena de valor del trabajo con datos se compone de la adquisición (carga de datos de texto), preprocesamiento (limpieza de texto), análisis (descriptivo), visualización (gráficos) y descubrimiento (clasificación y reducción de dimensiones)
Horario:
Lunes de 19:00 a 22:00 horas a partir del lunes 10 de Agosto
15 cupos disponibles
Curso modo no presencial ¡No te quedes fuera!
CLP$100.000
Consultar opción de pago PayPal 4 Sesiones (12 horas)
Descripción
Objetivos
Objetivos generales:
Desarrollar los fundamentos que permiten la introducción del procesamiento de lenguaje natural.
Objetivos específicos:
Presentar el panorama general en el modelamiento y aplicaciones en procesamiento de lenguaje natural
Desarrollar herramientas de adquisición y limpieza de documentos de texto
Introducción a los principales modelos de representación de documentos (Bag of words, modelo booleano, modelo vectorial y modelo TF-IDF)
Desarrollar técnicas para el análisis y visualización de texto
Público Objetivo
Estudiantes en proceso de finalización o estudiantes de postgrado del área de las Ciencias Sociales, Humanidades y Ciencias de la Administración. Profesionales de las mismas áreas mencionadas.
Requisitos mínimos
Al ser un taller introducción a técnicas no convencionales para el análisis de datos, se requiere de un énfasis cuantitativo en el perfil de los inscritos.
Cada participante deberá contar con un computador, de preferencia, con sistema operativo Windows para cada sesión del
¡Inscribete ya!
Programa del Curso
12 Horas
Sesión 1:
Introducción
El procesamiento de lenguaje natural: breve historia y principales aplicaciones en Ciencias Sociales
Fundamentos del procesamiento de lenguaje natural
Instalación y principales herramientas de programación en R Studio
Sesión 2:
Adquisición, limpieza y preparación de datos de texto
Librerías para la adquisición de texto en distintos formatos
Limpieza de datos de texto
Manejo de estructuras de datos para posterior modelamiento (Data frames, corpus/vocabulario; matrices término-documento; matrices de coocurrencia)
La ley de Zipf y la Ley de Heap en el comportamiento general de los datos de texto
Sesión 3:
Modelos de representación de documentos de texto
El modelo “Bag of Words”, el vocabulario como conjunto de frecuencias simples
El modelo booleano: el vocabulario como conjunto de datos binarios.
El modelo vectorial: el vocabulario como conjunto de pesos distribuidos a lo largo de un conjunto de documentos
Sesión 4:
Modelos para el análisis de texto
Repaso modelo TF-IDF
Análisis de texto mediante técnicas de clasificación y reducción de dimensiones: cluster y PCA
Principios de visualización de datos de texto.
Facilitador
Rodrigo Fernández Albornoz: Sociólogo y Magister en Economía Aplicada de la Universidad de Chile.
Diploma de Postítulo en Ciencia e Ingeniería de Datos del Departamento de Computación de la Universidad de Chile y Diploma en Internet de las Cosas y sus aplicaciones a la industria de la Escuela de Ingeniería de la Pontificia Universidad Católica de Chile.
Con experiencia en el sector público, privado y académico, actualmente es Coordinador y Docente del Programa de Diplomado en Data Mining de la Facultad de Administración y Economía de la Universidad de Santiago, e Investigador del Laboratorio de I+D+i empresarial del Centro de Innovación UC.