Introducción al Procesamiento del Lenguaje Natural en RStudio

[Curso modo no presencial]

El objetivo del presente taller es introducir los elementos conceptuales, metodológicos y técnicos relativos a cada uno de los eslabones de la cadena de valor del trabajo con datos para efectos del procesamiento de lenguaje natural o datos de texto. En particular, el desarrollo de las técnicas de análisis de texto ha permitido el cierre de la brecha entre el análisis “cuantitativo” y “cualitativo” en ciencias sociales, por lo cual los prospectos de futuro en esta familia de técnicas es bastante amplio. Por su parte, la cadena de valor del trabajo con datos se compone de la adquisición (carga de datos de texto), preprocesamiento (limpieza de texto), análisis (descriptivo), visualización (gráficos) y descubrimiento (clasificación y reducción de dimensiones)

Horario:

Lunes de 19:00 a 22:00 horas
a partir del lunes 10 de Agosto

15 cupos disponibles

Curso modo no presencial
¡No te quedes fuera!

CLP$100.000

Consultar opción de pago PayPal
4 Sesiones (12 horas)

Descripción

Objetivos
  • Objetivos generales:
  • Desarrollar los fundamentos que permiten la introducción del procesamiento de lenguaje natural.
  • Objetivos específicos:
  • Presentar el panorama general en el modelamiento y aplicaciones en procesamiento de lenguaje natural
  • Desarrollar herramientas de adquisición y limpieza de documentos de texto
  • Introducción a los principales modelos de representación de documentos (Bag of words, modelo booleano, modelo vectorial y modelo TF-IDF)
  • Desarrollar técnicas para el análisis y visualización de texto
Público Objetivo
Requisitos mínimos

¡Inscribete ya!

Programa del Curso

12 Horas

Sesión 1:
Introducción

  • El procesamiento de lenguaje natural: breve historia y principales aplicaciones en Ciencias Sociales
  • Fundamentos del procesamiento de lenguaje natural
  • Instalación y principales herramientas de programación en R Studio




Sesión 2:
Adquisición, limpieza y preparación de datos de texto

  • Librerías para la adquisición de texto en distintos formatos
  • Limpieza de datos de texto
  • Manejo de estructuras de datos para posterior modelamiento (Data frames, corpus/vocabulario; matrices término-documento; matrices de coocurrencia)
  • La ley de Zipf y la Ley de Heap en el comportamiento general de los datos de texto

Sesión 3:
Modelos de representación de documentos de texto

  • El modelo “Bag of Words”, el vocabulario como conjunto de frecuencias simples
  • El modelo booleano: el vocabulario como conjunto de datos binarios.
  • El modelo vectorial: el vocabulario como conjunto de pesos distribuidos a lo largo de un conjunto de documentos



Sesión 4:
Modelos para el análisis de texto

  • Repaso modelo TF-IDF
  • Análisis de texto mediante técnicas de clasificación y reducción de dimensiones: cluster y PCA
  • Principios de visualización de datos de texto.











Facilitador

Felipe Ruiz  Bruzzone
Rodrigo Fernández Albornoz: Sociólogo y Magister en Economía Aplicada de la Universidad de Chile.
  • Diploma de Postítulo en Ciencia e Ingeniería de Datos del Departamento de Computación de la Universidad de Chile y Diploma en Internet de las Cosas y sus aplicaciones a la industria de la Escuela de Ingeniería de la Pontificia Universidad Católica de Chile.
  • Con experiencia en el sector público, privado y académico, actualmente es Coordinador y Docente del Programa de Diplomado en Data Mining de la Facultad de Administración y Economía de la Universidad de Santiago, e Investigador del Laboratorio de I+D+i empresarial del Centro de Innovación UC.

Mantengamos el Contacto

Contactanos para ser parte de nuestro CoWork


CONTACTAR

Síguenos

Copyright © 2017 Estación Lastarria. Todos los Derechos Reservados.
Diseño por DesignSeo Marketing Digital & SEO

Search