Estación Lastarria

Web Scraping en R para Ciencias Sociales

En la actualidad, el mundo digital se ha expandido enormemente, lo que ha llevado a un crecimiento exponencial de los datos disponibles. Cada día, se generan cantidades masivas de información en línea, desde publicaciones en redes sociales hasta registros públicos y sitios web especializados en áreas específicas. Este aumento de la disponibilidad de datos en línea ha llevado a una creciente demanda de técnicas de recolección y análisis de datos, como el web scraping, para ayudar a comprender y aprovechar estos datos

En este curso de 5 sesiones se enseñará a los estudiantes los fundamentos y  técnicas de web scraping utilizando R y RStudio, para la recolección y análisis de datos en ciencias sociales. Se profundizará en los conceptos de web scraping estático y dinámico, mostrando sus diferencias y entregando herramientas para decidir entre uno y otro dependiendo del proyecto. Se realizarán demostraciones y actividades practicas para realizar web scraping estático y dinámico utilizando librerías como rvest y RSelenium.

Horario

Miércoles de 19:00 a 21:30 hs
desde el miércoles 18 de octubre
(5 sesiones)

Usuarios

20 Cupos Disponibles
¡No te quedes fuera!

CLP$100.000

Paga con Transferencia Electrónica, Tarjeta Crédito/Débito, Pay Pal o Criptomonedas

Inscríbete Ahora

Sobre el Curso

Objetivo general

Capacitar a los estudiantes en técnicas de web scraping utilizando R y RStudio para la recolección y análisis de datos en ciencias sociales.

Objetivos específicos:

  1. Comprender los conceptos básicos de web scraping y su aplicación en ciencias sociales.
  2. Familiarizarse con el paquete rvest y su aplicación en el web scraping estático.
  3. Aprender a utilizar RSelenium para el web scraping dinámico.
  4. Desarrollar habilidades en la limpieza y manipulación de datos recolectados mediante web scraping.
  5. Aplicar las técnicas aprendidas en la recolección y análisis de datos de interés en ciencias sociales.

Estudiantes de pregrado y posgrado, y profesionales en ciencias sociales interesados en aprender técnicas de web scraping

  • Conocimientos básicos en estadística y programación en R y RStudio.
  • Cada estudiante deberá contar con un computador portátil operativo.
  • Es deseable un manejo intermedio del idioma inglés.

El curso se basará en la metodología de enseñanza activa, donde los estudiantes aprenderán a través de la práctica y la resolución de problemas reales. Se realizarán talleres prácticos y se asignarán ejercicios para completar fuera del aula.

Se llevarán a cabo 5 talleres prácticos, cada uno de 2,5 horas de duración. Los talleres se centrarán en la enseñanza de técnicas de web scraping utilizando R y RStudio, y se aplicarán en la recolección y análisis de datos de interés en ciencias sociales.

Descarga el Programa completo de este curso

Programa del Curso

Sesión 1
Introducción al web scraping y
al paquete rvest

  • Introducción a R y RStudio
  • Datos estructurados y no estructurados
  • Tipos de datos en linea (JSON, XML, HTML)
  • Conceptos básicos del web scraping estático con rvest.

Sesión 2
Recolección de datos utilizando rvest

 
  • Discusión de proyectos de los participantes y preguntas frecuentes.
  • Web scraping avanzado con rvest.
  • Web Scraping de datos estructurados y no estructurados.
  • Manejo de errores y excepciones.

Sesión 3
Introducción a RSelenium y web scraping dinámico

  • Evaluación de modelos y selección de número de tópicos
  • Especificación de modelos e interpretación de resultados
  • Visualización de tópicos con LDAvis y stmBrowser

Sesión 4
Recolección de datos utilizando RSelenium

  • Instalación y configuración de docker desktop.
  • Escribir funciones para scraping de sitios complejos.
  • Limpieza y manipulación de datos recolectados.

Sesión 5
Buenas prácticas en el uso de técnicas de web scraping

  • Optimización de código y proyectos de webscraping.
  • Consideraciones éticas y legales en el web scraping.
  • Herramientas y recursos adicionales para el web scraping en R.

Facilitador

Ignacio Toledo

Ingeniero Civil Electrónico, Doctorado (Ph.D.) en Ciencias de la Complejidad Social de la Universidad del Desarrollo y una Maestría (M.Sc.) en Ciencias de la Ingeniería con mención en Ingeniería Eléctrica de la Universidad de Concepción. 

Ha desempeñado roles de analista de datos en distintos contextos, tanto en la industria como en la academia. Anteriormente, se desempeñó como científico de datos y coordinador de analítica en los Programas TIDEM y RedBios, liderados por la Facultad de Diseño de la Universidad del Desarrollo (UDD) y financiados por el Gobierno Regional del Biobío. 

Actualmente, ejerce como investigador en la Facultad de Diseño de la Universidad del Desarrollo. Su investigación se distingue por el uso de métodos provenientes de las ciencias sociales computacionales para el estudio de ecosistemas regionales de innovación, la gestión del diseño, el diseño e innovación sostenible, y el diseño sistémico. 

¿Tienes alguna duda?