R для антиковедов. Часть 1: Извлечение данных из HTML & XML

Любое количественное исследование в гуманитаристике начинается с поиска и обработки необходимого текста или корпуса текстов. Многие античные источники сегодня доступны в форматах html/xml, которые позволяют извлечь не только сам текст, но и метаданные, леммы (начальные формы слов) и др. Умение работать с документами в таких форматах — первый шаг на пути к компьютерному анализу текстов. В рамках проекта участники овладеют навыками парсинга html/xml в R и подготовят выбранный источник для дальнейшего изучения. Работа осуществляется дистанционно, асинхронно. Для студентов ВШЭ запись по ссылке открыта до 17 марта: https://pf.hse.ru/568022956.html

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s