Введение в информационный поиск (information retrieval)
Описание курса:
Цель курса - знакомство с основами информационного поиска: строением поисковых систем, алгоритмами обработки коллекций неструктурированных текстов и оценкой эффективности поиска.
Практические задачи решаются на языке программирования Python.
Задачи изучения дисциплины:
- Изучение основных типов и видов данных и основ их машинной обработки.
- Знакомство с автоматической индексацией сайтов (кролинг, парсинг, веб-скрейпинг).
- Знакомство с автоматической обработкой текстовых документов.
- Навыки разработки поискового робота.
Практические занятия включают создание проекта поисковой системы или ее части в команде.
Ориентировано на студентов, интересующихся лингвистикой и/или информационными науками.
Дисциплина связана с областями компьютерной лингвистики, алгоритмизации и программирования. В лабораторные входит ознакомление с языком Python. Знание Python необязательно, но необходимо понимание основ программирования на любом языке (переменные, циклы, функции). Также необходимо знание английского языка на уровне 11 класса школы.
Основная литература:
- Маккинли, Уэс Python и анализ данных / Уэс Маккинли ; перевод А. Слинкина. — 2-е изд. — Саратов : Профобразование, 2019. — 482 c. — ISBN 978-5-4488-0046-7. — Текст : электронный // Цифровой образовательный ресурс IPR SMART : [сайт]. — URL: https://www.iprbookshop.ru/88752.html (дата обращения: 23.03.2022). — Режим доступа: для авторизир. пользователей
Дополнительная литература:
- Manning, Christopher D., Raghavan, Prabhakar, Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008. https://nlp.stanford.edu/IR-book/html/htmledition/irbook.html
- VanderPlas J. Python Data Science Handbook. O'Reilly Media, Inc., 2016. https://github.com/jakevdp/PythonDataScienceHandbook
- Грас Дж. Data Science. Наука о данных с нуля. БХВ-Петербург, 2017. 336 с.