Введение в обработку естественного языка и анализ текстов
В связи с появлением в конце 2022 года ChatGPT перед исследователями и преподавателями разных предметных областей были поставлены серьезные междисциплинарные вопросы по возможностям и ограничениям технологий генеративного искусственного интеллекта. С теоретической точки зрения, курс включает в себя описание принципов обработки естественного языка и методов работы больших языковых моделей, для чего происходит ознакомление студентов с основами когнитивной, корпусной и компьютерной лингвистики, а также дистрибутивной семантики. Все лекции сопровождаются анализом эмпирического материала и демонстрацией инструментов обработки естественного языка в рамках раздела case study для решения следующих прикладных задач:
поиск и систематизация научных материалов;
пред- и постредактирование текстов для осуществления их машинного перевода;
выделение наиболее частотных терминов, персоналий и других языковых единиц, отражающих тенденции исследований;
определение авторства текстов;
автоматизация сбора количественных и качественных данных.
Цель курса состоит в развитии профессиональной исследовательской и информационно-коммуникационной компетенции исследователя. Практическим результатом прохождения курса станет защита проекта «Корпусное исследование статей по проблематике научного интереса студента». Интерактивные и практические задания по темам лекций готовят студента к защите данного проекта, включающего в себя:
составление подкорпуса статей по проблематике исследования студента;
подготовку текстов статей в блокноте Google Colab для их дальнейшего анализа;
обработку текстов открытыми библиотеками на основе кода на языке Python;
лингвистический анализ собранных данных методами диахронического и дистрибутивного анализа с помощью корпусных менеджеров для выявления тенденций в статьях по тематике научного интереса студента;
визуализация полученных результатов корпусного исследования посредством графов для защиты проекта.
Получите доступ к поэтапному прохождению с проверкой знаний
- 01:05:48Лекция 1. From the Congitive Linguistics Perspective: Is AGI Possible?
- 01:00:24Лекция 2. Distributive Semantics and NLP
- 59:20Лекция 3. Embeddings and Large Language Models (LLMs)
- 01:01:38Лекция 4. Information retrieval and extraction in the era of transformers anf generative AI
- 52:50Лекция 5. Computational Linguistics and Morphological Analysis
- 57:28Лекция 6. Machine Translation
- 01:06:23Лекция 7. Python for Text Preprocessing
- 34:32Лекция 8. Open Source Natural Language Processing Libraries
- 01:00:15Лекция 9. Corpus Linguistics
- 55:32Лекция 10. Visualizing the Results of Linguistic Analysis
- 01:04:22Лекция 11. Stylometry and other methods of literature analysis with NLP tools
- 01:01:44Лекция 12. Educational bots
