Войти
Информатика 12 лекций
Введение в обработку естественного языка и анализ текстов
Лектор
Авраменко Анна Петровна
#лекции #мфк
Интеллект
2024

В связи с появлением в конце 2022 года ChatGPT перед исследователями и преподавателями разных предметных областей были поставлены серьезные междисциплинарные вопросы по возможностям и ограничениям технологий генеративного искусственного интеллекта. С теоретической точки зрения, курс включает в себя описание принципов обработки естественного языка и методов работы больших языковых моделей, для чего происходит ознакомление студентов с основами когнитивной, корпусной и компьютерной лингвистики, а также дистрибутивной семантики. Все лекции сопровождаются анализом эмпирического материала и демонстрацией инструментов обработки естественного языка в рамках раздела case study для решения следующих прикладных задач:

поиск и систематизация научных материалов;

пред- и постредактирование текстов для осуществления их машинного перевода;

выделение наиболее частотных терминов, персоналий и других языковых единиц, отражающих тенденции исследований;

определение авторства текстов;

автоматизация сбора количественных и качественных данных.

Цель курса состоит в развитии профессиональной исследовательской и информационно-коммуникационной компетенции исследователя. Практическим результатом прохождения курса станет защита проекта «Корпусное исследование статей по проблематике научного интереса студента». Интерактивные и практические задания по темам лекций готовят студента к защите данного проекта, включающего в себя:

составление подкорпуса статей по проблематике исследования студента;

подготовку текстов статей в блокноте Google Colab для их дальнейшего анализа;

обработку текстов открытыми библиотеками на основе кода на языке Python;

лингвистический анализ собранных данных методами диахронического и дистрибутивного анализа с помощью корпусных менеджеров для выявления тенденций в статьях по тематике научного интереса студента;

визуализация полученных результатов корпусного исследования посредством графов для защиты проекта.

ССЫЛКИ НА МАТЕРИАЛЫ:

Конспект к лекции №1:

https://colab.research.google.com/drive/1LI_NpUDWHxPhsma893jWmRSC71fZKhcX

Конспект к лекции №2: 

https://colab.research.google.com/drive/1rSNLy2gjctWVC-4gEtKlK0OcM9hGU5uK

Конспект к лекции №3: 

https://colab.research.google.com/drive/1gqJnox5j-2pQeAc_7jBsuPZQ4BoTcc3A

Конспект к лекции №4:

https://colab.research.google.com/drive/1lU3_SYUDOnirkKQCMedWnRbmLS9OaO3u

Конспект к лекции №5: 

https://colab.research.google.com/drive/1-AkYYlOZ0QWSAKsRe4ZQdr2mlalblssD

Конспект к лекции №6: 

https://colab.research.google.com/drive/10RcFWnHiT-Wgcoq8qFxHMddDMMhsGu3_

Список всех тем лекций

Лекция 1. From the Congitive Linguistics Perspective: Is AGI Possible?.

Лекция 2. Distributive Semantics and NLP.

Лекция 3. Embeddings and Large Language Models (LLMs).

Лекция 4. Information retrieval and extraction in the era of transformers anf generative AI.

Лекция 5. Computational Linguistics and Morphological Analysis.

Лекция 6. Machine Translation.

Лекция 7. Python for Text Preprocessing.

Лекция 8. Open Source Natural Language Processing Libraries.

Лекция 9. Corpus Linguistics.

Лекция 10. Visualizing the Results of Linguistic Analysis.

Лекция 11. Stylometry and other methods of literature analysis with NLP tools.

Лекция 12. Educational bots.