Войти
Информатика 3 лекции
Введение в обработку естественного языка и анализ текстов
Лектор
Авраменко Анна Петровна
#лекции #мфк
ИТМФ
2024

В связи с появлением в конце 2022 года ChatGPT перед исследователями и преподавателями разных предметных областей были поставлены серьезные междисциплинарные вопросы по возможностям и ограничениям технологий генеративного искусственного интеллекта. С теоретической точки зрения, курс включает в себя описание принципов обработки естественного языка и методов работы больших языковых моделей, для чего происходит ознакомление студентов с основами когнитивной, корпусной и компьютерной лингвистики, а также дистрибутивной семантики. Все лекции сопровождаются анализом эмпирического материала и демонстрацией инструментов обработки естественного языка в рамках раздела case study для решения следующих прикладных задач:

поиск и систематизация научных материалов;

пред- и постредактирование текстов для осуществления их машинного перевода;

выделение наиболее частотных терминов, персоналий и других языковых единиц, отражающих тенденции исследований;

определение авторства текстов;

автоматизация сбора количественных и качественных данных.

Цель курса состоит в развитии профессиональной исследовательской и информационно-коммуникационной компетенции исследователя. Практическим результатом прохождения курса станет защита проекта «Корпусное исследование статей по проблематике научного интереса студента». Интерактивные и практические задания по темам лекций готовят студента к защите данного проекта, включающего в себя:

составление подкорпуса статей по проблематике исследования студента;

подготовку текстов статей в блокноте Google Colab для их дальнейшего анализа;

обработку текстов открытыми библиотеками на основе кода на языке Python;

лингвистический анализ собранных данных методами диахронического и дистрибутивного анализа с помощью корпусных менеджеров для выявления тенденций в статьях по тематике научного интереса студента;

визуализация полученных результатов корпусного исследования посредством графов для защиты проекта.

ССЫЛКИ НА МАТЕРИАЛЫ:

Конспект к лекции №1:

https://colab.research.google.com/drive/1LI_NpUDWHxPhsma893jWmRSC71fZKhcX

Конспект к лекции №2: 

https://colab.research.google.com/drive/1rSNLy2gjctWVC-4gEtKlK0OcM9hGU5uK

Конспект к лекции №3: 

https://colab.research.google.com/drive/1gqJnox5j-2pQeAc_7jBsuPZQ4BoTcc3A

Список всех тем лекций

Лекция 1. From the Congitive Linguistics Perspective: Is AGI Possible?.

Лекция 2. Distributive Semantics and NLP.

Лекция 3. Embeddings and Large Language Models (LLMs).