Войти
Разведывательный анализ данных с помощью языка R

Курс предназначен для студентов естественно-научных направлений, которые хотят развиваться в области науки о данных. 

Данные для анализа далеко не всегда попадают в руки исследователя в приемлемой форме. Обычно достаточно большое время уходит на подготовку данных к анализу, сведение информации из разных источников, преобразование данных в необходимую форму или формат. Еще одна проблема заключается в том, что предложенные для анализа данные могут быть плохого качества, содержать много пропущенных значений, выбросов, ошибок. Прежде чем брать данные в исследование необходимо убедиться, что они пригодны для работы. Разведывательный анализ данных может сильно сэкономить время и поможет выявить проблемы на начальном этапе. Работа с огромными таблицами не всегда удобна для человеческого восприятия, важно уметь красиво визуализировать свои результаты, что делает их более наглядными и подкрепляет полученные выводы. Любое исследование проводят для того, чтобы ответить на какой-то вопрос. Как корректно сформулировать этот вопрос? Какие и сколько данных потребуется, чтобы провести исследование? Насколько достоверны полученные нами ответы? 

Язык R обладает мощным функционалом для решения подобных задач. 

Курс состоит из 15 лекций и 15 практических занятий, разделенных на 4 логических блока: 

- введение в R 

- манипуляции с данными табличного типа 

- визуализация данных 

- статистическая обработка 

На лекциях со студентами на примерах разбирают особенности языковых конструкций и основные функции популярных в анализе данных пакетов. Освоение языка программирования невозможно без большого количества практических занятий. На семинарах студентам предлагают решить несколько заданий по материалам лекции под присмотром преподавателей. После занятия студентам выдают домашнее задание для самостоятельной отработки навыков. 

По окончании курса, при условии хорошей работы в аудитории и дома, мы ожидаем увидеть студента, который может преобразовывать данные табличного вида разной сложности, способен красиво представить свои результаты и подготовить иллюстрацию к публикации, умеет строить собственные гипотезы и проверять их. 

Список всех тем лекций

Лекция 1. Введение в R.
Общая информация о курсе Инструментарий - почему R? Знакомство и установка R и RStudio Программные сценарии и отчёты Навигация и организация Способы создания вектора Работа с переменными Матрицы Получение справочной информации

Лекция 2. Работа с данными табличного типа.
Вектор (повторение изученного на предыдущей лекции) Таблица Data Frame (кадры данных или данные табличного вида) Чтение и запись Полезные функции Работа с пропущенными данными Списки Циклы Случайная матрица Функции семейства appiy Заключение

Лекция 3. Введение в Тidyverse.
Пакет пакетов tidyverse tibble dplyr tidyr readr

Лекция 4. Строки и графика. stringr, forcats и ggplot2.

Лекция 5. Графика и факторы.

Лекция 6. Статистика. Зачем, почему, как? Часть 1.
Зачем нужна статистика? Генеральная совокупность и выборка Типы данных Описательные статистики Немного теории вероятностей

Лекция 7. Статистика. Зачем, почему, как? Часть 2.
Основные положения прошлой лекции Распределение Пуассона Среднее и дисперсия дискретной случайной величины Непрерывные случайные величины Нормальное распределение Центральная предельная теорема Оценки параметров генеральной совокупности Альтернативная гипотеза Порядок приложения статистики к исследованию Одновыборочные тесты Распределение Стьюдента

Лекция 8. Функции в R. Функциональное программирование с purrr.
Функции Параметры Функции, работающие с датафреймами Функциональное программирование Объединение датафреймов по ключу Отслеживание ошибок От purrr к furrr

Лекция 9. Ggplot2 и не только. Продвинутый dplyr и разные графики.

Лекция 10. Графика и Quarto.

Лекция 11. Дашборды в R.

Лекция 12. Статистика снова....

Лекция 13. Статистика последний раз.