Войти
Анализ транскриптомных данных

Курс «Анализ транскриптомных данных» посвящён анализу данных экспрессий генов, полученных при помощи платформ высокопроизводительного секвенирования.

В ходе курса будут освещены как вопросы анализа данных bulk RNA-Seq, так и становящихся всё более популярных в последние годы данных scRNA-Seq. Особое внимание будет уделено методам машинного обучения (от GLM до VAE и методов снижения размерности), которые сейчас являются «золотым стандартом» на всех стадиях работы с транскриптомными данными.

Курс состоит из 15 лекций и 15 семинаров. На лекциях основное внимание будет уделено теоретическим основам применяемых методов анализа, а также дискуссиям насчёт областей применимости тех или иных подходов. На семинарах будут рассмотрены конкретные примеры использования различных инструментов, а также рассмотрены некоторые углубленные вопросы из курса. После каждого семинара будет даваться домашнее задание, направленное на закрепление материалов, полученных на занятии.

Типичный слушатель курса — это студент естественно-научной специальности, который хочет овладеть современными методами анализа экспрессионных данных, а также качественно применять их в своей исследовательской работе. Для того, чтобы полностью освоить курс, требуется владение языками Python и R, а также базовое понимание статистики, теории вероятностей и линейной алгебры.

Страница курса: https://intellect-foundation.r...

Материалы к курсу: https://drive.google.com/drive...

Список всех тем лекций

Лекция 1. Подготовка библиотеки.
О курсе Зачем мы изучаем РНК? Методы изучения белка Секвенирование Принцип секвенирования Illumina Выделение РНК Отбор транскриптов Синтез ДНК, создание библиотек QC-прочтения

Семинар 1. Базовая работа с прочтениями.
Загрузка прочтений SPA Toolkit SPA Explorer Контроль качества прочтений MultiQC Nexflow

Лекция 2. Выравнивания и псевдовыравнивания. Подсчёт экспрессии.
Сборка транскриптома Выравнивание и картирование STAR RSeQC Подсчёт экспрессий RSEM EM-алгоритм Псевдовыравнивание Kallisto

Семинар 2. ЕМ-алгоритм и kallisto.
EM-алгоритм для кластеризации двумерных данных Kallisto

Лекция 3. Распределения в омиках. Методы нормализации.
Функция правдоподобия Нормализация Распределение Пуассона Отрицательное биномиальное распределение Нормализации RPKM и TPM (RLE)

Семинар 3. Определение максимально правдоподобных распределений для данных.
Зависимость дисперсии от среднего Тестирование конкретного распределения Сравнение тестов между собой

Лекция 4. Дифференциальная экспрессия.
Типы нормализаций Регрессия Линейные модели Обобщённые линейные модели (GLM) Взаимодействие переменных Сравнение моделей Проблема множественного сравнения и ее решения От генов к транскриптам

Семинар 4. Определение дифференциально экспрессированных генов. Работа с пакетами DESeq2 и edgeR.
Постановка задачи Генерализованные линейные модели Реализация GLM Реализация GLM для дифференциальной экспрессии Анализ экспрессии с помощью edgeR, несколько независимых переменных

Лекция 5. Функциональный анализ.
Gene Ontology (GO) Тест Фишера KEGG GSEA Normalized ES ssGSEA xCell PROGENy и DoRothEA WCGNA Деконволюция bulk RNA-Seq

Семинар 5. Функциональный анализ RNA-Seq.
ssGSEA GSEA Деконволюция bulk RNA-Seq

Лекция 6. Транскриптомика одиночных клеток.
Экспериментальные подходы Общая схема экспериментов RNA-Seq и scRNA-Seq Диссоциация клеток Капельные методы Пустые клетки и дублеты и smart-seq3 Parse Biosciences Evercode

Семинар 6. Основы работы с библиотеками scanpy и Seurat.
Scanpy и AnnData Seurat SingleCellExperiment и anndata2ri

Лекция 7. Контроль качества клеток в scRNA-Seq.
DropEst Cell Ranger kallisto|bustools Картирование snRNA-Seq QC клеток Scrublet

Семинар 7. QC.
Подсчёт экспрессий Фильтрация пустых капель ЕМ-алгоритм emptyDrops Иные метрики контроля качества Поиск дублетов

Лекция 8. Контроль за дисперсией.
Выделение интересующей части дисперсии Овердисперсия Проблема дропаутов Аналитическое решение для распределения Пуассона Выделение биологической части дисперсии Способы контроля дисперсии

Семинар 8. Контроль за дисперсией данных в scRNA-Seq.
Распределение каунтов scRNA-Seq Способы контроля за дисперсией: начало Способы контроля за дисперсией: Pearson residuals Основные концепции SCTransform

Лекция 9. Методы снижения размерности.
Зачем снижать размерность? Feature Selection Highly Variable Genes PCA и ICA t-SNE UMAP

Семинар 9. Методы снижения размерности.
Проклятие размерности Выделение HVG PCA t-SNE UMAP

Лекция 10. Коррекция батч-эффекта.
Стандартный процессинг датасета Процессинг нескольких датасетов и батч-эффект Выделение HVG в каждом из батчей Шаги преобразования данных Совместное построение графа (BBKNN, conos) Батч-скорректированное представление (Scanorama, Harmony) Методы, устраняющие батч на уровне генов (Seurat CCA) Сравнение существующих методов

Семинар 10. Коррекция батч-эффекта.
Анализ без батч-коррекции Выделение HVG внутри батчей Batch-balanced kNN Batch-balanced kNN c Ridge-регрессией Scanorama Harmony Seurat CCA и Seurat RPCA

Лекция 11. Использование вариационных автоэнкодеров для процессинга scRNA-seq. scVI-tools.
Автоэнкодеры Нелинейные автоэнкодеры Вариационные автоэнкодеры Вероятностные модели ELBO, KL-divergence, variational interference в VAE scVI Интеграция датасетов

Семинар 11. Автоэнкодеры на PyTorch. Препарирование scVI.
Немного о PyTouch Простейший автоэнкодер на PyTouch scVI

Лекция 12. Кластеризация.
Кластер Иерархическая кластеризация K-Means Разрезание графа

Семинар 12. Кластеризация и дифференциальная экспрессия.
Методы кластеризации scRNA-Seq Дифференциальная экспрессия в scRNA-Seq Оценка стабильности кластеров

Лекция 13. Определение траекторий дифференцировки клеток в scRNA-seq.
Постановка задачи и подзадач Восстановление кривой: polygonal reconstruction и GAM Recerved graph embedding Diffusion maps Paga и DPT Monocle3 Palantir RNA velocity Cellbank и CytoTRACE

Семинар 13. Дифференцировка клеток. Определение генов, меняющих свою экспрессию по ходу псевдовремени.
Pseudotime and differentiation RNA velocity with scVelo Fate mapping with CellRank Реализация алгоритма определения генов

Лекция 14. Определение типов клеток.
Типы иммунных клеток Мануальные подходы к аннотации AUC ROC Дифференциальная экспрессия Тест Манна-Уитни и AUC Проблемы с маркерными генами Автоматическое определение типов клеток: Single R, Label transfer Определение раковых клеток с помощью InterCVN

Семинар 14. Определение типов клеток.
Работа с Azimuth Написание алгоритма на основе Harmony Мануальное определение типов клеток

Лекция 15. Анализ мультимодальных омик одиночных клеток.
Унимодальные и мультимодальные омики одиночных клеток CITE-Seq и 10x Multiome Эксперименты с тремя и более модальностями Процессинг модальности ADT Процессинг модальности ATAC Анализ с опорой на scRNA-Seq Батч-коррекция в MOFA и WNN Оценка эффективности работы метода интеграции

Семинар 15. Анализ CITE-Seq.
Модальность РНК Модальность ADT Поддержка различных модальностей MOFA WNN