Курс «Анализ транскриптомных данных» посвящён анализу данных экспрессий генов, полученных при помощи платформ высокопроизводительного секвенирования.
В ходе курса будут освещены как вопросы анализа данных bulk RNA-Seq, так и становящихся всё более популярных в последние годы данных scRNA-Seq. Особое внимание будет уделено методам машинного обучения (от GLM до VAE и методов снижения размерности), которые сейчас являются «золотым стандартом» на всех стадиях работы с транскриптомными данными.
Курс состоит из 15 лекций и 15 семинаров. На лекциях основное внимание будет уделено теоретическим основам применяемых методов анализа, а также дискуссиям насчёт областей применимости тех или иных подходов. На семинарах будут рассмотрены конкретные примеры использования различных инструментов, а также рассмотрены некоторые углубленные вопросы из курса. После каждого семинара будет даваться домашнее задание, направленное на закрепление материалов, полученных на занятии.
Типичный слушатель курса — это студент естественно-научной специальности, который хочет овладеть современными методами анализа экспрессионных данных, а также качественно применять их в своей исследовательской работе. Для того, чтобы полностью освоить курс, требуется владение языками Python и R, а также базовое понимание статистики, теории вероятностей и линейной алгебры.
Страница курса: https://intellect-foundation.r...
Материалы к курсу: https://drive.google.com/drive...
Список всех тем лекций
Лекция 1. Подготовка библиотеки.
О курсе
Зачем мы изучаем РНК?
Методы изучения белка
Секвенирование
Принцип секвенирования Illumina
Выделение РНК
Отбор транскриптов
Синтез ДНК, создание библиотек
QC-прочтения
Семинар 1. Базовая работа с прочтениями.
Загрузка прочтений
SPA Toolkit
SPA Explorer
Контроль качества прочтений
MultiQC
Nexflow
Лекция 2. Выравнивания и псевдовыравнивания. Подсчёт экспрессии.
Сборка транскриптома
Выравнивание и картирование
STAR
RSeQC
Подсчёт экспрессий
RSEM
EM-алгоритм
Псевдовыравнивание
Kallisto
Семинар 2. ЕМ-алгоритм и kallisto.
EM-алгоритм для кластеризации двумерных данных
Kallisto
Лекция 3. Распределения в омиках. Методы нормализации.
Функция правдоподобия
Нормализация
Распределение Пуассона
Отрицательное биномиальное распределение
Нормализации
RPKM и TPM
(RLE)
Семинар 3. Определение максимально правдоподобных распределений для данных.
Зависимость дисперсии от среднего
Тестирование конкретного распределения
Сравнение тестов между собой
Лекция 4. Дифференциальная экспрессия.
Типы нормализаций
Регрессия
Линейные модели
Обобщённые линейные модели (GLM)
Взаимодействие переменных
Сравнение моделей
Проблема множественного сравнения и ее решения
От генов к транскриптам
Семинар 4. Определение дифференциально экспрессированных генов. Работа с пакетами DESeq2 и edgeR.
Постановка задачи
Генерализованные линейные модели
Реализация GLM
Реализация GLM для дифференциальной экспрессии
Анализ экспрессии с помощью edgeR, несколько независимых переменных
Лекция 5. Функциональный анализ.
Gene Ontology (GO)
Тест Фишера
KEGG
GSEA
Normalized ES
ssGSEA
xCell
PROGENy и DoRothEA
WCGNA
Деконволюция bulk RNA-Seq
Семинар 5. Функциональный анализ RNA-Seq.
ssGSEA
GSEA
Деконволюция bulk RNA-Seq
Лекция 6. Транскриптомика одиночных клеток.
Экспериментальные подходы
Общая схема экспериментов RNA-Seq и scRNA-Seq
Диссоциация клеток
Капельные методы
Пустые клетки и дублеты
и smart-seq3
Parse Biosciences Evercode
Семинар 6. Основы работы с библиотеками scanpy и Seurat.
Scanpy и AnnData
Seurat
SingleCellExperiment и anndata2ri
Лекция 7. Контроль качества клеток в scRNA-Seq.
DropEst
Cell Ranger
kallisto|bustools
Картирование snRNA-Seq
QC клеток
Scrublet
Семинар 7. QC.
Подсчёт экспрессий
Фильтрация пустых капель
ЕМ-алгоритм
emptyDrops
Иные метрики контроля качества
Поиск дублетов
Лекция 8. Контроль за дисперсией.
Выделение интересующей части дисперсии
Овердисперсия
Проблема дропаутов
Аналитическое решение для распределения Пуассона
Выделение биологической части дисперсии
Способы контроля дисперсии
Семинар 8. Контроль за дисперсией данных в scRNA-Seq.
Распределение каунтов scRNA-Seq
Способы контроля за дисперсией: начало
Способы контроля за дисперсией: Pearson residuals
Основные концепции SCTransform
Лекция 9. Методы снижения размерности.
Зачем снижать размерность?
Feature Selection
Highly Variable Genes
PCA и ICA
t-SNE
UMAP
Семинар 9. Методы снижения размерности.
Проклятие размерности
Выделение HVG
PCA
t-SNE
UMAP
Лекция 10. Коррекция батч-эффекта.
Стандартный процессинг датасета
Процессинг нескольких датасетов и батч-эффект
Выделение HVG в каждом из батчей
Шаги преобразования данных
Совместное построение графа (BBKNN, conos)
Батч-скорректированное представление (Scanorama, Harmony)
Методы, устраняющие батч на уровне генов (Seurat CCA)
Сравнение существующих методов
Семинар 10. Коррекция батч-эффекта.
Анализ без батч-коррекции
Выделение HVG внутри батчей
Batch-balanced kNN
Batch-balanced kNN c Ridge-регрессией
Scanorama
Harmony
Seurat CCA и Seurat RPCA
Лекция 11. Использование вариационных автоэнкодеров для процессинга scRNA-seq. scVI-tools.
Автоэнкодеры
Нелинейные автоэнкодеры
Вариационные автоэнкодеры
Вероятностные модели
ELBO, KL-divergence, variational interference в VAE
scVI
Интеграция датасетов
Семинар 11. Автоэнкодеры на PyTorch. Препарирование scVI.
Немного о PyTouch
Простейший автоэнкодер на PyTouch
scVI
Лекция 12. Кластеризация.
Кластер
Иерархическая кластеризация
K-Means
Разрезание графа
Семинар 12. Кластеризация и дифференциальная экспрессия.
Методы кластеризации scRNA-Seq
Дифференциальная экспрессия в scRNA-Seq
Оценка стабильности кластеров
Лекция 13. Определение траекторий дифференцировки клеток в scRNA-seq.
Постановка задачи и подзадач
Восстановление кривой: polygonal reconstruction
и GAM
Recerved graph embedding
Diffusion maps
Paga и DPT
Monocle3
Palantir
RNA velocity
Cellbank и CytoTRACE
Семинар 13. Дифференцировка клеток. Определение генов, меняющих свою экспрессию по ходу псевдовремени.
Pseudotime and differentiation
RNA velocity with scVelo
Fate mapping with CellRank
Реализация алгоритма определения генов
Лекция 14. Определение типов клеток.
Типы иммунных клеток
Мануальные подходы к аннотации
AUC ROC
Дифференциальная экспрессия
Тест Манна-Уитни и AUC
Проблемы с маркерными генами
Автоматическое определение типов клеток: Single R, Label transfer
Определение раковых клеток с помощью InterCVN
Семинар 14. Определение типов клеток.
Работа с Azimuth
Написание алгоритма на основе Harmony
Мануальное определение типов клеток
Лекция 15. Анализ мультимодальных омик одиночных клеток.
Унимодальные и мультимодальные омики одиночных клеток
CITE-Seq и 10x Multiome
Эксперименты с тремя и более модальностями
Процессинг модальности ADT
Процессинг модальности ATAC
Анализ с опорой на scRNA-Seq
Батч-коррекция в MOFA и WNN
Оценка эффективности работы метода интеграции
Семинар 15. Анализ CITE-Seq.
Модальность РНК
Модальность ADT
Поддержка различных модальностей
MOFA
WNN