Иерархическая кластеризация объема головного мозга мыши… А.И. ЦВЕТКОВ1, М.С. БУРЦЕВ2, 3 1Национальный исследовательский ядерный университет «МИФИ» 2Институт прикладной математики имени М.В. Келдыша РАН, Москва 3НИИ Нормальной физиологии имени П.К. Анохина РАМН, Москва ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ОБЪЕМА ГОЛОВНОГО МОЗГА МЫШИ ПО ДАННЫМ ОБ ЭКСПРЕССИИ ГЕНОВ В работе рассматриваются доступные данные о пространственном распределении экспрессии более 20 тысяч генов в головном мозге мыши. Производится расчет корреляционных карт объема мозга, выделение пространственных паттернов экспрессии генов, а также кластеризация объема мозга. На основе методов филогенетического анализа реализован алгоритм для построения иерархии отделов головного мозга мыши. Полученная таксономия отделов мозга сравнивается с анатомическим атласом и с результатами кластеризации, опубликованными ранее. Исследование экспрессии генов является мощным инструментом для понимания структурной основы функций нервной системы. Доступность полногеномных данных открывает новые возможности анализа паттернов экспрессии генов и их связи с организацией мозга. Поэтому одной из приоритетных задач становится разработка инструментов для визуализации и анализа экспрессии генов в контексте их пространственной локализации в мозге. В конце 2008 года стал доступен Анатомический атлас генетической экспрессии для лабораторной мыши линии C57Bl/6J (Anatomic Gene Expression Atlas (AGEA), http://mouse.brain-map.org/agea, [1]). Атлас содержит данные, полученные при помощи in-situ гибридизации и описывающие пространственную экспрессию в мозге мыши более 20000 генов. Данные о пространственной экспрессии генов привязаны к анатомическому атласу мозга мыши и, таким образом, описывают "фоновую" активность генов в каждой из структур мозга. В данной работе представлены результаты разработки программного обеспечения для визуализации и анализа пространственной экспрессии генов в мозге мыши, в частности, автоматической кластеризации объема мозга. Приводятся пилотные результаты кластеризации и их сопоставление с имеющимся анатомическим атласом, а также с результатами кластеризации, описанными в статьях [1–4]. Для работы с данными об экспрессии генов в мозге мыши требуется создание специализированного инструмента, позволяющего осуществлять статистический анализ распределения экспрессии и производить разбиение объема мозга. Сложность интерпретации результатов анализа связана с большим объемом обрабатываемых данных. Эту проблему предлагается решить, разработав средства визуализации исходных данных и результатов анализа. Таким образом, задача анализа данных пространственной экспрессии генов с целью выделения ее паттернов в объеме мозга мыши разбивается на следующие этапы.
На рис. 1 представлены снимки главного окна программной реализации в различных режимах работы. Выделение вокселей для кластеризации производится при помощи объемной аннотации мозга мыши, доступной на сайте проекта AGEA. Для выбора одного из 210 отделов аннотации, объем которого используется для кластеризации, разработан графический интерфейс, представленный на рис. 1,а. Для выбора генов, экспрессия которых учитывается при кластеризации, разработан графический интерфейс, представленный на рис. 1,б. Список генов загружается в программу из файла. Для каждого гена рассчитывается набор количественных и статистических показателей, сортировка по значениям которых позволяет исключать неинформативные гены из входных данных. Визуализация пространственного распределения производится с использованием цвета в качестве показателя значения экспрессии. Цвет вокселя соответствует величине экспрессии по псевдоцветной шкале, отображаемой интервальным элементом управления. ![]() а б Рис. 1. Интерфейс пользователя разработанного программного инструмента: а – анатомический атлас мозга мыши; б – пространственное распределение экспрессии генов Для выделения паттернов экспрессии генов и построения иерархии отделов мозга необходимо определить дистанции между элементами исходного множества. Очевидно, что в контексте данной задачи дистанции между единицами объема мозга следует определять по близости профилей экспрессии генов. В оригинальном исследовании для расчета дистанционной матрицы была использована формула корреляции Пирсона. В предложенном программном инструменте реализована оригинальная формула, ее вариант с нормировкой, позволяющей привести параметры распределения экспрессии к одинаковым значениям для каждого гена, а также несколько других дистанционных формул, часто используемых при анализе данных генетической экспрессии [5]. Для оценки пространственной специфичности экспрессии гена предлагается ввести величину ![]() где ![]() Гены, экспрессия которых сильно распределена в объеме мозга, будут иметь меньшие значения данной величины, гены более пространственно-специфичные по экспрессии будут иметь большие значения. Предлагается использовать значения данной величины в качестве веса генов в суммах дистанционных формул. В частности, можно предложить метрику средней специфичности коэкспрессирующих генов: ![]() ![]() где ![]() ![]() Предполагается, что такая метрика устанавливает меньшие расстояния между вокселями, которые более близки в эволюционном плане. В оригинальном исследовании для построения иерархической кластеризации объема мозга [1] использовалась рекурсивная процедура на основе алгоритма K-средних (K = 2). Разбиение проводится так, чтобы разделы одного уровня иерархии были наименее схожи по средним значениям корреляции. В описанном программном инструменте реализован вариант данной процедуры без сжатия данных, использующий в качестве «средних» элементы исходного множества, что значительно сокращает время работы алгоритма на большом объеме данных и улучшает сходимость [5]. Также была реализована общая схема агломеративных алгоритмов кластеризации, позволяющая выбирать среди таких методов, как UPGMA, Neighbor-joining (метод присоединения соседей) путем задания оптимизационного параметра. Согласно [5], агломеративные алгоритмы позволяют получить лучшие результаты на пространственных данных. Агломеративные алгоритмы используются в филогенетическом анализе для получения биологически адекватных таксономий видов. Предполагается, что в контексте данной задачи эти алгоритмы позволят построить таксономию отделов мозга и детально исследовать эволюционную историю специализации. С целью верификации результатов кластеризации предлагается сравнить полученную иерархию с анатомическим атласом мозга мыши. Требуется оценить, насколько точно кластеры в иерархии совпадают с анатомическими отделами мозга. Для этого для каждой пары, состоящей из отдела мозга и кластера, рассчитывается коэффициент пересечения ![]() равный отношению объема пересечения элементов пары к объему их объединения. Затем для каждого отдела мозга выбирается кластер с наибольшим значением предложенного коэффициента. Таким образом строится покрытие анатомического атласа кластерами объема мозга. Статистическая оценка этого покрытия позволяет определить адекватность полученной кластеризации. Предложенный алгоритм кластеризации объема мозга был протестирован на вокселях, принадлежащих базальным ядрам (CNU) и гиппокампу (HIP). Наилучшее сочетание метрика-метод – средняя специфичность коэкспрессирующих генов и метод присоединения соседей, позволило получить иерархическое разбиение базальных ядер, в значительной степени (~70 %) совпадающее с данными анатомического атласа (см. таблицу и рис. 2). Кластеризация пространственной экспрессии в гиппокампе соответствует результатам, приведенным в статье [4] (рис. 3). Приведенные пилотные результаты демонстрируют адекватность разработанного программного инструмента для задач анализа трехмерной экспрессии генов в мозге. Исследование мозга при помощи инструментов, аналогичных предложенному в данной работе, открывает новое направление развития нейроинформатики, связанное с анализом и поиском закономерностей в больших объемах биологических данных о мозге. В частности, разработанное программное обеспечение предполагается использовать для поисковых исследований следующих актуальных нейробиологических проблем:
Данная работа выполнена при поддержке Федерального агентства по науке и инновациям РФ в рамках ФЦП "Научные и научно-педагогические кадры инновационной России" (Гос. контракт П1295). СПИСОК ЛИТЕРАТУРЫ 1. Ng L., Bernard A., Lau C. et.al. // Nature Neur. 2009. V. 12. P. 356. 2. Lein E.S., Hawrylycz M.J., Ao N. et.al. // Nature 2007. V. 445. P. 168. 3. Lau C., Ng L., Thompson C. et.al. // BMC Bioinf. 2008. V. 9. P. 153. 4. Thompson C., Pathak S., Jeromin A. et al. // Neuron 2008. V. 60. P. 1010. 5. Xu R., Wunsch D. // IEEE Trans. on Neur. Net. 2005. V. 16. P. 645. 6. Davis F.P., Eddy S.R. // Bioinf. 2009. V. 25. P. 1647. 7. Madeira S.C., Oliveira A.L. // IEEE Trans. on Comp. Biol. and Bioinf. 2004. V. 1. P. 24. |
![]() |
ПоисК, идентификация и изучение экспрессии генов-кандидатов псориатического процесса 03. 00. 03 молекулярная Работа выполнена в лаборатории функциональной геномики Института общей генетики им. Н. И. Вавилова... |
![]() |
Конспект открытого урока по биологии Тема: «Взаимодействие генов. Множественное действие генов» |
![]() |
Анализ ряда генов как возможных генов-модификаторов клинической картины муковисцидоза у больных из |
![]() |
Полиморфизмы генов системы свертываемости крови |
![]() |
В неврологию. Онто- и филогенез нервной системы. Критические периоды в формировании нервной системы. |
![]() |
Исследование полиморфизма генов ариламин n-ацетилтрансфераз и ассоциации полиморфных вариантов с |
![]() |
Анализ полиморфизма генов системы гемостаза у больных наружным генитальным эндометриозом |
![]() |
Изучение тканеспецифической экспрессии сплайс-вариантов мрнк il-4 и il-6 у мыши и человека 14. 03. |
![]() |
Влияние моделирования эффектов микрогравитации на цитоскелет и экспрессию генов у мезенхимальных |
![]() |
Кабурнеева ольга Геннадьевна состояние иммунной системы и полиморфизм генов цитокинов при диализных |