基于整合的TCGA数据库探索基因组学与临床数据关系

指导教师签名 论文评阅人1 吐拯熬拯逝江王些太堂 评阋人2 选互基熬拯蒸趔盘堂 评阅人3 隐垒迁因厶 答辩委员会主席 睦搓赵熬援 委员1 邑旭 堑敛握 委员2 墨I 室副熬援 答辩日期 2 Q 鱼生Q 当旦Q 篓旦 万方数据 浙江大学研究生学位论文独创性声明 熘 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发 表或撰写过的研究成果 也不包含为获得逝姿太芏或其他教育机构的学位或 证书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文作者签名 季熹震 签字日期 2 口f 6 年3 月 10 日 学位论文版权使用授权书 本学位论文作者完全了解逝婆盘鲎有权保留并向国家有关部门或机 构送交本论文的复印件和磁盘 允许论文被查阅和借阅 本人授权逝垒太堂 可以将学位论文的全部或部分内容编入有关数据库进行检索和传播 可以采用影 印 缩印或扫描等复制手段保存 汇编学位论文 保密的学位论文在解密后适用本授权书 学位论文作者签名 善震累 导师签名 签字日期 l6 年 弓月10 日 签字日期 z 口 6 年3 月1O 日 万方数据 浙江大学硕士学位论文致谢 致谢 2 0 1 3 年那个阴雨绵绵的春天 怀着无限憧憬 我来到了浙大 转瞬间已经快有3 个 年头了 两年半的研究生学习生涯也已接近尾声 蓦然回首 感慨万千 在我的论文撰写 即将完成之际 在此向许许多多的老师和同学们表示最真诚的感谢 感谢我的责任老师李吴雯老师 感谢李老师对我的耐心教导 并且很多事物上的指导 和对我的信任 以至于让我能有比较大的自由度去调控我的学习和科研生活 并且李老师 把握事物重点的思维模式和严谨的科研态度都对我的处理事物和科研能力的提高有很大 的影响 不管是技术土还是科研上 在这几年里都有实质性的提高 也感谢李老师在小论 文和大论文的指导 不会因为我比较愚钝而不去悉心指导 一步一步的指导我走过来 从 会议论文的书写到期刊论文 从初稿的完成到论文的修改 一直指导我走过来 同时也感谢我的导师段会龙教授 是段老师的科研团队 才创造出了实验室浓郁的科 研氛围 并且为每个学生提供了科研平台和指导老师 同时通过实验室内部不断交流 不 论是在技术和科研思维把握上 每次都有新的感悟 并且依靠着实验室申请的国家项目 我们才有可能有所依托和确实能搞出一些实质性的东西 同时也感谢邓老师对我们学生的管理 实验室良好的规章制度让我们有好的作息时间 和实验室活动 悉心的教导我们 让我很好的融入到实验室生活当中 每天都在实验室里 学习科研 日复一日去提高自己 还有黄正行老师对科研的热情 吕老师对学生的高要求 刘老师的平易近人都给我留下了深刻印象 感谢张寅升师兄 在科研开发中 每当我遇到技术问题和思路问题都会向张师兄请教 师兄总是一如既往的耐心教导我 在与师兄的交流中我慢慢喜欢上了调研和知道了如何去 解决问题 感谢课题小组中的郑翔 梁国威 葛彩霞 鞠美芝 贾峥 龙新 在科研学习 中对我提供的无私帮助 也感谢闵令通 胡丹青 刘骏健 陈泽海等 常常和我一起去打 篮球 让我有个好的体魄 去更好的科研和学习 感谢同一届的小伙伴们 这两年多来的陪伴 让我在科研 学习 生活上并不孤单 感谢实验室其他的兄弟姐妹们对我的关心 最后感谢支持我的家人和我的女朋友 虽然身处异地 但是有了你们的支持我更加的 充满力量 你们永远都是我最爱的人 2 0 1 5 年冬至日于求是园 T 万方数据 浙江大学硕士学位论文 摘要 摘要 随着几个大型人类肿瘤基因组项目 如T C G A I C G C 等 相继发起 为肿瘤基础医学 和转化医学研究者提供了海量的基因组数据和与其关联的临床数据 为进一步挖掘有意义 的基因组变化和发现影响肿瘤发展 分化等生物学内部机制提供了数据基础 然而传统的 基础医学研究者和转化医学研究者缺乏信息学知识来处理如此空前规模的海量数据 因而 在面对这些大型基因组项目提供的开源文本数据 往往望洋兴叹 作为医学信息领域研究者 我们需要将信息学和统计学技术运用到癌症基因组学数据 分析的研究当中 作为连接大数据与基础医学研究者之间的一个桥梁 帮助研究者去探索 这些数据 为此 本研究提出构建一个在线的肿瘤基因组学分析平台 T C G A 4 U h t t p w w w t c g a 4 u o r g 8 8 8 8 为基础医学和转化医学研究者提供面向大型肿瘤基因组资源 T C G A 的数据分析服务 本论文需要解决的问题包括 1 整合各类肿瘤基因组和临床数 据构建一个可供上层应用的知识库 2 利用多种类型的肿瘤基因组学和临床数据进行联 合分析 帮助研究者更深入认识和理解这些数据资源以及各种数据特征之间的关联 3 引导研究者使用平台展开更进一步的基因组数据分析 生物学过程和路径探究 为此本论文提出了肿瘤基因组学分析平台的系统框架构建 通过集成T C G A 的体细胞 突变 基因表达 D N A 甲基化 拷贝数变异和临床数据 以及拓展基因本体 G e n e O n t o l o g y 术语相关数据 人类基因组参考序列 C R C h 3 7 分子相互作用数据库 E B I I n t A c t 等 构 建了一个完整的肿瘤基因组学知识库 为上层提供了数据支持与服务 为了能够快速高效 地处理海量数据和运用多种统计学算法 我们选用了R 作为统计学计算引擎 为上层提供 数据分析服务 同时实现了一些需要自实现的算法和一些文本处理模块供上层应用调用 针对上层数据查询和分析结果的显示模块 我们采用了基础数据显示和可视化呈现相结合 的模式 帮助使用者能直观的查看统计学的分析结果 论文最后阐述了一个基于平台的研究案例 对利用平台开展研究工作做了示例 案例 重点探讨了在乳腺癌中基因表达模式与病人存活的关系 并获得两个结果 1 线粒体核 糖体在癌症发展中扮演着重要角色 线粒体核糖体和胞质核糖体表达总量相对平衡 2 与先前在其他癌症的报道相比 H S P A 2 在乳腺癌中对病人存活影响有着不同的表达模式 乳腺癌中拥有H S P A 2 低表达的病人具有相对低的存活率 并且利用O n c o m i n e 数据库的四 种类型乳腺癌和荷兰癌症研究所的乳腺癌表达数据和存活数据进行了结果正确性的验证 本论文提出和构建了一个在线肿瘤基因组学数据分析平台 深入探究了基因组和临床 数据的关系 让转化医学和基础医学研究者能够方便的浏览T C G A 基因组数据和利用平台 整合的基因组和临床数据挖掘其对癌症发展 转移等过程的影响 同时在平台上发布我们 最新的研究成果 为挖掘潜在癌症驱动因子和制定个性化诊疗做出贡献 关键字 基因组学分析 存活分析 数据挖掘 预后评估 I I 万方数据 浙江大学硕士学位论文A b s l r a c t A b s t r a c t S e v e r a ll a r g e s c a l eh u m a nC a n C e rg e n o m i c sp r o j e c t sh a v eb e e nl a u n c h e d s u c ha ST C G A I C G C w h i c ho f f e rh u g eg e n o m i ca n dc l i n i c a l d a t af o rr e s e a r c h e r s T h e s ed a t as u p p o r t r e s e a r c h e r sm i n em e a n i n g f u lg e n o m i c sa l t e r a t i o n sw h i c ha f f e c tt h ed e v e l o p m e n ta n dm e t a s t a s i s o ft u l n o r s H o w e v e r b a S i cm e d i c a lr e s e a r c h e r sa n dt r a n s l a t i o n a lm e d i c i n er e s e a r c h e r sw i t h o u t e n o u g hk n o w l e d g eo fd a t aa n a l y s i sa n dt r a i n i n gi nb i o i n f o r m a t i c sf a c ea ne m b a r r a S s i n gs i t u a t i o n t h a tt h e yh a v e n te n o u g ha b i l i t i e st ou t i l i t yt h e s et e x tf i l e s A sm e d i c a li n f o r m a t i o nr e s e a r c h e r s w en e e dt ou s ei n f o r m a t i c sa n ds t a t i s t i c st e c h n i c a lo n c a n c e rg e n o m i c sd a t aa n a l y s i s a sab r i d g eo fb i gd a t aa n db a s i cm e d i c a lr e s e a r c h e r st oh e l p t h e mt oe x p l o mt h e s ed a t a T h e r e f o r ew ep r o p o s et od e v e l o pa no n l i n ec a n c e rg e n o m i ca n a l y s i s p l a t f o r m T C G A 4 U h t t p w w w t c g a 4 u o r g 8 8 8 8 f o rb a s i cm e d i c a lr e s e a r c h e r sa n dt r a n s l a t i o n a l m e d i c i n er e s e a r c h e r st oo f f e rd a t aa n a l y s i ss e r v i c e so fT C G At e x td a t a T l l i sp a p e rn e e d st o s o l v et h e s ep r o b l e m s 1 B u i l d i n gac a n c e rg e n o m i ck n o w l e d g eb a s et o s u p p o r tu p p e r a p p l i c a t i o nt h r o u g hi n t e g r a t i n gg e n o m i ct e x tf i l e sa n dc l i n i c a ld a t a 2 P r o d d i n gg e n o m i cd a t a a n a l y s i ss e r v i c e sf o rr e s e a r c h e r st oa n a l y z em a n yg e n o m i cd a t at y p e sa n dc l i n i c a ld a t aa n dh e l p r e s e a r c h e r st od e e pe x p l o r et h e s ed a t aa n dr e l a t i o n s h i p so fg e n o m i cd a t a 3 G u i d i n gr e s e a r c h e r s t ou