癌症分类逻辑回归各种癌症的病理分型

转载

云端小梦 2024-05-13 16:48:48

文章标签 癌症分类逻辑回归数据数据库原始数据 文章分类 机器学习人工智能

背景

现有一些mRNA和miRNA组学数据，需要做癌症分型。

此前有如下基础：
高中生物关于DNA，RNA，蛋白质之间转录翻译，影响形状的知识
机器学习基本知识，尤其是聚类

但对mRNA,miRNA 癌症分型的概念和相关知识毫无了解，特做此笔记。

本文资料大多整理自硕士学位论文：基于多组学数据的癌症分型研究
作者：王东利，西安电子科技大学

（后期可能会继续更新）

概述

癌症分型：同一种癌症类型的患者表现形状不同，属于不同亚型。区分不同亚型，能提供个性化治疗方案，精准治疗，提高治愈率。
组学数据：
基本原理：
绝大部分癌症是由基因突变驱动异常细胞生长引起的。
常用方法：
通过各种方式提取特征，再用k-means进行聚类。
数据集：
癌症基因组图谱计划（ The Cancer Genome Atlas，TCGA） [8]是癌症基因组学的重大资源宝库，该数据库收录了来自全世界不同地域的样本信息，数据包括不同癌症类型的不同组学数据。专家表示未来 TCGA 将拥有上亿样本的数据，它的非盈利性质将为各国的研究人员提供非常便捷又可信赖的数据获取渠道
Firehose 服务器（http://gdac.broadinstitute.org/）
中原始数据也来源于 TCGA 数据库，只是相关研究团队做了简单的数据整理，将每种癌症相同类型的数据合并到一个文件夹方便统一管理和使用。

mRNA & miRNA

原始数据：

mRNA：由 mRNA 芯片技术或者转录组测序技术获得的 mRNA 表达量
miRNA：由 miRNA 芯片技术或者转录组测序技术获得的 miRNA 表达量

原始mRNA表达量数据

通过mRNA芯片或RNA测序技术得到
基本不具有生物分析意义：

测序把长链RNA打断，测出其包含的小片段的信息，所以changRNA序列测得的表达量多

测序误差，有效数据量的差异导致绝对表达量的不可比性

对表达量进行归一化后的数据

（TCGA数据库的操作）标准化
（论文作者操作）去除在50%以上样本表达值都为0的基因
（论文作者操作）除去表达值标准差低于0.3的基因来过滤低表达差异性的基因。

什么是组学数据文字版

以下内容与上图内容相同：

组学数据：Omics

基因组学（DNA编译）Genomics

碱基水平的变异

单核苷酸变异（ Single Nucleotide Variation， SNV）

同义突变：密码子对应的氨基酸不变
错义突变：密码子对应的氨基酸变化
无义突变：终止密码子，翻译提前结束，蛋白质序列变短

插入缺失（Insertion deletion， Indel）

染色体水平变异

拷贝数变异等（二倍体、三倍体、单倍体等）

转录组（RNA）transcriptomics

mRNA：编码区RNA
miRNA：非编码区，长度约为22个核苷酸。虽然不编码，但会调控转录和蛋白质生成的过程。
lncRNA，long non-coding RNA, 长非编码RNA

表达遗传组（基因的修饰作用，似乎是基因不变，但他的表达被改变了）Expressiomics

DNA甲基化：

原始 DNA 链顺序不改变
在 DNA 甲基化转移酶的作用下
特定的甲基附着到 C（胞嘧啶）碱基
这实际上是一种化学修饰
这种修饰能抑制基因的表达
很多研究发现人类绝大部分癌症中基因的启动子区域存在超甲基化事[50]，并且共同特点是这些超甲基化会导致抑癌基因的沉默表达。

其他方面（研究较少）

mRAN数据使用前的标准化

此文中说，用Deseq2+vst标准化

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：PPP协议 WIRESHARK实验 ppp协议配置实验总结

下一篇：freemarker 转number 两数相减 freemarker字符串转数字并运算

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

癌症分类逻辑回归 各种癌症的病理分型

癌症分类逻辑回归 各种癌症的病理分型

背景

概述

mRNA & miRNA

什么是组学数据文字版

mRAN数据使用前的标准化

此文中说，用Deseq2+vst标准化

51CTO博客

癌症分类逻辑回归各种癌症的病理分型

癌症分类逻辑回归各种癌症的病理分型