生信入门小白也能快速上手数据挖掘...
文末可领取免费论文入门教学资源
在生命科学研究中,有这样一门学科,它是以计算机为工具对大量且复杂的生物数据进行储存、检索和分析的科学。没错,那就是 生物信息学。
然而,对于很多生物专业的同学来说,并未系统学习过计算机知识,因此提到生信便望而却步。
此次就为大家带来生物信息学的纯干货, 带你走进生信的世界,看看别人如何不做实验也能发 SCI!
小白入门,如何运用生信助力科研?
由于传统的生物学方法无法处理这么庞大的数据量,利用计算机强大的计算能力,生物信息学应运而生。那么对于从未接触过的生信小白而言,我们又该如何理解并学习使用生信工具来做研究呢?
我们以一篇文章为例,看看别人的生信文章都是如何做的。
这篇发表在《Cellular physiology and biochemistry》杂志上的这篇文章,做的是关于三阴性乳腺癌中相关 ceRNA 差异表达谱的综合分析。
首先,研究利用 癌症基因组图谱(TCGA)的 RNA-Seq 数据比较了 111 个 TNBC 组织和 104 个非癌组织中 mRNA、IncRNA 和 miRNA 的表达谱。之后,对差异表达的 mRNA 进行 Gene Ontology和 KEGG 通路富集分析。Kaplan-Meier 生存分析确定差异表达的 lncRNA / mRNA/ miRNA 对总生存期的影响。随后,通过 qRT-PCR 实验在 ceRNA 网络中证实了 4 种失调的 IncRNA、3 种异常表达的 miRNA 和 4 种 mRNA。
因此得出结论:109 个 lncrna 和 124 个 mrna 可作为 TNBC 患者的预后标志。功能分析显示,ceRNA 网络中的 19 种 mRNA 在 17 种癌症相关途径中富集。
这篇文章总结下来就是一句话:
下载别人已经完成的芯片数据,分析筛选差异基因,构建蛋白质互作网络,最后利用 GO 和 KEGG 分析。
生信分析文章套路原来这么简单
生物信息学公开数据挖掘
数据挖掘(Data Mining, DM)就是从大量的数据中提取和分析数据,从而挖掘和分析序列、分子、基因表达或途径信息。
数据挖掘的主要功能:
分类: 对输入数据项分类为几个现有数据;
估计: 对给定的数据,得出未知连续变量的值;
预测: 根据将来的结果或者评估值进行分类并记录;
关联规则: 确定哪些数据组合在一起,也称为依赖关系建模;
聚类: 将总体的元素通过聚类分析分为多个组或类;
描述和可视化: 对数据进行描述或者使用可视化技术表示数据。
那如何借助数据挖掘提升科研产出呢?
成功经验分享、总结、使用
如何规划一篇数据挖掘 SCI 论文
想要规划一篇数据挖掘 SCI 论文,首先你要明白 SCI 文章必备的核心技能:
1、选题:创新 Design Model
研究对象
干预方案暴露因素
观察指标
研究设计方法
2、立题:研究设计 PICOS 原则
P(Population):研究对象,需要研究的对象人群或代表与研究对象相关的问题;
I(Intervention):干预措施,对研究人群采用的治疗干预措施或与观察指标;
C(Comparison):比较组,代表对照组和将给予治疗措施或观察的指标;
O(Outcome):结局,代表与结局指标和相关的问题;
S(Study design):研究类型,即研究设计是什么、队列研究、病例对照还是横断面。
如何规划一篇数据挖掘 SCI 论文
当然,对于想学习生物信息学的朋友来讲,以上内容只是简略介绍。如果想了解更多,点击下方文字,看看还有哪些值得学习的知识吧!
我能不能做生信?生信难吗?
生信分析只能发「灌水」文章?
有哪些好用的生信分析工具?
想了解更多生信知识、数据挖掘技巧
进入丁香实验小程序
作者:Karwai
排版:fs
配图:丁香实验设计团队