• FastQC是一款基于Java的软件,一般都是在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为:Babraham Bioinformatics
  • fastx Toolkit 在使用FastQC之后,如果我们发现了一些问题(序列质量不高,),那么我们该使用什么样的工具,去解决这些问题呢?fastx Toolkit是包含处理fastq/fasta文件的一系列的工具,它是基于java开发的,我们高通量测序最常用到的是使用这个软件进行reads的裁剪fastx_trimmer。
  • cutadapt软件,是最常用的去adapter的工具。它是基于Python编写的一个Python包
  • 动手实践一篇生信文章:Reconstructing lineage hierarchies of the distal lung epithelium using single-cell RNA-seq,2014年nature,LETTER文章,涉及到的概念有单细胞测序,RNA-SEQ 分析,热图绘制,PCA分解,violin plot 等等。
  • 2017年nature bioinformatics文章GRID-Seq 探索DNA-RNA的相互作用,再一次提醒我,生信分析重要的是想法,你想分析什么,可以通过实验设计来实现,实验的创新也离不开对工具酶的使用
  • snakemake搭建pipeline
  • 二代测序快速比对算法软件BWA,Bowtie,Bowtie2比对算法的原理。
  • 面临的是计算力不够,储存空间不够的问题。计算过程中最耗时的是序列比对,序列排序和序列去冗余的过程。其中序列比对的时间是最长的。建议了解学习演化生物学、群体遗传学、演化模型等。创新高性能的基因组学定制化的存储方案、高性能的基因组学数据压缩方案、高性能的FPGA,大大缩短比对时间,绝对不能靠堆CPU核。
  • RNA-seq R包
    library(magrittr)
    library(DESeq2)
    library(edgeR)
    library(RUVSeq)
    library(clusterProfiler)
    library(TxDb.Hsapiens.UCSC.hg19.knownGene)
    library(org.Hs.eg.db)
  • 北京大学高歌老师的《生物信息学:导论与方法》中的双序列比对(pairwise alignment)的相关算法。主要是Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)相关的内容
  • blast、blat算法。
  • 针对3代测序优化的比对软件有BLASR,LAST,BWA-MEM等。
  • Fasta(物种)&Fastq(机器)-(测序结果)、BAM(压缩)&SAM(原始)-(mapping结果,BAM文件是SAM文件的一种压缩格式,也是最常用的一种比对结果的压缩格式。它一般可以将SAM文件压缩到只有原来的20~30%大小,并且使用非常方便。)
  • mapping质量评估之mapq
  • 生信分析python的anaconda平台-bioconda
# 添加清华源的bioconda链接
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
#创建环境
conda create -n 自定义环境名称 python=3.5 #指定python版本
#进入环境
source activate 环境名称
# 退出子环境
source deactivate

conda install
FASTQ测序结果质量控制: fastqc
trim序列:fastx_toolkit
去除adapter的软件:cutadapt
比对软件:bwa, bowtie, bowtie2
RNA比对软件:tophat2, hisat2, star
SAM/BAM文件处理:samtools
BED文件处理:bedtools

  • RNA比对的常用软件
    1.tophat2,应用最广泛的比对软件,但是速度很慢,已经基本被淘汰了,大约需要4~5G内存就能运行;
    2.hisat2,tophat2的原班人马搞得新一代转录组比对软件,比对速度大大提高,我强烈推荐,大约需要4~5G内存就能运行;
    3.STAR,非常适合于大量数据的并行计算,速度非常快,对于同时有参考基因组和参考转录组的物种,比对的准确率很高,不过index很大,至少需要30G以上内存才能运行。
  • 转录组分析注释文件GFF或者是GTF文件
    GFF有若干个版本,简单来说,GTF是GFF文件的其中一个版本,我们一般认为GTF文件就是GFF 2.0版本的内容。一个标准的GTF/GFF2.0文件需要包括9列内容,下载参考转录组GTF/GFF文件从UCSC或者Ensembl。
  • samtools tview这个工具可以对sort好的BAM文件进行可视化,并提供随机访问功能。
  • IGVTools对mapping结果进行可视化,开发者是Broad Institute(顶级)
  • R语言 bioconductor工具包
    Biostrings
    BSgenome
    Genomic Ranges
    Genomic Feature
    rtracklayer
    Gviz
    GEOquery等
  • RPKM、FPKM、TPM与内参校正
  • 融合fastq trim cut等过程于一身的包 fastp
  • 自己编写一个包