Process NGS data in QIIME-－金锄头文库

二代测序数据在QIIME中的处理以Illumina Miseq平台为例时玉2015/9/7QIIME (Quantitative Insights Into Microbial Ecology) ，音同 ”Chime”，是一个用于比较和分析微生物群落的开源软件，其开发者是美国科罗拉多大学的Rob Knight等人。QIIME 能够处理的标准数据是各种测序平台上扩增子的高通量测序结果。至今为止，QIIME已经被2229篇文献引用。QIIME是什么提纲（based on QIIME 1.8.0）1、安装QIIME 2、认识Illumina Miseq数据 3、Miseq原始数据的处理 4、下游分析QIIME for windows1、下载Windows版本的Virtual Box3、打开Virtual Box，新建一个虚拟设备4、进入Ubuntu系统后，看见集成了QIIME的系统界面2、至QIIME网站上下载”64-bit QIIME Virtual Box” (http:/qiime.org/install/virtual_box.html)，解压该文件在BIOS里开启硬件虚拟化才能建立64位虚拟系统QIIME for windows5、打开Before_you_start文件夹，按文件顺序依次阅读并安装必要软件6、设置Shared_Folder认识Miseq数据Phred Quality ScoreProbability of incorrect base callBase call accuracy101 in 1090%201 in 10099%301 in 100099.9%401 in 10,00099.99%501 in 100,00099.999%601 in 1,000,00099.9999%read IDread 序列省略的read ID Phred score+33拼接readsMiseq原始数据的处理join_paired_ends.py -f forward_reads.fastq -r reverse_reads.fastq j 10 p 10 -o fastq-join_joined将双向测序的reads通过overlap区域进行识别并组装成一条完整的序列，将生成拼接完毕的fastq文件，用于后续分析。-j：指定最小的overlap长度 -p：指定overlap区域里正反reads不一致碱基所占比例的阈值Miseq原始数据的处理extract_barcodes.py -f inseqs.fastq -c barcode_single_end -bc1_len 7 -o processed_seqs 将序列文件中的barcode信息提取出来，生成一个fastq格式的 barcode文件和去除了barcode的序列文件。-c：barcode的布置方式 -bc1_len ：指定barcode长度提取barcodeMiseq原始数据的处理map文件是txt格式的文本，提供了barcode、引物、样品编号、处理等信息，在后续的分析中将被频繁调用，是非常重要的标记文件。validate_mapping_file.py -m Fasting_Map.txt -o validate_mapping_file_output在QIIME中验证map文件的格式。将会生成一个html格式的文件，若格式并非完全正确，则打开该文件后将看到部分单元格呈黄色或红色，分别表示警告信息和错误信息。警告信息可以忽略，但须谨慎；错误信息必须改正，否则map文件不能被正确读取。制作及验证验证 map文件Miseq原始数据的处理split_libraries_fastq.py -i reads.fastq -b barcodes.fastq -m Map.txt -q19 -o split_libraries_fastq/依据barcode文件将每一条序列归类到不同的样品中去，生成的文件是一个归类完毕的fasta格式序列文件，其中所有序列都有唯一编号和所属样品。-m：map文件 -q：指定碱基质量分数阈值割库库下游分析pick_otus.py -i seqs.fna -r refseqs.fasta -m uclust_ref -s 0.97 -o uclust_picked_otus使用某种算法对序列进行聚类。生成的文件seqs_otus.txt，是一个otu ID和序列ID对应关系的map文件。-r：指定参比的序列文件 -m：指定pick otu的方法(uclust, blast, usearch, mothur) -s：指定一个otu内序列相似性的阈值OTU聚类类下游分析每个otu仅需要一条序列来表示，这条序列称为代表序列。代表序列被用于后续的物种比对及建立系统发育树。-r：指定参比的序列文件(与pick_otu步骤中须相同) -f：自己的序列文件pick_rep_set.py -i seqs_otus.txt -f seqs.fna -r refseqs.fasta -o rep_set.fna挑选选代表序列下游分析assign_taxonomy.py -i rep_set.fasta -r ref_seq_set.fna -t id_to_taxonomy.txt -m uclust使用默认方法（uclust）对所有的代表序列进行物种比对。生成的id-taxonomy索引文件将用于后续分析。-r：指定参考序列；-t：指定ID-系统分类索引表（来自其他数据库：Greengenes、Silva、RDP、UNITE） -m：指定比对方法(uclust, blast, rdp, mothur)比对对分类类下游分析align_seqs.py -i unaligned.fna -t core_set_aligned.fasta -o pynast_aligned/使用默认方法（Pynast）将序列对齐。生成的文件是已对齐的序列文件和未满足设定参数而对齐失败的序列文件。-t：指定参比的已对齐序列文件对齐对齐序列下游分析过滤对齐后序列，去除序列中的gap，用于制作系统发育树。filter_alignment.py -i seqs_rep_set_aligned.fasta -o filtered_alignment/make_phylogeny.py -i aligned.fasta -o rep_set.tre过滤对齐过滤对齐后序列生成系统发育树下游分析生成biom格式的OTU表。需要转化为txt格式文件才能在QIIME之外使用。-i：pick otu步骤中生成的seqs_otus.txt文件 -e：对齐序列步骤中生成的对齐失败文件make_otu_table.py -i seqs_otus.txt -o otu_table.biom -e pynast_failures.fna 生成OTU表下游分析summarize_taxa_through_plots.py -i otu_table.biom -o wf_taxa_summary -m Fasting_Map.txt生成不同分类水平（L2-L5：phylum-genus）的汇总信息。和OTU 表一样均为biom格式，需要转换为txt格式才能使用。biom convert -i otu_table.biom -o otu_table_with_taxonomy.txt -b -header-key taxonomy 将biom格式文件转换为txt格式。在转换OTU表时使用-header- key taxonomy会保留物种分类信息汇总汇总系统统分类类信息下游分析make_otu_heatmap_html.py -i otus/otu_table.biom -o otus/OTU_Heatmap/生成OTU热热图图下游分析在计算多样性和多样性时，要去除因测序深度不一致产生的影响，因此需要重采样。生成的文件是一系列指定序列数的 OTU表。-m：抽选的最小序列数 -x：抽选的最大序列数 -s：步长 -n：每一步长重采样次数multiple_rarefactions.py -i otu_table.biom -m 10 -x 10000 -s 10 -n 20 -o rarefied_otu_tables/生成重采样样OTU 表下游分析计算上一步中生成的每个OTU表的多样性，涉及到系统发育多样性是（如PD值），需要用到系统发育树文件（-t）。生成大量的中间文件，用于后续分析。-m：指定需要计算的多样性指数 -t：系统发育树alpha_diversity.py -i rarefied_otu_tables / -m PD_whole_tree,observed_species,chao1,shannon -o alpha_div/ -t rep_set.tre计计算多样样性下游分析使用上一步生成的中间文件把多样性指数整合成方便阅读及整理的txt文件。collate_alpha.py -i alpha_div/ -o collated_alpha/整合多样样性下游分析生成的网页文件用浏览器打开后，可以看到所有样品的稀疏曲线。根据稀疏曲线来决定重采样的序列数。稀疏曲线是多样性随重采样序列数变化的曲线。重采样序列数的选择是提高测序深度与舍弃更多样品之间的选择。make_rarefaction_plots.py -i alpha_div_collated/ -m Fasting_Map.txt o rarefaction_plots/生成稀疏曲线线Thank you！