使用SHOREmap做mapping-by-sequencing
SHOREmap Guide https://www.jianshu.com/p/9f4de8573b6c
简介
SHOREmap可以用来分析传统作图群体(自然系natural strains和分化系,diverged accession杂交,或outcrossing)或近等作图群体(isogenic mapping population, 诱变后代与未诱变亲本进行杂交,即会交,backcrossing)所产生的重测序数据。根据作图群体构建方式的不同,SHOREmap的outcross或backcross采用不同基于滑窗(sliding)方式对等位基因频率进行分析。
SHOREmap的backcross和outcross都需要从突变重组库中获得的一致的碱基识别信息
安装
前置安装
SHOREmap需要DISLIN科学库进行数据可视化
但是在安装DISLIN之前还需要保证存在/usr/lib/libXm.so*和/usr/lib/libXm.so*,这两者的安全需要root权限,所以要么联系管理员,要么想办法绕开(这个办法,我还没有想到).
sudo apt-get update
sudo apt-get install libmotif4
sudo apt-get install libxt-dev开始安装dislin库
cd /path/to/src
## 下载
wget ftp://ftp.gwdg.de/pub/grafik/dislin/linux/i586_64/dislin-11.0.linux.i586_64.tar.gz
## 解压缩
tar -zxvf dislin-11.0.linux.i586_64.tar.gz
cd dislin-11.0
## 加入系统路径
mkdir -p $HOME/biosoft/dislin
DISLIN=$HOME/biosoft/dislin
export DISLIN
## 安装
./INSTALL
## 复制dislin_d.h 到dislin的文件下
cp ./example/dislin_d.h $DISLIN
## 删除安装文件(可选)
rm -rf dislin-11.0安装SHOREmap v3.x
我这次安装的是当前最新的3.4版本,其他版本估计换汤不换药。
最后,可以重新启动一下bash验证
官方网站提供的两个常见问题的解答
Note 1: if the compilation complains like "/usr/bin/ld: cannot find -lXt" (or "/usr/bin/ld: cannot find -ldislin_d"), please open the makefile with the command
Press keys 'esc' and 'i' on the keyboard to edit makefile; move the cursor with arrow keys to the position before -lXt, and edit -L/path/to/libXt.so/; if '-ldislin_d' is not found, edit -L/path/to/dislin_d/ before -ldislin_d). After that, press keys 'esc', type in :wq, and press enter to save editing and quit vi. ('-L' tells the linker where to find the library given by -l)
Note 2: if '/usr/lib/ld: warning: libXm.so.3, needed by ./dislin/libdislin_d.so, not found (try using -rpath or -rpath-link)' occurs, and you have installed libmotif4, do the following:
We can make SHOREmap avaiable for general use by inserting the following command into /etc/profile
and
总体流程
OUTCROSS
SHOREmap extract
提取与SNP突变相关的重测序的一致的识别
SHOREmap create
根据背景/亲本系的重测序质量创建SNP标记列表
SHOREmap outcross
进行等位基因频率分析并定义mapping interval(也就是找到突变所在的大致区域)
SHOREmap annotate
对mapping interval中的突变基因效应进行注释
BACKCROSS
SHOREmap extract
提取与SNP突变相关的重测序的一致的识别
SHOREmap backcross
进行等位基因分析
SHOREmap annotate
对mapping interval中的突变基因效应进行注
具体步骤
下载数据
只安装软件,却没有数据,我们也只能干瞪眼。
oucross分析所需数据
backcross分析所需数据
其他数据
除了最基本的测序数据外,我们可能还需要参考基因组,已有的注释数据等
重测序
首先使用bwa,bowtie2等read比对工具将得到的数据比对到参考基因组上。
假设你当前处在MBS文件夹下,该文件下有如下文件
以下操作都是基于上述文件进行。
第一步:序列比对,产生SAM文件
第二步:SAMtools预测突变位点
为了加快运算速度,可以先转换格式,并排序
consensus-calling program 寻找可能的变异位点
额外步骤:VCF格式转换
由于bcftools工具版本,所以最后的文件版本是4.2,而SHOREmap要求4.1。通过biostar找到高人写的降级工具(其实就是把一些字符替换一下,但是不了解vcf不同版本的差异话,是不知道怎么写)
把下面的代码存为vcf_dowgrade.sh
其实对于单个文件而言,可以直接用以下命令
使用SHOREmap寻找突变所在区
第一步:需要把bcf文件通过SHOREmap convert转换成SHOREmap能认识的格式
第二步:提取候选分子标记的consensus information(mapping pool)
第三步:使用SHOREmap backcross分析
SHOREmap backcross可用来分析回交作图群体所得到重组后代混池数据。相对于传统作图群体,只有诱变剂产生的突变会分离,也只有这些才会用于突变定位。
SHOREmap backcross会尝试过滤出所有参考基因组和测序池之间不同部分用于找到突变点特异部分。为了保证不是自然变异或者是测序错误,测序池选择的部分要多次出现在亲本或背景中。然后根据前景和/或背景的(识别碱基,base calls,质量/覆盖率/等位基因)信息,确定是否把保留的SNP位点作为分子标记。在正确的筛选后(拟南芥大概有上百个标记),SHOREmap backcross就能在分析marker的AF后识别大致的峰。进一步对变异注释后,就能找到目标性状的候选基因了。
SHOREmap backcross所需的输入文件如下:
染色体大小文件,--chrsizes。分为两行,一行是染色体位置,一行是染色体大小。scaffold同理
候选marker文件。也就是使用SHOREmap convert通过vcf生成的converted_variant.txt,每一列的含义如下。 1 Project name 2 Identity of chromosome 3 Position of the SNP-marker 4 Reference base 5 Alternative base (or mutant base) 6 Quality of the alternative base (ranging from 0 to 40) 7 Number of reads supporting the predicted base 8 Ratio of reads supporting the predicted base to total coverage
第四步:对结果进行注释
示例代码
snp_comp.sh
extract_marker.sh
backcross.sh
Last updated