conda create --name jcvi python=3.9 jcvi bedtools emboss last
在此之前,建议按照安装texlive,而不要使用conda中的texlive-core
wget https://mirror.ctan.org/systems/texlive/tlnet/install-tl-unx.tar.gz
tar -xzf install-tl-unx.tar.gz
cd install-tl-*
perl install-tl
# 若无管理员权限需要安装在家目录
# 在交互界面按"D",再按"1"
# 更改"TEXDIR"至合适位置
# 再按提示完成安装(约需1.5h)
准备数据
jcvi支持直接从下载数据(需要先注册)
查看可下载的物种,常见的植物物种都可以直接下载
python -m jcvi.apps.fetch phytozome
下载与整理数据
# download sequences and coordinates of grape and peach
python -m jcvi.apps.fetch phytozome Vvinifera,Ppersica
# convert the GFF to BED file
python -m jcvi.formats.gff bed --type=mRNA --key=ID --primary_only Vvinifera_145_Genoscope.12X.gene.gff3.gz -o grape.bed
python -m jcvi.formats.gff bed --type=mRNA --key=ID --primary_only Ppersica_298_v2.1.gene.gff3.gz -o peach.bed
# clean headers to remove description fields from Phytozome FASTA files
python -m jcvi.formats.fasta format Vvinifera_145_Genoscope.12X.cds.fa.gz grape.cds
python -m jcvi.formats.fasta format Ppersica_298_v2.1.cds.fa.gz peach.cds
如果仔细观察,还可以发现3个共线性区域中常常有一个信号更强,对应着两个基因组之间的直系同源区域。如果我们只想要得到这些1:1直系同源的区域呢?我们只需要重复之前的比对,同时加上选项--cscore=.99即可。C-score是由LAST比对区域到BLAST比对区域的比值确定。(C-score is defined by the ratio of LAST hit to the best BLAST hits to either the query and hit)。0.99的C-score阈值有效地过滤LAST比对结果,从而得到最佳相互比对结果(reciprocal best hit, RBH)。