fasta,bam和gff格式的文件是用来描述什么类型的数据,每种格式的基本组成是什么
bam 和 gff不是很清楚,fasta知道一点.fasta是基因序列文件,第一行是序列的描述或者名称,用’>’符号开头.然后换行,第二行开始是基因序列,一般DNA的话就是A,G,C,T四种字符组成.有的FASTA第二行是不换行的,有的是换行的.这点需要注意.
FASTA文件里面的序列都是正链上的吗
FASTA是一个序列的保存形式,什么序列都可以保存的 但是你从网上所看到的序列,如NCBI上的基因序列,一般都是有义链上的
各位高手:扩展名为“fasta”的文件是什么类型的文件?谢谢!
可使用 SeaView 打开!
SeaView 是图形化多序列比对编辑器,能够读各种比对格式
Fasta格式,又叫Person(Fasta的主要作者)格式,是SeaView 最简单的格式,使用最多。
FASTA程序是第一个广泛使用的数据库相似性搜索程序。
程序引用取代矩阵实行局部比对以获得最佳搜索。但众所周知,使用这种策略会非常耗费工作时,为了提高速度,在实施耗时的最佳搜索之前,程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡选择依赖于ktup参数。它决定了字串的大小。增大ktup参数就会减少字串命中的数目,也就会减少所需要的最佳搜索的数目和搜索的速度。
从2.0版本开始,FASTA对每一个检索的比对都提供一个统计学显著性的评估
文本文档多个核苷酸序列如何转化成FASTA格式?
这个容易,自己稍微手动改些就是了. 你可以随便下一个NCBI的fasta的格式看看.我有点记不清了,按照它的格式来写. 其实差别就是上面多了一个:>XXX之类的. 最后改好后,保存关闭把文件后缀名改一下. 可能有软件可以直接改吧.不知道DNA plus可不可以.上面的方法还是可以的.
什么是fasta format
快速格式化
Python如何解析fasta格式,并储存为字典
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
importsys
sequence =’ ‘
fasta ={}
with open(sys.argv[1]) as file_one:
file_one_content =file_one.read()
forline infile_one_content.split(“\n”):
ifnotline.strip():
continue
ifline.startswith(“>”):
sequence_name =line.rstrip(‘\n’).replace(“>”, “”)
else:
sequence =line.rstrip(‘\n’)
ifsequence_name notinfasta:
fasta[sequence_name] =[]
fasta[sequence_name].append(sequence)
printfasta
两个FASTA文件的合并 python
Python编程将两个文件合并,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
//例子:合并a.txt和b.txt文件
defreadf(filename):
lines =file(filename).readlines()
dic ={}
fori inlines:
i_ =i.split()
dic[i_[0]] =int(i_[1])
returndic
dica =readf(‘a.txt’)
dicb =readf(‘b.txt’)
lines =[]
fori indica:
percent =str(float(dicb[i])*100/dica[i])+’%’
s =’ ‘.join([i, str(dica[i]), str(dicb[i]), percent])
s +=’\n’
lines.append(s)
//合并成c.txt
with open(‘c.txt’, ‘w’) as f:
f.writelines(lines)
f.close()
为什么要 对fasta文件建立index
必须将文件的后缀名改成.fasta才能被它识别,仅仅是txt格式的保存是不够的!