zshits吧 关注:29贴子:2,997
  • 9回复贴,共1

【教程】如何使用BioEdit进行本地BLAST

只看楼主收藏回复

光速教程做成 BioEdit镇楼


IP属地:浙江1楼2022-05-24 15:09回复
    让我先,吐槽一下
    本以为是被吞了结果就是慢,可还行(还以为blast是什么和谐词orz
    ——————
    好,本教程涉及到的是使用软件【BioEdit】进行本地BLAST方法的简单教学
    BB一些基本概念
    -啥是BLAST
    BLAST是Basic Local Alignment And Search Tool基本对齐和局部搜索工具的缩写,严格来说BioEdit的这个功能使它也可以被叫做Tool,但……BLAST叫多了就变成动词了2333
    一般情况下我们提到BLAST就是“行使基本对齐和局部搜索功能”的意思了
    简而言之就是【用已知序列在某个库里找和它(们)足够相似的序列】
    -为啥要BLAST
    以普遍理性而言,生物学上认为“序列足够相似的基因行使的功能也是相似的”,基于这个原理,我们可以使用已知(已经验证过的)基因功能去推测未知(未经验证)基因的功能
    而这中间寻找“足够相似的基因”就是BLAST的意义
    -为啥本地BLAST
    因为它快(直接)
    众所周知现在基本是个存了基因组数据的网站都可以进行在线BLAST并可视化(并且还很好看),所以为啥还要费劲八叉地下载基因组数据在本地跑呢?
    首先你不知道那网站的服务器咋样,可能对比一两条完全ok,但是十几二十上百条就……是吧
    其次不是所有基因组都可以在线比对,比如你们自己送测序的样本,嗯,自由
    -为啥用BioEdit做本地BLAST
    因为它不需要使用指令(震声),纯鼠标操作就行,非常适合大量又不大量的BLAST
    前面提到在线BLAST一不小心就跑一半崩掉或者一跑跑24小时,所以如果你需要对一个基因组进行多次序列搜索,还是本地吧,稳
    BioEdit可以储存你曾经建过的所有库,完全不用像BLAST+那样使用指令生成库文件,可以有效避免半年之后忘记当初建的库叫啥名字存在哪了的尴尬问题
    虽然有些工具也可以进行本地BLAST(或者说是个生物分析软件几乎都行),但,会一个够用就行了呗2333
    ——————
    好了,了解了以上的基本概念之后,我们就可以进行【使用BioEdit在某个库里找和自己手里的序列足够相似的序列】的操作了


    IP属地:浙江2楼2022-05-24 16:52
    回复
      首先我们需要下载BioEdit软件
      emmmmmmm就,普通地下载就行,不要钱

      下完解压,记得不要装在c盘就行
      你所建的库都可以在这个路径下的某个文件夹中找到(虽然并不需要找到)


      IP属地:浙江3楼2022-05-24 16:56
      回复
        接着我们需要【在某个库中找到序列】的【库】
        众所周知BLAST有好几种算法

        blastN→用已知核酸序列在核酸库里找序列(N是nucleic acid的缩写)
        blastP→用已知蛋白序列在蛋白库里找序列(P是protein的缩写)
        TblastN→用已知蛋白序列去核酸库里找序列(T是不是proTein的缩写呢)
        blastX→用已知核酸序列去蛋白库里找序列(估计中间涉及的转换过程太复杂了想不到代表词所以用了X吧)
        TblastX→用已知核酸在核酸库里找序列,但是把已知核酸和核酸库先全翻译成蛋白质,然后用蛋白质序列找蛋白质序列(融会贯通一下吧orz)
        每个的算法有不同的运用场景……也就是说取决于你手里的序列是什么形式,以及你的库是什么形式
        不要以为一段序列就是一个基因,也不要以为一个基因就是一个蛋白,更不要以为一个蛋白只有一个模样
        盒盒盒盒盒盒盒盒

        ——————
        好了,上面这些具体区分绝大情况下只会出现在试卷上,本次将用最基本(快)的blastN为例进行演示,反正其它集中无非是输出序列和库的形式不一样而已XD


        IP属地:浙江4楼2022-05-24 17:17
        回复
          前面提到BLAST是用来搜【库】的,而库分为核酸库和蛋白库
          那么该去什么地方下载【库】呢
          ——说白了就是去找基因组数据库
          已经(花钱)完成测序的物种基本都会发一篇分挺高的sci,并上传到公共数据库,比较常见的是NCBI(真·啥都有点)、Phytozome(啥植物都有点)、PlantGDB(有些植物)、Ensembl数据库(有不少芥)、Sol Genomics Network(常见园艺植物)、angiosperms.org(被子植物综合)TAIR(有很多拟南芥)、Rice Genome Annotation Project(水稻专精)、WHEAT URGI(小麦专精)、CottonGen(棉花专精)、cucurbitgenomics.org(瓜类专精)、Citrus Genome Database(柑橘类专精)、Spud DB(马铃薯专精)、WHEAT URGI(小麦专精)、rosaceae.org(蔷薇科专精)
          综合数据库版本不全,专精数据库版本很全但是物种少,就是这样
          ————————
          咳咳扯远了
          虽然看着花里胡哨但基本没什么用得到的机会,嗯
          各个物种在建设过程中都会有自己专精的数据库,而其中一些比较经典的版本会被综合数据库收录……
          所以不知道该去哪下哪个版本基因组数据的话,去问你导师或者前辈吧(最起码不会因为下了一个他不喜欢的基因组版本而显得标新立异)
          这次就以Sol Genomics Network为例介绍一下
          啊这是因为孩子就是被要求用这上面的基因组做的BLAST(对孩子就是因为不想一遍遍代做才写个教程)
          ————
          首先我们打开具体物种页面(一般数据库网站找Download页面总没错)

          找到ftp地址(基本序列数据总会存在这种地方)
          找到我们需要的序列文件(一般是.fa或者.fasta格式)
          ————
          如果你问啥是.fa文件……就是一堆
          >基因名(回车)
          序列(回车)
          LOOP的文件,我们的软件会自动识别>并自动生成条目进行运算

          ——————
          咳咳又扯远了,去下载基因组

          点annotation

          CDS和cDNA是【核酸库】
          protein就是【蛋白库】了
          点击就可以下载fasta格式的文件
          ————
          如果你问CDS(蛋白质编码区)和cDNA这两个核酸库有啥区别……虽然它们本质上都是“表达出的基因”
          cDNA是由转录组(mRNA)反向互补算到的,是真实表达了的序列
          CDS是由全基因组(genome)通过特定序列识别算法预测到可能编码蛋白,但实际上或许并不会编码蛋白的序列
          这两个
          如果你问为啥有的CDS可能不会编码蛋白……回去补分子生物学谢谢
          ————
          下载完了记得分开存

          这次下载了俩亲本的基因组,大小不是很一样(过程一样)


          好,下完存好就行


          IP属地:浙江5楼2022-05-24 18:20
          回复
            获得了序列之后我们还要准备BLAST环境
            ——————
            关于环境是个啥,大概就是基础逻辑,类似java、c++之类的,能让二进制电脑听懂你的指令
            好了,下载BLAST+,在NCBI上就可以下,据说提前俩版本比较好(稳定)

            下载完普通安装就行
            然后我们在BioEdit里建库
            找到这个选项

            记得看清自己建的是核酸库还是蛋白质库


            IP属地:浙江6楼2022-05-24 18:28
            回复

              如果在目标文件夹下找不到文件,把文件类型改成all就行

              然后BLAST→Local BLAST

              我们就可以来到这个页面

              选择需要的程序(blast啥)以及你的库(下拉菜单里有)
              E值尽量选择比1e^-3更小的以保证相似度
              Tabular是“仅保留列表”的版本选项
              接着上传(或者粘贴)你所需要blast的序列
              如果有很多的话直接上传txt会比较好(不容易出识别不到的bug)

              最后点击Do Search
              等——


              IP属地:浙江7楼2022-05-24 18:40
              回复
                好了以上就是使用BioEdit对已知序列进行BLAST的操作了
                俺觉得这帖子已经不在了(赶紧保存下)
                ——————
                写教程好累啊,以上


                IP属地:浙江9楼2022-05-24 18:49
                回复
                  在吗大神,能不能给我个联系方式,帮帮忙啊


                  IP属地:陕西来自iPhone客户端10楼2022-09-30 21:12
                  回复
                    大佬,请问结果怎么分析啊~~


                    IP属地:广东11楼2023-10-19 20:18
                    回复