Category: Python | 小蓝哥的知识荒原

小蓝哥的知识荒原

活在当下，正向提升！

蓝莲盛开，身心自在~

Post Categories

生物信息学 143 技能 4 R语言 29 软件使用 6 Julia 1 Linux 1 文献阅读 22 统计学 5 文献 11 Python 7 Tools4You 6 swxxx 1 分子生物学 3 数据库 2 杂文 2 hexo 1 生物学信息学 1 科研 1 生物信息学 - 群体遗传学 - Linux 1

                            
                            基因or蛋白序列文件处理常用Python代码
                        
                                序列转换成fasta文件及后续的SwissProt数据库爬虫代码。
Excel格式序列转换成fasta格式文件：
import os

os.chdir('C:/Users/Administrator/Desktop/')

res = o
                            
                                2021-04-21
                            
                                    Python
                                
                            Python
                        
                            UniProt数据库爬虫获取相关信息
                        
                                最近在分析转录组，基因组是自己组装的，好多基因注释不到KEGG和GO这两个数据库，就索性先把基因蛋白blast到SwissProt数据库，然后得到比对的蛋白的ID，再经过筛选后再去看蛋白相关的GO term。但是，这么多基因我也不可能一个一
                            
                                2021-04-18
                            
                                    Python
                                
                            Python
                        
                            合并基因组文件
                        
                                将基因组fasta文件合并成一行：
import os
import time

start = time.time()

os.chdir('C:/Users/Administrator/Desktop/')
print(os.getcw
                            
                                2021-04-07
                            
                                    Python
                                
                            Python
                        
                            Python提取fasta文件成单行文件
                        
                                R语言对fasta这种超大的字符文件进行处理真的是太慢了，Python是真的香啊！
import os
import time

start = time.time()

os.chdir('C:/Users/Administrator/D
                            
                                2021-04-07
                            
                                    Python
                                
                            Python
                        
                            Python爬取水稻基因的Entrez ID
                        
                                海外服务器爬NCBI是真的香！！！
大概有25000个基因，用R包做KEGG和GO的时候需要把基因ID转换成ENTREZID，显然一个一个查找是不现实的，那就爬虫吧。
国内网络的话单次爬取500个左右就会断，索性部署到阿里云新加坡的服务器上
                            
                                2021-03-28
                            
                                    Python
                                
                            Python
                        
                            Python英文文献爬虫
                        
                                之前写过用Python爬取中文文献，但是更多时候需要的是英文文献，就写了个英文的爬虫代码。

import os
import random
import openpyxl
import time
import requests
from
                            
                                2020-01-12
                            
                                    Python
                                
                            Python

            
1 / 2