ここではBiopythonのインストールと、そのときに起こりやすいNo module named エラーの解決方法、Bio.Seqを使った簡単な配列操作まで紹介します。
実行環境は以下です。
- macOS Big Sur 11.6
- Apple M1
- Visual Studio Code
- python 3.8.8
Biopythonのインストール
初めにターミナルでpythonのバージョンを確認します。
以下を入力してください。
python -vpython3系を使っていると確認したら次の操作に進んでください。python2系を使っている場合、python3系にアップデートしてください。
次にbiopythonをインストールします。以下をターミナルに入力してください。
pip3 install biopython調べると pipを使えという記事がよく出てきますが、vscodeではなぜかNo module named : エラーが起こってしまうため、とりあえずpip3を使ってください。(どうやら最初にパスを通す必要があるらしいです。)
以上でbiopythonのインストールは終了です。
簡単な配列操作
次にbiopytohnを使って塩基配列の簡単な操作を行ってみます。
目次
(1)配列の生成
BIopythonでは以下のようにして配列を生成します。
from Bio.Seq import Seq
#biopythonをインポートします。
seq = Seq("ATGC")
#seqに配列を代入します。(2)配列操作
基本的に配列の操作はbiopythonが用意している関数を使用して行うことになります。
以下、一通りの配列操作を記します。
#転写
seq_transcribed = seq.transcribe()
#翻訳
seq_translated = seq.translate()
#相補鎖の生成
seq_complemental = seq.compliment()
#逆相補鎖の生成
seq_r_complementa = seq.reverse_complement()
#配列をリバースする
seq_r = seq[::-1](3)GC含量の計算
GC含量は以下のようにして調べることができます。
#biopythonを用いない場合
GC_content = (seq.count('G')+seq.cont('C'))/len(seq)*100
print(GC_content)
#biopythonを用いた場合
from Bio.SeqUtils import GC
#sequtilsからGCモジュールをインポートします。
print (GC(seq))以上がbyopythonでの基本的な塩基配列の扱い方になりますが、これらはほとんど使われないと思いますので、次回はFASTAデータの作成やNCBIデータベースへのアクセスなどもう少し実用的なことを勉強しながら書いていこうと思います。
