[#42454] 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...>

出沢です

22 messages 2006/06/22
[#42455] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/22

From: しん <dezawa@aliadne.net>

[#42456] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です

[#42458] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/23

From: しん <dezawa@aliadne.net>

[#42459] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です

[#42460] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/23

From: しん <dezawa@aliadne.net>

[#42461] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です。

[ruby-list:42440] Re: 空白行を除くための行数の数え方

From: "Toshiaki Katayama" <k@...>
Date: 2006-06-21 16:05:13 UTC
List: ruby-list #42440
片山です。

06/06/21 に Norihito Shinzan (Jun
Kabbalah)<kabbalah@proc.org.tohoku.ac.jp> さんは書きました:
>  最初の質問時に「BioRubyを使ってGenBankデータを処理しようとしています」
> と対象データ・使用ライブラリを断っておけば皆さんも混乱しなかったと思いま
> す(^^;

そうですね。
BioRuby をお使いの場合は少し方法が違っていたのですが
たどり着かれたようなのでそれは良いとして、 ^^;


> #ていうか、GenBank のフォーマットにとって空行に何の意味もないなら
> #BioRuby 側で読み飛ばしてくれればいいんじゃないかと思ってみたり。

GenBank は遺伝子やゲノムの DNA シーケンスと付随する情報を
自然言語で記述する際に使われる代表的なフォーマットの一つなのですが、
小さな遺伝子から巨大なゲノムまで使い回されているおかげで、
以下のような状況になっています:

* BioRuby では1行ごとではなく // で区切られた複数行(エントリ)ごとに読み込んでいる
* エントリのサイズは数KBのものから数百MBのものまで混在し得る
* GenBank フォーマットの規格として空行は存在しないことになっている

読み込んだエントリに空行が無いかチェックするのは、
エントリが巨大だった場合に少しパフォーマンスが悪くなりそうです。
(そうでもないのかな、、)

ちなみに、エントリの前後についている white spaces は strip していますので、
今回のケースはエントリの中に空行があるのかなと想像していますが、

* どうすればそんなデータが得られたのか(わりと一般的に起こりうる事かどうか)
* 実際のデータ
* エラーメッセージ
* やろうとしていたこと(とうまくいかなかったこと)

などを BioRuby のメーリングリストか個人宛にメールして頂ければ改良できるかもしれません。
(場合によってはデータの取り方を変える方が早いかもしれません^^;)

ではでは。

In This Thread

Prev Next