[#42454] 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...>

出沢です

22 messages 2006/06/22
[#42455] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/22

From: しん <dezawa@aliadne.net>

[#42456] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です

[#42458] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/23

From: しん <dezawa@aliadne.net>

[#42459] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です

[#42460] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/23

From: しん <dezawa@aliadne.net>

[#42461] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です。

[ruby-list:42474] Re: 多量の正規表現との効率的なマッチのアイデアを、、

From: Itou-T15@...
Date: 2006-06-23 14:16:49 UTC
List: ruby-list #42474
伊藤T51です

>多分、2、3ケ月のうちに処理するデータが 1G位になりそうなので、、、

馬鹿サーチを退治しないとダメですね。
fgrep的パターンマッチの最適化とか
検索語 Aho-Corasick fgrep
(C++ boost::spirit(パーサー生成)には シンボルテーブルのマッチ(3分木
で実装)がある。Rubyにもパーサージェネレータあるはず。)
あるいは、インクリメンタルにグループIDを付与しておくにしないと。

照合の順位は、実は「最長マッチ」で代用できませんか。


In This Thread