[#42454] 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...>

出沢です

22 messages 2006/06/22
[#42455] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/22

From: しん <dezawa@aliadne.net>

[#42456] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です

[#42458] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/23

From: しん <dezawa@aliadne.net>

[#42459] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です

[#42460] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — rubikitch <rubikitch@...> 2006/06/23

From: しん <dezawa@aliadne.net>

[#42461] Re: 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...> 2006/06/23

出沢です。

[ruby-list:42457] Re: 多量の正規表現との効率的なマッチのアイデアを、、

From: Itou-T15@...
Date: 2006-06-23 02:04:26 UTC
List: ruby-list #42457
伊藤T15です

固定文字列のように見えますが

1.fgrep で対象データを●濃縮●
ヒットした側は10%になり処理量減少
-v, --invert-match
    結果を反転し、マッチしなかった行を選択します。もあります

以下DB風の操作
2.ヒットした側の ..単語をそれぞれHASH値に
して列挙、レコード列に追加
3.正規表現もHASH値にして比較
4.一致したら、文字列レベルの比較で確認。

語の比較順があるので一括処理困難
URL逆順化してSORT、最長一致なら簡単ですが。


In This Thread