ruby-list

出沢です

100位の正規表現と10000位レコードのマッチを効率的に行なう方法を考えています。

400Byte/行 10000行位のデータがあります。
このなかに、ある項目の値とその分類番号があります。
分類番号(ともうひとつ別の項目との二次元の組み合わせ)毎の集計を行ないます。
ただし、その「ある項目の値」が複数ある正規表現のどれかとマッチする場合は
分類番号をその正規表現に対応した値に変更して集計します。

当初は正規表現は3個ぐらいで始まりますが、たぶん100位にまで増殖するでしょう。
どれかにマッチする可能性は、10%程度です。
仕事の性格上、後方参照はしないですから、正規表現中に ( ) は無いとして
よいかと思います。


単純に考えると、
正規表現を値にする配列を作り、レコードを読むたびに配列の中を順に
マッチさせて行けば良いのでしょうが、なんかおもしろくないな、、
ということで、
   効率的に行なう方法
か
   rubyらしい、きれいな方法か
か
がないものか悩んでいるところです。
ブロックなどの高度な使いかたがまだわかっていないこともあり
御知恵をお借りしたく思います。

Thread

Prev Next

In This Thread

Prev Next

[#42346] Re: ディレクトリーを再帰下降していくスクリプトでNoMemoryErrorエラー — 岩崎 弘孝 <IH000667@...>

[#42348] win32oleの「メソッドが無い」というランタイムエラー — "conundrum" <conundrum@...>

[#42349] Re: ディレクトリーを再帰下降していくスクリプトでNoMemoryErrorエラー — 岩崎 弘孝 <IH000667@...>

[#42351] Re: ディレクトリーを再帰下降していくスクリプトでNoMemoryErrorエラー — 岩崎 弘孝 <IH000667@...>

[#42354] [ANN]Miyako v0.7リリース！ — cyross@...

[#42355] TkCanvasの座標 — Masato Ishimoto <i@...>

[#42367] [ANN] RubyKaigi2006：最後のご案内 — SASADA Koichi <ko1@...>

[#42370] [ANN] 超簡単プレゼンツール 高橋マインド — "ARAI Shunichi" <arai@...>

[#42371] MySQL/Ruby for Windowsでの不具合 — 林 浩一郎 <NQA58508@...>

[#42372] MySQL/Ruby for Windows での不具合 — 林 浩一郎 <NQA58508@...>

[#42373] My/SQL/Ruby for Windows での不具合 — 林 浩一郎 <NQA58508@...>

[#42374] [ANN] Ruby-GetText-Package-1.6.0 — Masao Mutoh <mutoh@...>

[#42375] String#count, String#deleteの利用想定 — Daisuke Yamazaki <yamajaki@...>

[#42388] Rubyカンファレンスのレポート記事を公開させていただきました — TAKAHASHI Nobuyori <nob@...>

[#42389] ruby -Ks -rjcode -e"p('|%5.5s|'%'泣き別れ')" #=> "|泣き怖" — take_tk <ggb03124@...>

[#42394] eachはなぜ元々のオブジェクトが返るのか？ — Fujioka <fuj@...>

[#42400] open-uriに対してfile:を与えるとEINVALなどになる — arton <artonx@...>

[#42405] RubyはSUNを殺すのか — Omoti <omoti@...24.net>

[#42412] Ruby/OpenSSL samples at RubyKaigi2006 — "NAKAMURA, Hiroshi" <nakahiro@...>

[#42414] 正規表現 [^/] がエラー??? — しん <dezawa@...>

[#42416] ファイル中の空行の削除方法 — 遠藤 大二 <dendoh@...>

[#42421] D0ct0r rec0mmendati0ns — "Reba" <rubikitch@...>

[#42423] 空白行を除くための行数の数え方 — 遠藤 大二 <dendoh@...>

[#42426] [ANN] Exerb 4.0.0-preview1 — "Yuya Kato" <yuyakato@...>

[#42428] toplevel ウィジェットにイベントがわたらない？ — Hiroshi Kimura <Hiroshi.Kimura@...>

[#42437] DHHさんのインタビューを公開させていただきました — TAKAHASHI Nobuyori <nob@...>

[#42443] 日本語でのString#casecmpの利用について — Eito Katagiri <eito@...>

[#42444] Re: rubyで多次元配列の作り方 — "Ken'ichi Saitou" <hff@...>

[#42447] Re: rubyで多次元配列の作り方 — rubikitch <rubikitch@...>

[#42448] Re: rubyで多次元配列の作り方 — "Hiroyuki Iwatsuki" <don@...>

[#42452] ReFeデータベース構築失敗 — MIYAJIMA Mitsuharu <miya@...>

[#42454] 多量の正規表現との効率的なマッチのアイデアを、、 — しん <dezawa@...>

[#42462] St0p waste y0ur m0ney n0w cheap pills same result — "Sondra" <rubikitch@...>

[#42466] Affordable medicine directly fr0m manufacturer — "Lucy" <rubikitch@...>

[#42475] String#first, String#last — Kouhei Yanagita <yanagi@...>

[#42476] Gtk::FileSelection の filename= — Takeshi Honda <moecho21@...>

[#42477] endがkendと認識される — 林 浩一郎 <NQA58508@...>

[#42481] 書籍について — 林 浩一郎 <NQA58508@...>

[#42492] [ANN] Lightweight Language Ring チケット発売開始 — SASADA Koichi <ko1@...>

[#42495] ｓｌｅｅｐ等の不可解な問題発生（なぜでしょうか） — "Hisashi Yahata" <yahatah@...>

[#42499] Effective medicine cOuld be cheap! — "Trudy" <rubikitch@...>

[#42500] Seas0n sales! Cheap tabs! — "Genaro" <rubikitch@...>

[#42501] [ANN] Rubyist Magazine 日本 Ruby カンファレンス 2006 特別号 — maili31s@... (SugHimsi==SUGIHARA Hiroshi)

[ruby-list:42454] 多量の正規表現との効率的なマッチのアイデアを、、

Thread

In This Thread

[#42346] Re: ディレクトリーを再帰下降していくスクリプトでNoMemoryErrorエラー — 岩崎弘孝 <IH000667@...>

[#42349] Re: ディレクトリーを再帰下降していくスクリプトでNoMemoryErrorエラー — 岩崎弘孝 <IH000667@...>

[#42351] Re: ディレクトリーを再帰下降していくスクリプトでNoMemoryErrorエラー — 岩崎弘孝 <IH000667@...>

[#42370] [ANN] 超簡単プレゼンツール高橋マインド — "ARAI Shunichi" <arai@...>

[#42371] MySQL/Ruby for Windowsでの不具合 — 林　浩一郎 <NQA58508@...>

[#42372] MySQL/Ruby for Windows での不具合 — 林　浩一郎 <NQA58508@...>

[#42373] My/SQL/Ruby for Windows での不具合 — 林　浩一郎 <NQA58508@...>

[#42416] ファイル中の空行の削除方法 — 遠藤大二 <dendoh@...>

[#42423] 空白行を除くための行数の数え方 — 遠藤大二 <dendoh@...>

[#42477] endがkendと認識される — 林　浩一郎 <NQA58508@...>

[#42481] 書籍について — 林　浩一郎 <NQA58508@...>