ruby-list

成瀬です。

(2010/08/17 11:44), SATOH Fumiyasu wrote:
> さとうふみやす @ OSSTech です。
> 
> At Tue, 17 Aug 2010 08:43:44 +0900,
> dezawa@aliadne.net wrote:
>> rubyの実装に詳しいわけでも、正規表現に強いわけでもないですが。。。
> 
> 同じく…。
> 
>> 変数　t　の中に9999回現れる "<X" が/<X(?:\s[^>]*)?>.*?<\/Y>/の
>> 頭にマッチします。ですから　9999回 変数tの最後まで評価します。
>> だから遅いのでは。
> 
> ("<X\n><Y\n>"*9999).lenth はたったの 79992 ですから、それを 9999回
> だとしても、CPU にとっては大したことはないんじゃないでしょうか。
> ちなみに CPU は Intel Core 2 Duo T7100 (1.8GHz) を使っています。

/<X(?:\s[^>]*)?>.*?<\/Y>/ という正規表現は、
A: /<X(?:\s[^>]*)?>.*?
B: <\/Y>/
という3つの部分に分けられます。
Aがマッチしうるヶ所は文字列全体で9999ヶ所あり、その位置をn番目とすると、
Bがマッチしうるヶ所は9999-nヶ所あります。
ので、O(n^2)になるのでなかなか大変な処理ということになります。

> 先のメールの実行例にあるように、Perl や Python では一瞬で
> 終わるので、Ruby の実装に特徴か問題があるんじゃないかと思っているのですが。
> Ruby 1.9 でも同じく遅いので、正規表現エンジンの問題ではなさそうです。

Python については知りませんが、Perl や PCRE では一定回数ループすると
探索を打ち切るような仕組みを入れていると聞きます。
Ruby の場合は 1.8 と 1.9 でエンジンが違いますが、どちらもそのような仕組みを
入れていない (有効にしていない) のです。
このような仕組みを入れても組み合わせが爆発するパターンは残ること、
カウンタを入れることによって速度的にペナルティがあることが理由です

>> /<X(?:\s[^>]*)?>.*?<\/Y>/　ですと文字列最後まで評価するのは　一ヶ所だけだったのが
>> /<X(?:\s.*?)?>.*?<\/Y>/ ですと、二ヶ所になるのでさらに遅くなる。
>>
>> "<X" の出現回数 9999回文字列最後まで評価していたのが
>> 8万*9999回（8万の方はだんだん少なくなるけれど）文字列の最後まで評価することになりますから。

こちらは O(n^3)ですね。

-- 
NARUSE, Yui  <naruse@airemix.jp>

Thread

Prev Next

In This Thread

Prev Next

[#47278] RejectKaigi 2010 開催のお知らせ [ 8月29日（日）] — "KOSHIBA Toshiaki(so-net)" <koshiba@...8.so-net.ne.jp>

[#47279] RubyKaigi2010 LTでのMacBook用モニタアダプターを貸していただける人を募集しています. — Sora Harakami <sora134@...>

[#47282] [ANN] RubyKaigi 2010 併催 キーサインパーティーのおさそい — Urabe Shyouhei <shyouhei@...>

[#47283] [ANN] RubyKaigi 2010 『MSWin32版Ruby野良ビルダー養成塾』 宣伝 — arton <artonx@...>

[#47284] Ruby committers Q&A at RubyKaigi — Shugo Maeda <shugo@...>

[#47285] make install後、config.hの置き場所について — Moru <lateau@...>

[#47288] [ANN] RubyConf 2010 の情報共有ML — Kakutani Shintaro <shintaro@...>

[#47290] 改行やタグを含むデータをmysqlでinsertするには — Yosuke Suzuki <yosuke.suzuki@...>

[#47298] スキップリストをリリースしました — "KISHIMOTO, Makoto" <ksmakoto@...4u.or.jp>

[#47299] Re: 改行やタグを含むデータをmysqlでinsertするには +追加 XMLの操作 — Yosuke Suzuki <yosuke.suzuki@...>

[#47300] [ANN] Ruby 1.9.1-p430 is out — "Yuki Sonoda (Yugui)" <yugui@...>

[#47301] [ANN][Security] Ruby 1.8.7 patchlevel 301 released (CVE-2010-0541) — Urabe Shyouhei <shyouhei@...>

[#47303] マッチしない正規表現「.*?」が遅い? — SATOH Fumiyasu <fumiyas@...>

[#47306] to_i — Mitsuyoshi Kawabata <kawabata@...>

[#47314] ruby on github and NonComitterHowto — masayoshi takahashi <maki@...>

[#47316] 拡張ライブラリ作成時のrb_gc_mark()の呼び出し方について — tueda <tueda@...>

[#47321] [ANN] Ruby 1.9.2リリース — "Yuki Sonoda (Yugui)" <yugui@...>

[#47323] 無欲マッチの使い方 — AOKI Yoshihiro <aoki@...>

[#47330] ftpファイル再配置のお願い — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#47331] 入れ子ブレースのマッチング — AOKI Yoshihiro <aoki@...>

[#47335] [ANN] rcairo 1.8.3 — Kouhei Sutou <kou@...>

[#47338] [ANN]hikidoc-0.0.5 — kimura wataru <kimuraw@...>

[#47339] [ANN] rcairo 1.8.5 — Kouhei Sutou <kou@...>

[#47340] GAEについて — "T.Soejima" <clev@...2.so-net.ne.jp>

[#47342] [ANN] rroonga 1.0.0 — Kouhei Sutou <kou@...>

[#47343] [ANN]MiyakoLauncherLite2.0.0 — cyross@...

[#47345] 「Rubyリファレンスマニュアル刷新計画」2010-08分のスナップショットリリース — okkez <okkez000@...>

[#47347] [ANN]Miyako2.1.16&MiyakoPack2.1.16リリース — cyross@...

[#47360] Ruby'sライセンスの、BSDLとのデュアルライセンスへの変更 — "NARUSE, Yui" <naruse@...>

[ruby-list:47310] Re: マッチしない正規表現「.*?」が遅い?

Thread

In This Thread

[#47282] [ANN] RubyKaigi 2010 併催キーサインパーティーのおさそい — Urabe Shyouhei <shyouhei@...>

[#47283] [ANN] RubyKaigi 2010 『MSWin32版Ruby野良ビルダー養成塾』宣伝 — arton <artonx@...>

[#47299] Re: 改行やタグを含むデータをmysqlでinsertするには　+追加 XMLの操作 — Yosuke Suzuki <yosuke.suzuki@...>