ruby-dev

ときに、複数行をまとめて扱いたいことがあります。

たとえば、RD でインデントされた部分を取り出すとか、IO のパラ
グラフモードっぽいこととか、個人的には最近 chkbuild でログの
一部をソートするという必要がありました。

しかし、Enumerable でそういうまとまりを扱うメソッドは
each_slice しかなくて、柔軟なことは出来ません。

ファイルを全部読み込んで正規表現でやるというのはひとつの案で
すが、ファイルがとても大きいかもしれないとなるとやりたくない
ことがあります。
(実際 chkbuild のログはとても大きくなることがあります)

では自分で書くか、というと、これがなかなかきれいにかけません。
例えば、インデントされた部分を取り出すにはその直後のインデン
トされていない部分まで読まないとまとまりが判断できなくて、
IO#each_line で書こうとするとけっこう面倒です。ひとつの行が
インデントされているかどうかを調べるのは行頭が空白かどうかを
調べるだけで簡単にできるのですが、その結果に従って連続した行
をまとめるのが厄介です。

ここで、インデントされているかどうかとか、パラグラフだったら
空行かどうかとか、個々の要素を分類するところは問題によって異
なるのですが、その後の分類結果にしたがって連続した要素をまとめ
るのは共通しているので、Enumerable にメソッドとしてあっても
いいんじゃないかと思います。

というわけで、Enumerable#gather_each(arg) {|ary| ... } の提
案です。引数には Proc を与えて、これは各要素について呼ばれ、
結果として分類結果を返します。gather_each はその分類結果が等
しい連続した要素を配列としてまとめて yield します。

なお、分類結果が nil というのは特別扱いで、その要素は単独で
まとまりとなることを示します。

Ruby での実装を以下に示します。

module Enumerable
  def gather_each(arg)
    prev_value = prev_elts = nil
    self.each {|e|
      v = arg.call(e)
      if prev_value == nil
        if v == nil
          yield [e]
        else
          prev_value = v
          prev_elts = [e]
        end
      else
        if v == nil
          yield prev_elts
          yield [e]
          prev_value = prev_elts = nil
        elsif prev_value == v
          prev_elts << e
        else
          yield prev_elts
          prev_value = v
          prev_elts = [e]
        end
      end
    }
    if prev_value != nil
      yield prev_elts
    end
  end
end

たとえば、lib/scanf.rb には RD なドキュメントが入っていて、
以下のようにするとインデントされたコード例の部分をひとつにま
とめることができます。

arg = lambda {|l| /\A\=~ l ? true : nil }
open("lib/scanf.rb") {|f|                                                        
  f.gather_each(arg) {|lines| pp lines }                   
}
=>
["# scanf for Ruby\n"]
["#\n"]
["# $Release Version: 1.1.2 $\n"]
...
["the return array (or yielded to the block, if a block was
given).\n"]
["\n", "\n"]
["==Basic usage\n"]
["\n",
 "   require 'scanf.rb'\n",
 "\n",
 "   # String#scanf and IO#scanf take a single argument (a
 format string)\n",
 "   array = aString.scanf(\"%d%s\")\n",
 "   array = anIO.scanf(\"%d%s\")\n",
 "\n",
 "   # Kernel#scanf reads from STDIN\n",
 "   array = scanf(\"%d%s\")\n",
 "\n"]
["==Block usage\n"]
["\n"]
...

パラグラフモードっぽく、空行で区切られた部分をまとめたいなら
以下のようにできます。

arg = lambda {|l| l == "\n" }       
open("lib/scanf.rb") {|f|
  f.gather_each(arg) {|lines| pp lines }
}
=>
["# scanf for Ruby\n",
 "#\n",
 "# $Release Version: 1.1.2 $\n",
 "# $Revision: 22784 $\n",
 "# $Id: scanf.rb 22784 2009-03-06 03:56:38Z nobu $\n",
 "# $Author: nobu $\n",
 "#\n",
 "# A product of the Austin Ruby Codefest (Austin, Texas,
 August 2002)\n"]
["\n"]
["=begin\n"]
["\n"]
["=scanf for Ruby\n"]
["\n"]
["==Description\n"]
["\n"]
["scanf for Ruby is an implementation of the C function
scanf(3),\n",
 "modified as necessary for Ruby compatibility.\n"]
["\n"]
...

どうでしょう?

なお、複数行をまとめる方法として使いそうなものは、まとめる先
頭要素を検出する方法を指定するとか、他にもいくつかあるように
思います。たとえば ChangeLog や mbox を扱うのには、先頭要素
を指定するのがいいでしょう。そういうものはまた別のメソッドと
して作るのがいいのではないかと思います。
-- 
[田中 哲][たなか あきら][Tanaka Akira]

Thread

Prev Next

In This Thread

Prev Next

[#38362] [Bug #1427] Difference between Array#to_s and Array#inspect — "ujihisa ." <redmine@...>

[#38364] [Bug #1429] An arbitrary number of arguments of SortedSet#initialize — "ujihisa ." <redmine@...>

[#38368] IO.copy_stream doesn't convert encodings — sheepman <sh@...>

[#38370] Re: [ruby-core:23338] [Bug #1425] ruby/1.8/drb/drb.rb:1480: [BUG] Segmentation fault — Masatoshi SEKI <m_seki@...>

[#38371] Re: [ruby-cvs:30538] Ruby:r23320 (trunk): * lib/set.rb (SortedSet#add): Do not let an uncomparable object — "Yugui (Yuki Sonoda)" <yugui@...>

[#38372] making install-sh more descriptive — "Yugui (Yuki Sonoda)" <yugui@...>

[#38374] [Bug #1433] test_sprintf_p fails — Yui NARUSE <redmine@...>

[#38375] [Bug #1435] README.ja: 「defined(THINK_C)」 — Kazuhiro NISHIYAMA <redmine@...>

[#38376] [Bug #1435](Closed) README.ja: 「defined(THINK_C)」 — Nobuyoshi Nakada <redmine@...>

[#38377] Marshaling URI between 1.8 and 1.9 — Tanaka Akira <akr@...>

[#38382] [Bug #1442] indentation check and coverage for toplevel do not work — Yusuke Endoh <redmine@...>

[#38390] [Bug:1.8] Tempfile and extended Enumerable — Tanaka Akira <akr@...>

[#38392] Enumerable#gather_each — Tanaka Akira <akr@...>

[#38398] [Bug #1451] dl in ruby-1.9 can't parse signatures correctly. — Takashi Tamura <redmine@...>

[#38403] [Bug #1452] DL::CPtr.new doesn't check the type of the 3rd arg. — Takashi Tamura <redmine@...>

[#38404] [Bug #1453] dl in ruby-1.9 must check whether block is given to TempFunction — Takashi Tamura <redmine@...>

[#38423] longlife gc — Narihiro Nakamura <authornari@...>

[#38426] [Bug #1456] invalid $LOAD_PATH when configure with --program-suffix — Kazuhiro NISHIYAMA <redmine@...>

[#38434] [Bug #1464] backport request to ruby_1_9_1 — Usaku NAKAMURA <redmine@...>

[#38443] Re: [ANN] Ruby 1.9.1-p129リリース — Takahiro Kambe <taca@...>

[#38446] [Bug:1.9] exact Time and inexact Time — Yusuke ENDOH <mame@...>

[#38448] GCの問題 — keiju@... (Keiju ISHITSUKA)

[#38456] [Bug #1470] class definition under the anonymouse module dumps core — Nobuhiro IMAI <redmine@...>

[#38463] SQLiteライブラリ — "NARUSE, Yui" <naruse@...>

[#38474] [Bug #1477] DL::Function#unbind raises TypeError — Takashi Tamura <redmine@...>

[#38486] [Bug #1483] some commands installed without program-suffix — Kazuhiro NISHIYAMA <redmine@...>

[#38488] [Bug #1485] warning in pathname when verbose mode — Kazuhiro NISHIYAMA <redmine@...>

[#38492] [Bug: trunk] test_encode_xmlschema depends upon system's time zone — zunda <zunda616e@...>

[#38493] [Feature:trunk] enhancement of Array#drop — "U.Nakamura" <usa@...>

[#38496] [Bug #1489] Netbeansからruby-debug-ideを利用した際 Segmentation faultが発生。 — Kiyokazu Hayashi <redmine@...>

[#38498] [Bug #1491] 「attr_reader :○○」と「def ○○ ; @○○ ; end」で動作が異なる — 慎一 江口 <redmine@...>

[#38508] overflow on LP64 — Nobuyoshi Nakada <nobu@...>

[#38518] [Bug:1.9] Enumerator.new { }.take(1).inject(&:+) causes stack overflow — Yusuke ENDOH <mame@...>

[#38524] [Bug #1503] -Kuをつけた時、/[#{s}]/n と Regexp.new("[#{s}]",nil,"n") で実行結果が異なる — sinnichi eguchi <redmine@...>

[#38531] [Bug #1075](Rejected) \r\n と \n が混在した CSV がエラーになる — James Gray <redmine@...>

[#38533] [Bug #1505] DL::CPtr#<=> doesn't return -1 — Takashi Tamura <redmine@...>

[#38535] [Bug #1506] irbで日本語を入力できない — Nobuhiro IMAI <redmine@...>

[#38537] [Bug #1508] Recursive arrays with the same structure are not eql?. — Yuki Sonoda <redmine@...>

[#38538] [Bug #1509] typo in CGI::HTTP_STATUS — Nobuhiro IMAI <redmine@...>

[#38539] [ANN] RubyKaigi2009: Commiter Invitation — SASADA Koichi <ko1@...>

[#38544] [Bug #1523] typo in sample/optparse/opttest.rb — Kazuhiro NISHIYAMA <redmine@...>

[#38545] [suggestion] sorted flag for Array — Yusuke ENDOH <mame@...>

[#38549] Re: [ruby-cvs:30701] Ruby:r23482 (ruby_1_8): * ext/thread/thread.c (unlock_mutex_inner): should adjust join — Tietew <tietew@...>

[#38550] チケットBackport #1091 [ruby-core:21762]のステータスについて — Takahiro Kambe <taca@...>

[#38554] [Bug #1534] Inconsistency Between Struct#to_s and Struct#inspect — "ujihisa ." <redmine@...>

[#38555] [Bug #1537] The Feature of Hash#to_s was Changed — "ujihisa ." <redmine@...>

[ruby-dev:38392] Enumerable#gather_each

Thread

In This Thread

[#38496] [Bug #1489] Netbeansからruby-debug-ideを利用した際　Segmentation faultが発生。 — Kiyokazu Hayashi <redmine@...>

[#38498] [Bug #1491] 「attr_reader :○○」と「def ○○ ; @○○ ; end」で動作が異なる — 慎一江口 <redmine@...>