ruby-dev

成瀬です。

Tanaka Akira wrote:
> In article <49995412.6040000@airemix.jp>,
>   "NARUSE, Yui" <naruse@airemix.jp> writes:
> 
>> 以上だけなら一見「仕様」にも見えるのですが、
>> このような、Regexp#source.ascii_only? が成立するのに、
>> ASCII 互換なエンコーディングを持つ文字列にマッチさせることができない
>> (Regexp#fixed_encoding? が true な) 正規表現は //u, //s, //e を用いてしか
>> 作ることができないという点です。
> 
> Regexp#source.ascii_only? が成立し、
> Regexp#fixed_encoding? が true 正規表現を
> //u, //s, //e を用いずに作る例はたとえば以下が存在します。
> 
> % ruby -ve '
> r = /\u3042/
> p r.source.ascii_only?
> p r.fixed_encoding?
> '
> ruby 1.9.2dev (2009-02-15 trunk 22328) [i686-linux]
> true
> true

む、確かにエスケープして埋め込んだ場合もそうですね。
すると、Regexp#source.ascii_only? を出したのは不適切でした。

> ここは微妙なところで、正規表現が記述に用いたエンコーディング
> と、それがマッチする対象のエンコーディングには、ちょっとギャッ
> プがあります。ここをいじるには、そのギャップについて充分に考
> える必要があります。

ふむ、一般に言えば確かに仰るとおりです。
\p 等のことも視野に入れれば、十分な検討が必要でしょう。

端的に言えば、その正規表現の記述に用いたエンコーディングと同じ
エンコーディングの文字列の時にマッチできる範囲と、
意味的に概ね同じになるようにしたいですかね。
「概ね」と入れたのは \s や \w、先には \p{Hiragana} 等を考えているわけですが。

> とはいえ、成瀬さんが感じた混乱自体は、なんらかの問題を示して
> いる可能性は充分にあります。
> 
> もう一回、何が問題なのかを正確に表現していただけるとありがた
> いです。

しかし、//u 等に限って言えばそのような大きな問題ではなく、
/a/u と同じことをできる方法が存在せず、UTF-8, EUC-JP, Windows-31J の
3 つのエンコーディングでしか使えない特殊な機能である点から、
局地的な問題だと思っています。

そしてまず、直接的な問題としては、例えば、
> Regexp.new(/a/u.source) == /a/u
=> false
と、Regexp#source と Regexp#new で戻らない点があります。

また、一般に正規表現は一度作ってしまうと、
それがなぜ fixed_encoding なのか後から知ることは困難です。
たいていの場合は
* ASCII 互換エンコーディングでないから
* 正規表現に非 ASCII を示すリテラルまたはエスケープを含むから
* \p 等を含むから
で、これらはそれなりに理由があります。(プロパティ等は将来的に検討が必要でしょう)
しかし //u はそうした正規表現そのものを無視して KCODE_FIXED を付与します。

わたしは //u 記法自体の廃止は主張していないので、これが影響するのは、
/a/u や /\w/u を非 ASCII な文字を含む場合なのでこれらについて考えると、
/a/u は UTF-8 における「a」を他のエンコーディングの「a」と区別し、
UTF-8 のもののみにマッチさせる正規表現と考えられます。
しかし、そのような機能は必要でしょうか。
わたしは必要ないと思いますし、もし必要ならば他のエンコーディングにも提供するべきです。
/\w/u についても同様に感じます。

そして、すでに 1.8 用に書かれた /a/u 等もわざわざ UTF-8 等に限定する意図は
なかったのではないかと思います。
現状、できごころで /u を付けてしまった正規表現リテラルから、
/u を削るという不毛な作業が行われていますが、本当にそれは必要なんでしょうか。
意味論から必要な作業ならば行って貰うべきだと思いますが、
わたしにはそうは思えません。

結局のところ、これは不必要な非対称な機能に見えます。

-- 
NARUSE, Yui  <naruse@airemix.jp>

Thread

Prev Next

In This Thread

Prev Next

[#37868] [Bug #1087] Failure: test_ipv6_address_predicates(TestSocketAddrInfo) — Kazuhiro NISHIYAMA <redmine@...>

[#37874] Symbol as String for C — arton <artonx@...>

[#37880] [FEATURE:trunk] Readline.completion_proc = nil を許可する。 — Takao Kouji <kouji@...7.net>

[#37882] test_etc.rb の修正提案 — Tomoyuki Chikanaga <chikanag@...>

[#37884] [Bug #1097] Ruby 1.9.1 における sqlite3-ruby のインストール時のエラー — Jun Kudo <redmine@...>

[#37887] [Bug #1097](Rejected) Ruby 1.9.1 における sqlite3-ruby のインストール時のエラー — Usaku NAKAMURA <redmine@...>

[#37888] [Bug #1097] Ruby 1.9.1 における sqlite3-ruby のインストール時のエラー — Jun Kudo <redmine@...>

[#37891] Ruby 1.9.1-p0 on NetBSD — Takahiro Kambe <taca@...>

[#37892] 配列の重複検出用Hashの使いまわし — wanabe <s.wanabe@...>

[#37896] [Bug #1104] TZ and Time.now — Nobuhiro IMAI <redmine@...>

[#37898] [Bug #1105] Ruby1.9でのrescue節の例外ハンドラのマッチの処理 — Tatsuji Kawai <redmine@...>

[#37906] Buffering or OpenSSL::Buffering — Kazuhiro NISHIYAMA <zn@...>

[#37910] [Bug:1.9] lack consistency in hash iteration — Yusuke ENDOH <mame@...>

[#37918] [BUG: 1.9] encoding warning — SASADA Koichi <ko1@...>

[#37919] RDoc::Markup::ToHtmlCrossref dosen't recognize filepath including '-' — Tomoyuki Chikanaga <chikanag@...>

[#37920] [Bug #1111] -E and -K on shbang — Usaku NAKAMURA <redmine@...>

[#37921] [Feature:trunk] with_index_from — Yusuke ENDOH <mame@...>

[#37926] [Bug #1115] $SAFE=1でのrequireがSecurityErrorになる — Kazuhiro NISHIYAMA <redmine@...>

[#37930] -r時のdefault_external — "U.Nakamura" <usa@...>

[#37934] [BUG] rb_thread_create_timer_thread: return non-zero (11) — Tanaka Akira <akr@...>

[#37935] test_imaps_post_connection_check test failure — Tanaka Akira <akr@...>

[#37936] zombie processes by drb tests — Tanaka Akira <akr@...>

[#37939] io.set_encoding("UTF-8", "UTF-8") でエラー — Hiroshi Ichikawa <gimite@...>

[#37940] [Bug #1129] IO.binread(Pathname(...)) dumps core — Sakuro OZAWA <redmine@...>

[#37947] Re: [ruby-list:45859] Re: patch for Complex#sqrt in lib/cmath.rb of ruby-1.9.1-p0 — Tadayoshi Funaba <tadf@...>

[#37950] [Bug:1.9] compile error on win32ole with Mingw of MacPorts — 中田 伸悦 <nobu@...>

[#37952] [Feature #1133] Pathname.binread — Sakuro OZAWA <redmine@...>

[#37956] proposal: Module#method_adding — SASADA Koichi <ko1@...>

[#37959] [Bug:trunk] I can modify literals — Yusuke ENDOH <mame@...>

[#37960] [Bug #1138] rdoc of taint/untrust — Kazuhiro NISHIYAMA <redmine@...>

[#37967] [Bug #1143] ruby 1.9.1p0でensure節が実行されない — Jirou Iizuka <redmine@...>

[#37968] 1.9.1-p0 の Net::HTTP#get の第 2 引数 — zunda <zunda616e@...>

[#37970] [Bug #1146] TestSocket#test_udp_server hangs when configure --with-lookup-order-hack=INET — Kazuhiro NISHIYAMA <redmine@...>

[#37975] [Bug #1148] CGI::prettyの正規表現の改良 — Takeyuki Fujioka <redmine@...>

[#37977] trunk が compile error します — nagachika <nagachika00@...>

[#37979] [Bug #1150] calling instance_eval in extended library cause exception — Akio Tajima <redmine@...>

[#37980] Re: [ruby-changes:10687] Ruby:r22250 (trunk): * iseq.c (simple_default_value): allow plain strings as default — SASADA Koichi <ko1@...>

[#37991] Fiber#alive?メソッドの戻り値がboolになりません — cyross@...

[#37993] Re: [ruby-core:22028] Re: 1.8.7 Specifics — Urabe Shyouhei <shyouhei@...>

[#37995] Add POSTARG support to rb_scan_args() — Akinori MUSHA <akinori.musha@...>

[#37997] [Feature:1.9] Enumerable#uniq — Nobuyoshi Nakada <nobu@...>

[#37998] [Feature:1.9] {Array,Enumerable}#uniq_by, #uniq_by! — Nobuyoshi Nakada <nobu@...>

[#37999] [Feature:1.9] Etc.each_passwd, each_group — Nobuyoshi Nakada <nobu@...>

[#38005] Is URI.decode() broken? — MOROHASHI Kyosuke <moronatural@...>

[#38007] [Feature #1159] StringScanner に文字ベースでのインデックスを返すメソッドがほしい — Akira Matsuda <redmine@...>

[#38018] circular require in openssl — Tanaka Akira <akr@...>

[#38020] [Bug #1163] gem_prelude raise NoMethodError if require uninsalled gem with version. — Kyosuke MOROHASHI <redmine@...>

[#38021] 無名クラス中で定義された定数の扱いに付いて — MOROHASHI Kyosuke <moronatural@...>

[#38022] ENCODING_FIXED と ENCODING_NONE の廃止 — "NARUSE, Yui" <naruse@...>

[#38035] Stack Caching を有効にした時のビルドについて — nagachika <nagachika00@...>

[#38044] [Bug #1168] wrong result of File.extname for path contains a space just before the extension — Nobuyoshi Nakada <redmine@...>

[#38048] Add option hash support to rb_scan_args() — "Akinori MUSHA" <knu@...>

[#38049] [Bug #1175] File.expand_path("~user") dose not work — Tomoyuki Chikanaga <redmine@...>

[#38050] indentation check and coverage for toplevel do not work — Yusuke ENDOH <mame@...>

[#38052] mkmf.rb の C++ 対応 — "KISHIMOTO, Makoto" <ksmakoto@...4u.or.jp>

[#38054] build breakage with NO_WAITPID macro — shinichiro.h <shinichiro.hamaji@...>

[#38055] signal is ignored after Process.daemon — Yusuke ENDOH <mame@...>

[#38058] was: Re: [ruby-list:45877] Re: ruby1.8 と ruby1.9 の instance_eval の挙動の違いについて — SASADA Koichi <ko1@...>

[#38060] [Bug:1.9] thread switch when heavy load — Tanaka Akira <akr@...>

[#38063] [Bug #1191] Net::IMAP.encode_utf7 bug? — Kengo Matsuyama <redmine@...>

[#38065] Re: [ruby-cvs:29711] Ruby:r22493 (trunk): * lib/pathname.rb (Pathname#binread): added. — Tanaka Akira <akr@...>

[#38067] Re: [ruby-cvs:29304] Ruby:r22086 (trunk): * ruby.c (process_options): set initial default_external before -r. — "Yugui (Yuki Sonoda)" <yugui@...>

[#38070] [Bug #1196] 正規表現の \s と [\s] が異なる — Masahiro Tomita <redmine@...>

[#38075] [Bug #1198] corrupted iteratoin during "enum_for :inject" — Shyouhei Urabe <redmine@...>

[#38079] [Bug:trunk] duplicate when clauses raise strange exception — Yusuke ENDOH <mame@...>

[#38080] [Feature:trunk] nested loop construct — Yukihiro Matsumoto <matz@...>

[#38086] [Bug: 1.8] generator causes abort — SASADA Koichi <ko1@...>

[#38087] [Bug #1215] irb doesn't finish evaluate on !false => false — Nobuhiro IMAI <redmine@...>

[#38091] mswin32's nan_test is broken by r22579 — "U.Nakamura" <usa@...>

[#38096] 多重代入やメソッド引数の展開でto_aが呼ばれます — nagachika <nagachika00@...>

[#38097] [Bug #1221] [PATCH] load がディレクトリを読み込もうとしてエラー — maiha maiha <redmine@...>

[#38098] ブロック引数と括弧・引数なしsuper — Shugo Maeda <shugo@...>

[#38101] [Bug #1221](Closed) [PATCH] load がディレクトリを読み込もうとしてエラー — Nobuyoshi Nakada <redmine@...>

[#38105] ruby in non-existing directory — Tanaka Akira <akr@...>

[#38106] test/ruby/test_m17n.rb dumps core — Yukihiro Matsumoto <matz@...>

[ruby-dev:38043] Re: ENCODING_FIXED と ENCODING_NONE の廃止

Thread

In This Thread

[#37950] [Bug:1.9] compile error on win32ole with Mingw of MacPorts — 中田伸悦 <nobu@...>