ruby-dev

高橋征義です。

正規表現でのUTF-8問題ですが、リテラルの話に戻します。

UTF-8の正規表現リテラル中で、\x を使って文字を指定するのは、
「指定が間違ってる」ということのようですが、やっぱり何かの形
で8進または16進数をつかって文字を指定したい、ということはある
と思います(というか、あります)。

とはいえ、バイト単位で指定する、というのは、曲がりなりにも
「文字(codeunit, mbchar)」の概念を持つRubyのRegexpには馴染ま
ないかもしれない、という気もしてきました。
# でも、ちょっと迷ってます。

というわけで、Perl5.6.1のように \x{XXXX} という形でマルチバイト
な文字を指定できるようにする、というのはどうでしょう。これなら、
何バイトあっても大丈夫ですから。

……などと考えていたのですが、Perlの\x{XXXX}って、Unicode
というかUCSのcodepointを指定してるんですね……。つまり、
UTF-8でのバイト表現とは全然違うわけで。\x{XXXX}とかっていう
4桁の16進数が、UTF-8では6バイトになってしまう、と。むーん。
さりとて、これに合わせるような指定にすると、逆にEUCやShift_JISで
不幸になってしまいそうです。まあ、EUCやShift_JISではこういう
表記は禁止する、ベタで書け、という方向性もありですが(今までも
特に苦情はありませんでしたし)、それもちと切ない。

ちなみに、Pythonでは\uXXXXでU+XXXXのUnicode文字を指定するらしい
です(やっぱりベタでUTF-8のbyte sequenceを書いたりはしない)。
Javaもこうでしたっけ？  なお、UnicodeのTechnical Reportでは、
\uXXXXでUCS-2(BMP)を、\UXXXXXXXX でUCS-4を指定できる、とか
いうことが書いています(Perlのような書き方もアリ、という補足が
ついています)。


以上を踏まえて、Rubyの正規表現リテラルでマルチバイト文字を
表現するにはどうすればよいか考えてみました。以下、「XX」は
16進文字です。

a. /foobar/ を Regex.new("foobar")と近い形にする。つまり、
   \xXX で文字とは関係なく、1バイトの情報を表すことにする。
   マルチバイト文字を表現する場合には、\xXX\xXX\xXX などと
   いう形でバイト列を並べる。

b. Perl互換。つまり、\x{XXXX} でU+XXXXにあたるUnicode文字を
   指定する。Unicodeな正規表現(現状UTF-8のみ)以外では使え
   ない(エラー)？

c. 「\xはバイト列を指定・Unicode以外にもOK」+「Unicode文字の
   指定はPython/UTR互換」案。
   \x{XXXXXX} が1文字分のバイト表現を指定していることにする。
   (つまり、UCS-2のUnicode文字を指定する場合、UTF-8では
   最大6桁の16進数で指定することになる。)
   Unicodeのcodepointを指定する方法としては、\uXXXXとか
   \UXXXXXXXXみたいなものを別途用意する。\uと\UはUnicode
   な正規表現以外では使えない(エラー)？

d. 独自路線。「\xはバイト列を指定・Unicode以外にもOK」+
   「Unicode文字の指定はPerlとPython/UTRの折衷(？)」案。
   \x{XXXXXX} が1文字分のバイト表現を指定していることにする。
   Unicodeのcodepointを指定する方法としては、\u{XXXXXX}という
   表記法を別途用意する。\uはUnicodeな正規表現以外では
   使えない(エラー)？

b案で誰も困らないのであればそれでいいと思いますが、やっぱ
困りますよねえ。というわけでc案かな？  と思うのですが、
\uXXXXと\UXXXXXXXXを使い分けるのは何かと美しくないと思う
ので、d案も考えました。d案は独自仕様なのが気になりますが、
形としてはすっきりしていると思います。


追記: Ruby M17NのUTF-8文字列の中で、Unicode文字を指定するには
どうするか、っていう問題もありますね。

高橋征義 (TAKAHASHI Masayoshi)       Email:maki@inac.co.jp

Thread

Prev Next

In This Thread

Prev Next

[#15329] class constant — OHSHIMA Ryunosuke <ryu@...>

[#15344] undefined method `to_str' for nil — Kazuhiro NISHIYAMA <zn@...>

[#15354] rubyw.exe — "U.Nakamura" <usa@...>

[#15357] Regexp literal and Regexp.new() — TAKAHASHI Masayoshi <maki@...>

[#15369] ruby_init_loadpath() on Windows — Shugo Maeda <shugo@...>

[#15372] new methods to treat uid/gid — nagai@...

[#15393] net/protocol.rb Protocol#connect & pops.rb — TAKEMURA Masahiro <mastk@...>

[#15394] Data.new and Data.allocate with allocation framework — nobu.nakada@...

[#15395] UnboundMethod.bind to derived class instance — nobu.nakada@...

[#15403] __FILE__.concat — Kazuhiro NISHIYAMA <zn@...>

[#15410] pp - pretty printing — Tanaka Akira <akr@...17n.org>

[#15411] inconsistency of STR_ASSOC — "K.Kosako" <kosako@...>

[#15412] drb-1.3.3 — Masatoshi SEKI <m_seki@...>

[#15414] String#match(String) causes infinite recursion — nobu.nakada@...

[#15415] Marshal.dump 出来ない Hash — Kazuhiro NISHIYAMA <zn@...>

[#15418] block for MatchData#select, Hash#select — nobu.nakada@...

[#15424] Hash のデフォルト値を計算する Proc の変更 — Kazuhiro NISHIYAMA <zn@...>

[#15426] cgi.rb CGI#read_multipart — TAKEMURA Masahiro <mastk@...>

[#15427] Re: [ruby-list:32905] Re: Segmentation fault — "K.Kosako" <kosako@...>

[#15430] [BUG] Segmentation fault/ruby 1.7.2 (2001-12-10) — WATANABE Tetsuya <tetsu@...>

[#15434] [EXP] private instance variable — nobu.nakada@...

[#15435] Time#utcoff — Tanaka Akira <akr@...17n.org>

[#15441] exported symbol — nobu.nakada@...

[#15456] irb/completion で Segmentation fault — Kazuhiro NISHIYAMA <zn@...>

[#15458] Re: "\M-a" => "" (PR#149) — Kazuhiro NISHIYAMA <zn@...>

[#15464] gsub weirdness: gsub(/.*$/, "foo") — "Akinori MUSHA" <knu@...>

[#15466] listen for sockets in both IPv4 and IPv6 — Ryo HAYASAKA <ryoh@...>

[#15476] Time.now + 1.5 (RangeError) — WATANABE Hirofumi <eban@...>

[#15479] [BUG] thread with tempfile.rb — keiju@... (Keiju ISHITSUKA)

[#15480] LIBRUBY_SO on windows — nobu.nakada@...

[#15496] string.c: use RESIZE_CAPA for capacity change. — "K.Kosako" <kosako@...>

[#15500] Re: define_method() does not properly set noex (PR#218) — nobu.nakada@...

[#15505] ERb — m_seki@...

[#15507] fileutils (2) — Minero Aoki <aamine@...>

[#15508] taint (Regexp.escape and MatchData#to_a) — takuma ozawa <metal@...>

[#15509] [PATCH] SEGV on calling Module#define_method(Method) — nobu.nakada@...

[#15517] prototypes in headers — nobu.nakada@...

[#15519] typo in tracer.rb (SCRIPT_LINES__) — sheepman <sheepman@...>

[#15525] parse.y (str_extend): make up "#$;" handling. — "K.Kosako" <kosako@...>

[#15526] use of uninitialized value on time.c — "U.Nakamura" <usa@...>

[#15528] time_plus in ruby 1.7 — Masaki Suketa <masaki.suketa@...>

[#15552] ext/syslog/.cvsignore — Kazuhiro NISHIYAMA <zn@...>

[#15556] TCPSocket#open で Errno::EALREADY — Kazuhiro NISHIYAMA <zn@...>

[#15569] [REQ] File?chmod — keiju@... (Keiju ISHITSUKA)

[#15573] [patch] resolv.rb for win32 platform — Tietew <tietew-ml-ruby-dev@...>

[#15602] Net::FTP: ftp anonymous password (PR#223) — "Akinori MUSHA" <knu@...>

[#15603] filename within eval — nobu.nakada@...

[ruby-dev:15368] Re: Regexp in UTF-8 (Re: Regexp literal and Regexp.new())

Thread

In This Thread

[#15403] FILE.concat — Kazuhiro NISHIYAMA <zn@...>