ruby-list

なかむら(う)さん，西山和広さん

5.5 です。助言により解決しました。ありがとうございました。
ご返事がとても遅くなってすみません。



他の方の参考になるかもしれないので，私が何で悩み，何を勘違いした
のか記してみます。

ことの発端は次のようなコードでした。（かなり省略してます）

# encoding: utf-8

re=""

何か.each do |str|
  re << str.encode("cp932")
end

regexp=Regexp.new(re)


これで出来た regexp を CP932 の文字列に使おうとしたときに，場合に
よって Encoding::CompatibilityError が出ることに悩まされました。

調べたところ，"ABC" とか "あいう" のようなものを与えると大丈夫なの
に，"\\p{Katakana}" などを与えると例外が出ていました。

このことと，いろいろ実験した結果から，Regexp.new にいろいろな文字列
オブジェクトを与えたときに出来る Regexp オブジェクトのエンコーディ
ングについて，以下のように考えました。

[A] CP932 の "あいう" を与える
　→ CP932 の Regexp オブジェクト

[B] CP932，UTF-8 の "ABC" を与える
　→ いずれも US-ASCII の Regexp オブジェクト

[C] CP932，UTF-8 の "\\p{Katakana}" を与える
　→ スクリプトのエンコーディングと同じ Regexp オブジェクト

このうち [A] と [B] は正しく，[C] は勘違いでした。

なぜ勘違いしたかというと，上述のコードで，空文字列に CP932 の文字列
を concat したら当然 CP932 の文字列が出来るだろうと思い込んでいたか
らです。
実際は，UTF-8 の空文字列に CP932 の文字列を concat したとき，それが
ASCII 文字だけで出来ていれば UTF-8 のままなんですね。
※そもそも空文字列のエンコーディングに意味があるとすら思っていません
でした。

異なるエンコーディングの文字列を混ぜたときにどうなるかのルールはちょ
っとややこしいですね。ハマりどころです。

(13/07/01 16:08), U.Nakamura wrote:
> こんにちは、なかむら(う)です。
> 
> In message "[ruby-list:49476] UTF-8 のスクリプト中で CP932  の正規表現オブジェクトが作りたい"
>      on Jul.01,2013 15:48:43, <5.5@moji.gr.jp> wrote:
>> Regexp.#new の引数でエンコーディングを指定することもできません。
> 
> Regexp.new(str.encode('cp932'))
> 
> 
> それでは。
> 


-- 
5.5@moji.gr.jp

Thread

Prev Next

In This Thread

Prev Next

[#49476] UTF-8 のスクリプト中で CP932 の正規表現オブジェクトが作りたい — "5.5" <5.5@...>

[#49479] [ANN]とちぎRubyの勉強会(toRuby)のご案内 — 米澤 慎 <vestige@...3.so-net.ne.jp>

[#49480] [ANN] Milkode 1.1 — ongaeshi <ongaeshi0621@...>

[#49486] Spreadsheet でfloatを入れるとDate型になってしまう — dezawa <dezawa@...>

[#49488] [ANN]とちぎRuby会議05の案内 — Yonezawa Makoto <vestige_sync@...>

[#49490] [ANN] mireru 0.1.4 リリース — myokoym <myokoym@...>

[#49493] 「RubyPrize」一般推薦について — Yukihiro Matsumoto <matz@...>

[#49494] blade での https URL 自動リンクサポート — "NARUSE, Yui" <naruse@...>

[#49499] RubyConf 2013 情報交換ML開設のお知らせ — Kakutani Shintaro <shintaro@...>

[#49500] Float の誤差と同一性 — "Takashi SUGA" <suchowan@...>

[#49504] relatewithavictoriousadvance — 関勝之 <relatewithavictoriousadvance@...>

[#49505] opensslがインストール完了しました — "清家麻那" <k0241130@...>

[#49506] 関西Ruby会議05 懇親会開催のお知らせ — Goh Matsumoto <urimaro@...>

[#49507] [ANN] nadoka-0.8.5 — Kazuhiro NISHIYAMA <zn@...>

[#49508] OSXでRUBY-TKインストール出来た方いますか？ — Tsuyoshi Uema <mugenkai_151e@...>

[#49517] Rubyist Magazine 0043 号リリース — Noriyuki Komatsuzaki <oshow999@...>

[#49518] [ANN]とちぎRuby会議05の案内 — Yonezawa Makoto <vestige_sync@...>

[ruby-list:49489] Re: UTF-8 のスクリプト中で CP932 の正規表現オブジェクトが作りたい

Thread

In This Thread

[#49479] [ANN]とちぎRubyの勉強会(toRuby)のご案内 — 米澤慎 <vestige@...3.so-net.ne.jp>