ruby-dev

成瀬です。

2008/3/18 <rubikitch@ruby-lang.org>:
> 僕としては、エンコーディングは空気のような存在であるべきだと思っています。

エンコーディングは空気ではありません、文字列の同定に必要不可欠な情報です。
極端なたとえですが、分数の分母みたいなものです。

日本語だけでは同じバイト列で違う意味というケースが想像しづらいかもしれませんが、
例えば ISO 8859 シリーズのエンコーディングを持つ文字列が入り乱れている場合には、
ISO-8859-1 の \xC0 と ISO-8859-2 の \xC0 で == が成立しては困ります。

> Ruby 1.9では同じバイト列であっても異なるエンコーディングの場合は == にはなりません。
> 方向性としては正しいかもしれませんが、ハマるケースが多いのではないでしょうか？

よって、必要な情報が落ちているのですから、ハマるべくしてはまっているのだからしょうがない、
ということになります。といっても、おそらく ISO-8859-1 の \xC0 と ISO-8859-2 の \xC0 で
== が成立してしまう場合でのハマり方に比べればはるかに浅いものでしょう。

> String#inspectがencoding情報を表示しない以上、
> 「同じ文字列なのになんで==にならないの！？おかしい！」と思う人が多いと思います。

String#inspect は永続化用のメソッドではありませんから。
たぶん inspect で encoding が表示されてもうれしくないんじゃないですかねぇ。
String#dump あたりだとうれしくなる人もいそうですけれど。

> 異なるエンコーディングの文字列を結合できないのは当然だと思いますが、
> せめて == での比較は許してもいいのではないでしょうか？
> Rubyの == はFixnumとFloatの比較を許すなど空気を読んでくれる演算子だと思っていますが、
> 現状の String#== は厳密すぎると思います。
> より厳密な比較ならばeql?がありますし。

String は基本的に文字列の比較なのですから、文字列の比較の比較であるべきでしょう。
文字列の比較がどうあるべきかを考えれば挙動は決まってきます。
# 方向性としては、むしろ EUC-JP の "あ" と Shift_JIS の "あ" で == が成立するとか、
# そっちの方向に進むのがあるべき姿じゃないかと。

というわけで、バイト列の比較が欲しいのなら String を ASCII-8BIT にするか、
さもなくばバイト列としての比較を行う新しい方法を提案する方が妥当でしょう。

> いちいちforce_encodingをつけるのも気持ち悪いですし。

経験的に、いちいちつけないといけない場合があれば、
それはそれ以前の段階が間違っているサインであることが多いです。

> たとえばネットワークから読み込んだときサーバーが実際と異なるcharsetを吐き出した場合とか。
> 身近な例では何気なく下のようなコードを書いた場合です。
>
> # -*- coding: euc-jp -*-
> # 日本語を含むコード
> RUBY_VERSION                    # => "1.9.0"
> RUBY_RELEASE_DATE               # => "2008-03-14"
> GZIP_MAGIC = "\x1F\x8B"
> open("/tmp/compressed.txt.gz", "r") do |f|
>  magic = f.read(2)   # => "\x1F\x8B"
>  magic == GZIP_MAGIC # => false
>  if GZIP_MAGIC.respond_to? :encoding
>    GZIP_MAGIC.encoding           # => #<Encoding:EUC-JP>
>    magic.encoding                # => #<Encoding:ASCII-8BIT>
>  end
> end

これの場合は、
> GZIP_MAGIC = "\x1F\x8B".force_encoding("ASCII-8BIT")
が正解ですね。
これだけなら妥協できる範囲だと思いますがいかがでしょう。

なお、ここの force_encoding が面倒ならば、バイト列リテラルの提案という手もあります。

-- 
成瀬ゆい
naruse@airemix.com

Thread

Prev Next

In This Thread

Prev Next

[#33946] Symbol#inspect should use rb_str_inspect — sheepman <sheepman@...>

[#33947] Ruby 1.9.0-1 snapshot released — Yukihiro Matsumoto <matz@...>

[#33948] Schedule for the 1.8.7 release — "Akinori MUSHA" <knu@...>

[#33950] Ruby 1.9.0-1 build failure: error: `r15660' undeclared — "Hiroshi Ichikawa" <gimite@...>

[#33952] Float('1__1') — Tadayoshi Funaba <tadf@...>

[#33954] Mac OS X 10.5.2でruby-1.9.0-1のmake testが失敗 — 高尾 宏治 <kouji@...>

[#33955] --encoding affects script encoding — sheepman <sheepman@...>

[#33962] Ruby1.9.0でのインタプリタ組み込みについての質問 — Masayuki Yamaguchi <Yamaguchi.Masayuki@...>

[#33966] Re: [ruby-cvs:22881] Ruby:r15644 (trunk): * test/ruby/test_m17n_comb.rb (TestM17NComb::test_str_chomp): test — Tanaka Akira <akr@...>

[#33967] $SAFE=1でLoadErrorではなくInsecure operationになる — "Ken Date" <itacchi@...>

[#33972] なぜ transcode.c の transcode_loop で from_utf8 が特別扱い — Martin Duerst <duerst@...>

[#33974] Test::Unit::Collector::Dirがtest_*.rb以外集めてくれない — "Ken Date" <itacchi@...>

[#33983] Re: [ruby-cvs:22913] Re: Ruby:r15674 (trunk): * gc.c (add_heap): sort heaps array in ascending order to use — Yukihiro Matsumoto <matz@...>

[#33989] Hash#compare_by_identity breaks commutativity of Hash#== — Tanaka Akira <akr@...>

[#33991] Maybe IRB bug!! by 09 — Tanaka Akira <akr@...>

[#33992] debug.rb:221:in `debug_command': undefined method `callcc' for #<DEBUGGER__::Context:0xb7a85914> (NoMethodError) — Tanaka Akira <akr@...>

[#33993] Re: [ruby-cvs:22935] Ruby:r15695 (trunk): * string.c (is_utf8_lead_byte, count_utf8_lead_bytes_with_ulong): — Tanaka Akira <akr@...>

[#33994] printf "[%08f]\n", 0.0/0.0 — Tanaka Akira <akr@...>

[#33996] No definition for sym_succ など — Martin Duerst <duerst@...>

[#34000] --program-suffix option of configure.bat(mswin32) — KIMURA Koichi <kimura.koichi@...>

[#34002] sprintf("% e", Inf) — Tanaka Akira <akr@...>

[#34005] Array#slice! may be too slow and allocate memory too much — "Yusuke ENDOH" <mame@...>

[#34006] 11.divmod(3.5) — Tanaka Akira <akr@...>

[#34008] local_variables contains strings — Tanaka Akira <akr@...>

[#34010] RUBY_*定数のencoding — Kazuhiro NISHIYAMA <zn@...>

[#34011] Should --verbose be equal to -v ? — Yugui <yugui@...>

[#34019] DelegateClassのバックトレース — "GO Noguchi" <gonoguti@...>

[#34020] MurmurHash problem — Nobuyoshi Nakada <nobu@...>

[#34021] singleton class extended by a module with module_function — Tanaka Akira <akr@...>

[#34022] patch of lazy sweep gc — authorNari <authornari@...>

[#34030] uint32_t — KIMURA Koichi <kimura.koichi@...>

[#34033] ruby coding guideline — "NARUSE, Yui" <naruse@...>

[#34037] Ruby performance gains on SPARC — Yukihiro Matsumoto <matz@...>

[#34042] IOはこれからもEnumerableなのか — rubikitch@...

[#34048] CGI::Cookie.new を高速化するバッチ — "Makoto Kuwata" <kwa@...>

[#34052] IO should provide #each_char and #chars — Yugui <yugui@...>

[#34059] putsでSEGV — rubikitch@...

[#34066] Bignum#div — Tadayoshi Funaba <tadf@...>

[#34067] Array#take,take_while,drop,drop_whlie — "Yusuke ENDOH" <mame@...>

[#34068] lgamma_r requires _REENTRANT on Solaris — "Yusuke ENDOH" <mame@...>

[#34071] procを組み合わせた再帰呼び出しで例外が投げられない — wanabe <s.wanabe@...>

[#34072] rb_memsearch optimization — "NARUSE, Yui" <naruse@...>

[#34077] 異なるエンコーディングだと同じバイト列でも==にならない件 — rubikitch@...

[#34086] extend spawn to change attributes of child process. — Tanaka Akira <akr@...>

[#34093] 拡張ライブラリ初期化中でのmodule_eval — Kouhei Sutou <kou@...>

[#34094] tempfile.unlink 後に tempfile.close — SATOH Fumiyasu <fumiyas@...>

[#34095] (再送) Cygwin で Resolv.getaddress が失敗する — Kouhei Yanagita <yanagi@...>

[#34100] delegate Kernel#{gets,readline,readlines} to ARGF — Nobuyoshi Nakada <nobu@...>

[#34105] rational.rb, complex.rb and mathn.rb — Tadayoshi Funaba <tadf@...>

[#34109] LP64: date.rb:321:in `convert': integer 86400000000000 too big to convert to `int' (RangeError) — Tanaka Akira <akr@...>

[#34112] Module#define_methodがprivateなわけ — rubikitch@...

[#34114] Is 'Class.new(Class)' valid? — rucila <rucila@...>

[#34116] Improving Fixnum#gcd(Fixnum) — "Akinori MUSHA" <knu@...>

[#34117] backporting features from 1.9 to 1.8 — "Akinori MUSHA" <knu@...>

[#34119] Process.daemon kills other threads — Tanaka Akira <akr@...>

[#34122] --disable=all --enable=gems — Kazuhiro NISHIYAMA <zn@...>

[#34128] enumerator with certain built-in methods dumps core — "Yusuke ENDOH" <mame@...>

[#34136] thread.c (fastthread)の状況 — Daigo Moriwaki <techml@...>

[#34144] [質問２点] C からの定数参照 & thread switching コストの低減 — Hidetoshi NAGAI <nagai@...>

[#34150] sigsetjmp significantly slower on OSX. — Yukihiro Matsumoto <matz@...>

[#34158] Complex組み込み — Masahiro TANAKA <masa16.tanaka@...>

[#34159] ruby-trunk Marshal.dump bug — nagachika <rucila@...>

[#34162] GC heap size less patch — authorNari <authornari@...>

[#34163] Array#shift/unshift の高速化 — wanabe <s.wanabe@...>

[#34180] メソッドにクラスを定義させるとprivateになる？ — rubikitch@...

[#34184] Re: [ruby-cvs:23097] Ruby:r15858 (trunk): * io.c: IO.copy_stream implemented. — "U.Nakamura" <usa@...>

[#34189] Re: [ruby-cvs:23106] Re: Ruby:r15866 (trunk): * numeric.c (num_quo): should convert its operand to Rational. — Tadayoshi Funaba <tadf@...>

[#34191] Object#singleton_class — rubikitch@...

[ruby-dev:34081] Re: 異なるエンコーディングだと同じバイト列でも==にならない件

Thread

In This Thread

[#33954] Mac OS X 10.5.2でruby-1.9.0-1のmake testが失敗 — 高尾宏治 <kouji@...>

[#34072] rb_memsearch　optimization — "NARUSE, Yui" <naruse@...>