ruby-dev

成瀬です。

Yukihiro Matsumoto wrote:
> まつもと ゆきひろです
> 
> In message "Re: [ruby-dev:31724] Re: string literal encoding"
>     on Mon, 3 Sep 2007 19:42:11 +0900, "NARUSE, Yui" <naruse@airemix.com> writes:
> |str1 = b"\x82\A0" # "あ" in Shift_JIS
> |str1.encode("Shift_JIS")
> |str2 = b"\xA4\A2" # "あ" in EUC-JP
> |str2.encode("EUC-JP")
> |p str1 == str2 # Ruby1.9=>false, JRuby=>true
> |って、なりませんか。
> 
> ややや、encode()は「encodingをEUC-JPにするように変換する」も
> のですから、JRubyでもencode("EUC-JP")の結果は"EUC-JP"ですね
> (上記の「常に」と矛盾しますが)。あるいは、そもそもJRubyではバ
> イナリ→EUC-JPには対応しないとしてエラーにするかもしれません。

バイナリ文字列にString#encodeかString#encoding=で文字コードを設定する
か、また別の方法を用いるかはともかく、Unicode以外の文字列をコードに埋め
込む方法は必要に感じるのですが、それは別の話ですからとりあえずおいておいて、

> 少なくとも上記に示されるような「EUC-JP であるとみなして
> UTF-16に変換する」という挙動はしないと思います。

えっと、確認したいのですが、

p utf16_str #=> "あいう漢字" # UTF-16 な文字列
p utf16_str.encoding #=> "UTF-16"
euc_str = utf16_str.encode("EUC-JP")
p euc_str.encoding #=> "EUC-JP"

UTF-16な文字列があったとして、それのencode("EUC-JP").encodingは常に"EUC-
JP"ですよね。RubyM17Nを実装した「Ruby」ならばRuby1.9でもJRubyでも。

また、EUC-JPのテキストを読み込んだ場合ですが、
open("eucjp.txt","r:euc-jp") do |f|
  str = f.read
  p str.encoding #=> "EUC-JP"
end
ここのstr.encodingもEUC-JPですよね。r:utf-8<euc-jpならさておき。

このようなケースを考えると、JRubyのように内部的にUTF-16を用いていたとし
ても、String#encodingがUTF-16以外を返すべきと考えられるケースが結構ある
ように感じます。

-- 
NARUSE, Yui  <naruse@airemix.com>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA

Thread

Prev Next

In This Thread

Prev Next

[#31690] m17n questions — SASADA Koichi <ko1@...>

[#31692] cannot run test-all — "U.Nakamura" <usa@...>

[#31697] Re: [ruby-list:43970] 次の1.8.6 — Tadayoshi Funaba <tadf@...>

[#31698] Re: [ruby-cvs:20568] Ruby:r13331 (trunk): * eval_jump.ci (rb_f_catch): generate new tag object if no argument is — "U.Nakamura" <usa@...>

[#31702] [ANN] Rubyロゴコンテスト — Shugo Maeda <shugo@...>

[#31709] [BUG] non-initialized struct — Tanaka Akira <akr@...>

[#31710] optimize range space — Tanaka Akira <akr@...>

[#31715] string literal encoding — Nobuyoshi Nakada <nobu@...>

[#31729] packed st_table — Nobuyoshi Nakada <nobu@...>

[#31731] ordered/unordered st_table — Nobuyoshi Nakada <nobu@...>

[#31734] [m17n] String#chop & String#succ — Nobuyoshi Nakada <nobu@...>

[#31736] integer overflow in Array#[] — sheepman <sheepman@...>

[#31737] integer overflow in Array#[]= — sheepman <sheepman@...>

[#31738] integer overflow in Array#fill — sheepman <sheepman@...>

[#31739] integer overflow in String#[]= — sheepman <sheepman@...>

[#31740] FileTest.identical? with IO — sheepman <sheepman@...>

[#31743] deprecating RUBY_VERSION_CODE — Nobuyoshi Nakada <nobu@...>

[#31744] [m17n] String#encode — Nobuyoshi Nakada <nobu@...>

[#31748] typo at Array#cycle documentation — Yugui <yugui@...>

[#31754] Re: [ruby-cvs:20585] Ruby:r13348 (trunk): * array.c (rb_ary_cycle): typo in rdoc. a patch from Yugui — "U.Nakamura" <usa@...>

[#31759] SEGV by modifying __members__ — Tanaka Akira <akr@...>

[#31763] integer overflow in Range#step — sheepman <sheepman@...>

[#31768] shellescape — "Akinori MUSHA" <knu@...>

[#31774] RSTRING(value)->ptr == NULL ? — Tietew <tietew+ruby-dev@...>

[#31775] 1.9 on OpenBSD — SASADA Koichi <ko1@...>

[#31780] "string"[/str/]=:not_string dumps core — Nobuyoshi Nakada <nobu@...>

[#31781] `scan': character encodings differ (ArgumentError) — Kouhei Sutou <kou@...>

[#31786] rstripがstripしすぎる — Kouhei Sutou <kou@...>

[#31787] 文字列のinspect — eklerni <eklerni@...>

[#31798] generator from Enumerable#map — "Yusuke ENDOH" <mame@...>

[#31799] weakref.rbにデバッグ用print — "madoka yamamoto" <yamamotomadoka@...>

[#31802] hash value of { n => n } — "Yusuke ENDOH" <mame@...>

[#31804] TYPE(cl) in rb_obj_is_kind_of — Tanaka Akira <akr@...>

[#31806] rb_str_substr is much slower than rb_str_subpat — Nobuyoshi Nakada <nobu@...>

[#31810] rb_obj_is_kind_of — Tanaka Akira <akr@...>

[#31815] 文字列の式展開 — eklerni <eklerni@...>

[#31816] SEGV by removing undefined method — Tanaka Akira <akr@...>

[#31817] removing undefined method on 1.8 — Tanaka Akira <akr@...>

[#31818] SEGV by attr — Tanaka Akira <akr@...>

[#31819] rb_clear_cache_by_class — Tanaka Akira <akr@...>

[#31820] valgrind set_trace_func — Tanaka Akira <akr@...>

[#31821] unsubscribe — "Angadpreet Chadha" <angadsc@...>

[#31831] trunk で現状セルフビルドができません — "きむらこういち" <hogemuta@...>

[#31835] Kernel#` is blocked with Ruby/GLib2 on Intel Mac — Kouhei Sutou <kou@...>

[#31840] valgrind fiber — Tanaka Akira <akr@...>

[#31842] 拡張ライブラリ内での SIGVTALRM — とみたまさひろ <tommy@...>

[#31848] huge `if' dumps core — "Yusuke ENDOH" <mame@...>

[#31849] Exception `ArgumentError' at (null):0 - NULL pointer given — Tanaka Akira <akr@...>

[#31850] meta programming might dump core — "Yusuke ENDOH" <mame@...>

[#31852] Re: [ ruby-Bugs-14195 ] Array instance method include? speed can be increased — Urabe Shyouhei <shyouhei@...>

[#31853] optimize T_OBJECT space — Tanaka Akira <akr@...>

[#31854] Symbol.all_symbols — eklerni <eklerni@...>

[#31866] reading a pipe by multiple threads — Tanaka Akira <akr@...>

[#31870] marshal_dumpで不正なデータが書き出される — kumaryu <kumaryu@...>

[#31871] Process::WNOHANG — Tanaka Akira <akr@...>

[#31887] ruby 1.9 で ruby 1.9 はコンパイルできなかった — Martin Duerst <duerst@...>

[#31896] URI::LDAPS — Kouhei Sutou <kou@...>

[#31898] memory consumption on ext/dl build — Tanaka Akira <akr@...>

[#31900] platform-independent per-process initialization — Nobuyoshi Nakada <nobu@...>

[#31909] ipaddr — Kazuhiro NISHIYAMA <zn@...>

[#31911] eval("", TOPLEVEL_BINDING) and ObjectSpace._id2ref — Tanaka Akira <akr@...>

[#31912] exit status of ruby -v — Tanaka Akira <akr@...>

[#31913] SEGV: Fiber.new{ callcc{|c| @c = c } }.resume — Tanaka Akira <akr@...>

[#31914] m17nの全貌に関する何か — Masayoshi Takahashi <maki@...>

[ruby-dev:31733] Re: string literal encoding

Thread

In This Thread

[#31759] SEGV by modifying members — Tanaka Akira <akr@...>