ruby-dev

なかだです。

At Mon, 3 Sep 2007 16:34:12 +0900,
Yukihiro Matsumoto wrote in [ruby-dev:31723]:
> |JRubyでは、Unicode系以外の文字列はどういう方針になるんでしょうか。
> |なんとなく、binaryについてはbyte arrayという話を見掛けたような気
> |もするんですが。
> 
> JRubyでは基本的に内部コードに変換するポリシーになると思いま
> す。で、バイナリが必要な場合には明示的にバイナリと指定するの
> だと思います。内部的に実装を切り替える(通常文字列はJavaの
> Stringを使用、バイナリ文字列はbyte array。表面的には同じクラ
> スに見える)と聞いています。

つまり、指定されていない限りASCIIのみの文字列にもUTF-16を使うと
いうことでしょうか。

> |もしすべてUTF-16で実装するなら、String#encodingは常に"UTF-16"を
> |返すんでしょうか。
> 
> そうだと思います。
> 
> |それならそれでcoding:で指定したものとは一致す
> |るとは限らないわけで、気にすることはないようにも思えます。
> 
> codingで指定したものと一致しないのはそれはそれで構わないので
> すが、「ASCIIしか含まないものはASCII(≒バイナリ)という仕様」
> はJRuby的に取り込みにくいんじゃないでしょうか。UTF-8と違って、
> 通常文字列(UTF-16)とバイナリ文字列(ASCII)の互換性を維持する
> のが困難だと思いますから。

JRuby的には「ASCII≠バイナリ」ということでいいんじゃないでしょう
か。もしそうであれば、ASCIIのみでも非ASCIIを含んでいても文字列リ
テラルは常にJava Stringで、結合や比較は問題なく行えるはずです。
逆に「ASCII(≒バイナリ)=byte array」ということであれば、そういっ
たbyte array/Java String間の変換は、リテラルに限らずしばしば必要
になるはずで、リテラルについてだけ気にしてもしょうがないと思いま
す。

妥協点として、「ASCIIしか含まないものはencoding="ASCII"」まで規
定せずに、「リテラルのencodingは最大公約数的なものを使う」くらい
でどうでしょうか。ASCIIベースの実装ならASCII/binary、UTF-16ベー
スならUTF-16ベース。でないと実際にはかえって不便でしょうがなくな
ると思うのですが。

-- 
--- 僕の前にBugはない。
--- 僕の後ろにBugはできる。
    中田 伸悦

Thread

Prev Next

In This Thread

Prev Next

[#31690] m17n questions — SASADA Koichi <ko1@...>

[#31692] cannot run test-all — "U.Nakamura" <usa@...>

[#31697] Re: [ruby-list:43970] 次の1.8.6 — Tadayoshi Funaba <tadf@...>

[#31698] Re: [ruby-cvs:20568] Ruby:r13331 (trunk): * eval_jump.ci (rb_f_catch): generate new tag object if no argument is — "U.Nakamura" <usa@...>

[#31702] [ANN] Rubyロゴコンテスト — Shugo Maeda <shugo@...>

[#31709] [BUG] non-initialized struct — Tanaka Akira <akr@...>

[#31710] optimize range space — Tanaka Akira <akr@...>

[#31715] string literal encoding — Nobuyoshi Nakada <nobu@...>

[#31729] packed st_table — Nobuyoshi Nakada <nobu@...>

[#31731] ordered/unordered st_table — Nobuyoshi Nakada <nobu@...>

[#31734] [m17n] String#chop & String#succ — Nobuyoshi Nakada <nobu@...>

[#31736] integer overflow in Array#[] — sheepman <sheepman@...>

[#31737] integer overflow in Array#[]= — sheepman <sheepman@...>

[#31738] integer overflow in Array#fill — sheepman <sheepman@...>

[#31739] integer overflow in String#[]= — sheepman <sheepman@...>

[#31740] FileTest.identical? with IO — sheepman <sheepman@...>

[#31743] deprecating RUBY_VERSION_CODE — Nobuyoshi Nakada <nobu@...>

[#31744] [m17n] String#encode — Nobuyoshi Nakada <nobu@...>

[#31748] typo at Array#cycle documentation — Yugui <yugui@...>

[#31754] Re: [ruby-cvs:20585] Ruby:r13348 (trunk): * array.c (rb_ary_cycle): typo in rdoc. a patch from Yugui — "U.Nakamura" <usa@...>

[#31759] SEGV by modifying __members__ — Tanaka Akira <akr@...>

[#31763] integer overflow in Range#step — sheepman <sheepman@...>

[#31768] shellescape — "Akinori MUSHA" <knu@...>

[#31774] RSTRING(value)->ptr == NULL ? — Tietew <tietew+ruby-dev@...>

[#31775] 1.9 on OpenBSD — SASADA Koichi <ko1@...>

[#31780] "string"[/str/]=:not_string dumps core — Nobuyoshi Nakada <nobu@...>

[#31781] `scan': character encodings differ (ArgumentError) — Kouhei Sutou <kou@...>

[#31786] rstripがstripしすぎる — Kouhei Sutou <kou@...>

[#31787] 文字列のinspect — eklerni <eklerni@...>

[#31798] generator from Enumerable#map — "Yusuke ENDOH" <mame@...>

[#31799] weakref.rbにデバッグ用print — "madoka yamamoto" <yamamotomadoka@...>

[#31802] hash value of { n => n } — "Yusuke ENDOH" <mame@...>

[#31804] TYPE(cl) in rb_obj_is_kind_of — Tanaka Akira <akr@...>

[#31806] rb_str_substr is much slower than rb_str_subpat — Nobuyoshi Nakada <nobu@...>

[#31810] rb_obj_is_kind_of — Tanaka Akira <akr@...>

[#31815] 文字列の式展開 — eklerni <eklerni@...>

[#31816] SEGV by removing undefined method — Tanaka Akira <akr@...>

[#31817] removing undefined method on 1.8 — Tanaka Akira <akr@...>

[#31818] SEGV by attr — Tanaka Akira <akr@...>

[#31819] rb_clear_cache_by_class — Tanaka Akira <akr@...>

[#31820] valgrind set_trace_func — Tanaka Akira <akr@...>

[#31821] unsubscribe — "Angadpreet Chadha" <angadsc@...>

[#31831] trunk で現状セルフビルドができません — "きむらこういち" <hogemuta@...>

[#31835] Kernel#` is blocked with Ruby/GLib2 on Intel Mac — Kouhei Sutou <kou@...>

[#31840] valgrind fiber — Tanaka Akira <akr@...>

[#31842] 拡張ライブラリ内での SIGVTALRM — とみたまさひろ <tommy@...>

[#31848] huge `if' dumps core — "Yusuke ENDOH" <mame@...>

[#31849] Exception `ArgumentError' at (null):0 - NULL pointer given — Tanaka Akira <akr@...>

[#31850] meta programming might dump core — "Yusuke ENDOH" <mame@...>

[#31852] Re: [ ruby-Bugs-14195 ] Array instance method include? speed can be increased — Urabe Shyouhei <shyouhei@...>

[#31853] optimize T_OBJECT space — Tanaka Akira <akr@...>

[#31854] Symbol.all_symbols — eklerni <eklerni@...>

[#31866] reading a pipe by multiple threads — Tanaka Akira <akr@...>

[#31870] marshal_dumpで不正なデータが書き出される — kumaryu <kumaryu@...>

[#31871] Process::WNOHANG — Tanaka Akira <akr@...>

[#31887] ruby 1.9 で ruby 1.9 はコンパイルできなかった — Martin Duerst <duerst@...>

[#31896] URI::LDAPS — Kouhei Sutou <kou@...>

[#31898] memory consumption on ext/dl build — Tanaka Akira <akr@...>

[#31900] platform-independent per-process initialization — Nobuyoshi Nakada <nobu@...>

[#31909] ipaddr — Kazuhiro NISHIYAMA <zn@...>

[#31911] eval("", TOPLEVEL_BINDING) and ObjectSpace._id2ref — Tanaka Akira <akr@...>

[#31912] exit status of ruby -v — Tanaka Akira <akr@...>

[#31913] SEGV: Fiber.new{ callcc{|c| @c = c } }.resume — Tanaka Akira <akr@...>

[#31914] m17nの全貌に関する何か — Masayoshi Takahashi <maki@...>

[ruby-dev:31745] Re: string literal encoding

Thread

In This Thread

[#31759] SEGV by modifying members — Tanaka Akira <akr@...>