ruby-dev

成瀬です。

Martin Duerst wrote:
>> Shift_JIS を
>> CP932 に差し替えるとか、
> 
> その二つの違いは具体的に何でしょうか。ただ後者で MS 特有の
> 外字が追加されたらバイト列→文字コード着きバイト列と同等なのは
> すごく納得します。
> 
> しかし、iconv (一部?) みたいに、Shift_JIS の 0x5c を円記号、
> CP932 の場合にはバックスラッシュ、という場合にはちょっと
> 違うのではないかと思います。

「文字コード」という概念は多義的なもので、主に
1.valid なバイト列の定義
　(/[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]/とか）
2.コードポイントへの文字の割り当ての有無
3.Unicode との変換表
4.文字列（コードポイント列・バイト列）の意味
といったものがあると思います。

で、Shift_JIS と CP932 の違いは 2, 3, 4 なのですが、
実際に問題となってくるのは 3 でしょう。
これには、一部ベンダーの独自文字をマップするか否かもあるのですが、
円記号問題のように変換表ごとにマップが異なってる場合もあります。
なお、これはShift_JIS 等と Unicode の間の変換のみならず、
"\u00A5"をいかにバイト列に変換するか等にも絡んできます。
http://www.w3.org/Submission/2005/SUBM-japanese-xml-20050324/

> 個人的には三種類のものがあるかと思います。
> 1) 解釈してないものを解釈する。これは場いつ列に文字コードを教える、
>    (上記の条件で) Shift_JIS から CP932 とかが考えられている。
>    これは 「interpret_as」とか 「as」みたいな名前がいいのではない
>    かと思います。多分ここは逆のケースも入るのではないかと思います。
>    (String#interpret_as('UNKNOWN-8BIT') とか; "UNKNOWN-8BIT" については
>     http://www.iana.org/assignments/character-sets 参照)
> 2) 文字コードを無理矢理変えること。これは普通は余り使わない方がいいので、
>    長い名前がいいのではないかと思います。例えば「force_encoding」とか
>    のようなもの。
>  ここまでの問題は、相当の情報がないとなかなか 1) と 2) をよく区別でき
ない。
>
> 3) 文字コード情報をベースにコード変換を行う。これは多分
>    String#convert と String#convert! ぐらいでいいだろうと思います。

他の言語ならばそのように3つのメソッドに分けると思うのですが、
Ruby は似た機能は一つのメソッド/クラスにまとめるという傾向があるので、
String#encode に現在まとめてあるのだと思っています。

けれども、変換していないのに変換を意味する語を用いているのはアレなので
1) 2) を別にしようという話なのですよね。


-- 
NARUSE, Yui  <naruse@airemix.com>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA

Thread

Prev Next

In This Thread

Prev Next

[#31690] m17n questions — SASADA Koichi <ko1@...>

[#31692] cannot run test-all — "U.Nakamura" <usa@...>

[#31697] Re: [ruby-list:43970] 次の1.8.6 — Tadayoshi Funaba <tadf@...>

[#31698] Re: [ruby-cvs:20568] Ruby:r13331 (trunk): * eval_jump.ci (rb_f_catch): generate new tag object if no argument is — "U.Nakamura" <usa@...>

[#31702] [ANN] Rubyロゴコンテスト — Shugo Maeda <shugo@...>

[#31709] [BUG] non-initialized struct — Tanaka Akira <akr@...>

[#31710] optimize range space — Tanaka Akira <akr@...>

[#31715] string literal encoding — Nobuyoshi Nakada <nobu@...>

[#31729] packed st_table — Nobuyoshi Nakada <nobu@...>

[#31731] ordered/unordered st_table — Nobuyoshi Nakada <nobu@...>

[#31734] [m17n] String#chop & String#succ — Nobuyoshi Nakada <nobu@...>

[#31736] integer overflow in Array#[] — sheepman <sheepman@...>

[#31737] integer overflow in Array#[]= — sheepman <sheepman@...>

[#31738] integer overflow in Array#fill — sheepman <sheepman@...>

[#31739] integer overflow in String#[]= — sheepman <sheepman@...>

[#31740] FileTest.identical? with IO — sheepman <sheepman@...>

[#31743] deprecating RUBY_VERSION_CODE — Nobuyoshi Nakada <nobu@...>

[#31744] [m17n] String#encode — Nobuyoshi Nakada <nobu@...>

[#31748] typo at Array#cycle documentation — Yugui <yugui@...>

[#31754] Re: [ruby-cvs:20585] Ruby:r13348 (trunk): * array.c (rb_ary_cycle): typo in rdoc. a patch from Yugui — "U.Nakamura" <usa@...>

[#31759] SEGV by modifying __members__ — Tanaka Akira <akr@...>

[#31763] integer overflow in Range#step — sheepman <sheepman@...>

[#31768] shellescape — "Akinori MUSHA" <knu@...>

[#31774] RSTRING(value)->ptr == NULL ? — Tietew <tietew+ruby-dev@...>

[#31775] 1.9 on OpenBSD — SASADA Koichi <ko1@...>

[#31780] "string"[/str/]=:not_string dumps core — Nobuyoshi Nakada <nobu@...>

[#31781] `scan': character encodings differ (ArgumentError) — Kouhei Sutou <kou@...>

[#31786] rstripがstripしすぎる — Kouhei Sutou <kou@...>

[#31787] 文字列のinspect — eklerni <eklerni@...>

[#31798] generator from Enumerable#map — "Yusuke ENDOH" <mame@...>

[#31799] weakref.rbにデバッグ用print — "madoka yamamoto" <yamamotomadoka@...>

[#31802] hash value of { n => n } — "Yusuke ENDOH" <mame@...>

[#31804] TYPE(cl) in rb_obj_is_kind_of — Tanaka Akira <akr@...>

[#31806] rb_str_substr is much slower than rb_str_subpat — Nobuyoshi Nakada <nobu@...>

[#31810] rb_obj_is_kind_of — Tanaka Akira <akr@...>

[#31815] 文字列の式展開 — eklerni <eklerni@...>

[#31816] SEGV by removing undefined method — Tanaka Akira <akr@...>

[#31817] removing undefined method on 1.8 — Tanaka Akira <akr@...>

[#31818] SEGV by attr — Tanaka Akira <akr@...>

[#31819] rb_clear_cache_by_class — Tanaka Akira <akr@...>

[#31820] valgrind set_trace_func — Tanaka Akira <akr@...>

[#31821] unsubscribe — "Angadpreet Chadha" <angadsc@...>

[#31831] trunk で現状セルフビルドができません — "きむらこういち" <hogemuta@...>

[#31835] Kernel#` is blocked with Ruby/GLib2 on Intel Mac — Kouhei Sutou <kou@...>

[#31840] valgrind fiber — Tanaka Akira <akr@...>

[#31842] 拡張ライブラリ内での SIGVTALRM — とみたまさひろ <tommy@...>

[#31848] huge `if' dumps core — "Yusuke ENDOH" <mame@...>

[#31849] Exception `ArgumentError' at (null):0 - NULL pointer given — Tanaka Akira <akr@...>

[#31850] meta programming might dump core — "Yusuke ENDOH" <mame@...>

[#31852] Re: [ ruby-Bugs-14195 ] Array instance method include? speed can be increased — Urabe Shyouhei <shyouhei@...>

[#31853] optimize T_OBJECT space — Tanaka Akira <akr@...>

[#31854] Symbol.all_symbols — eklerni <eklerni@...>

[#31866] reading a pipe by multiple threads — Tanaka Akira <akr@...>

[#31870] marshal_dumpで不正なデータが書き出される — kumaryu <kumaryu@...>

[#31871] Process::WNOHANG — Tanaka Akira <akr@...>

[#31887] ruby 1.9 で ruby 1.9 はコンパイルできなかった — Martin Duerst <duerst@...>

[#31896] URI::LDAPS — Kouhei Sutou <kou@...>

[#31898] memory consumption on ext/dl build — Tanaka Akira <akr@...>

[#31900] platform-independent per-process initialization — Nobuyoshi Nakada <nobu@...>

[#31909] ipaddr — Kazuhiro NISHIYAMA <zn@...>

[#31911] eval("", TOPLEVEL_BINDING) and ObjectSpace._id2ref — Tanaka Akira <akr@...>

[#31912] exit status of ruby -v — Tanaka Akira <akr@...>

[#31913] SEGV: Fiber.new{ callcc{|c| @c = c } }.resume — Tanaka Akira <akr@...>

[#31914] m17nの全貌に関する何か — Masayoshi Takahashi <maki@...>

[ruby-dev:31897] Re: [m17n] String#encode

Thread

In This Thread

[#31759] SEGV by modifying members — Tanaka Akira <akr@...>