ruby-dev

In article <20080112.100830.112615025.nagai@ai.kyutech.ac.jp>,
  Hidetoshi NAGAI <nagai@ai.kyutech.ac.jp> writes:

> 自分自身でも何が何だか分からなくなってきたので，
> 質問を一旦整理してみます．

そういうときはやはり具体的な問題に立ち帰るのがいいんじゃない
でしょうか。問題の具体例を示してみるのはどうでしょう?

> まず最初に，
>
>  * encoding が未定義ならば，デフォルトを使って救済してあげたいと
>    考えるのは「悪」か？

かなり筋が悪いと思います。

ここでいうデフォルトというのは要するに locale で使われるエン
コーディングですよね。つまり、テキストで知らない名前のエンコー
ディングだったらそれは locale に従っているという推測を行うと
いうわけです。

これは、特定の locale に従って動いているシステムの内部で生成
されたデータであれば、正しい推測となります。

しかし、ひとつの locale ですべてが処理される、というのは幻想
であり、ひとつのシステム内で複数の locale が同時に扱われると
いうことはよくありますし、さらには、外部のシステムが同じ
locale であるとはまったく保証できません。

外部のシステムとの通信で良くあるのは MIME でしょう。たとえば、
メールや HTTP です。受け取ったデータの charset パラメータに
知らない名前が書いてあった時、永井さんのいう、文字列の
encoding が未定義という状態になります。
(encoding は定義すると GC されずメモリを確保しっぱなしになる
ため、その名前の dummy encoding は定義しないこととします)

この場合、locale に従っているという推測は正しくありません。

一般に locale に従うという推測は正しいとは限りませんから、
そのような推測を行うのはなるべく状況証拠があるときに限定すべ
きです。状況証拠というのは、たとえば、端末から読み込んだデー
タである、とかです。それだって正しいとは限りませんが、MIME
でどこかから来たデータが locale に従うというよりはずいぶんと
ありそうなことだと思います。このような状況証拠はデータを読み
込むところが一番良く知っていて、処理が進むとどんどん消えてい
きます。

tk のような、データがどこから来たのかわからない部分で推測を
行うのは避けたほうがいいのではないでしょうか。

> Ruby 1.8 の Ruby/Tk では救済を図る方針でやってました．
> しかし Ruby 1.9 では，救済を考えること自体が「悪」であり
> 「小さな親切，大きなお世話」であるというのであれば，
> どうしようもありません．

外界との情報のやりとりの大部分に文字の情報がついているように
ならない限り、救済自体は必要でしょう。しかし、その救済は適切
な救済ができそうなところで行うべきです。そして、それができそ
うなところは、データが読み込まれるところであり、tk にデータ
を送り込むところは違うのではないかと思います。

さて、tcl 8.5.0 の library/encoding/ をいくらか眺めてみまし
た。間違っていたら指摘してください。

ASCII 互換で単一バイトなエンコーディングは ASCII-8BIT の
replica として定義すればそれなりに動きます。
この範疇にあるのは (Ruby や Oniguruma に定義があるものも含め
て) 以下の通りです。
ascii, cp437, cp737, cp775, cp850, cp852, cp855, cp857,
cp860, cp861, cp862, cp863, cp864, cp865, cp866, cp869,
cp874, cp1250, cp1251, cp1252, cp1253, cp1254, cp1255,
cp1256, cp1257, cp1258, gb1988, iso8859-1, iso8859-2,
iso8859-3, iso8859-4, iso8859-5, iso8859-6, iso8859-7,
iso8859-8, iso8859-9, iso8859-10, iso8859-13, iso8859-14,
iso8859-15, iso8859-16, jis0201, koi8-r, koi8-u,
macCentEuro, macCroatian, macCyrillic, macGreek, macIceland,
macJapan, macRoman, macRomania, macThai, macTurkish,
macUkraine, tis-620

ASCII 互換なマルチバイトエンコーディングは以下の通りです。
この中で、cp936 (GBK) と cp949 (EUC-KR の MS 拡張) は
Oniguruma にもなくて、定義が必要そうです。
cp932, cp936, cp949, cp950, euc-cn, euc-jp, euc-kr, big5,
gb2312, shiftjis

マルチバイトな文字セットをそのまま扱う、ASCII 互換でないのは
以下の通りです。
gb12345, gb2312-raw, jis0208, jis0212, ksc5601

ASCII 互換でない単一バイトなエンコーディングは以下の通りです。
ebcdic, dingbats, macDingbats, symbol

stateful なエンコーディングは以下の通りです。
iso2022-jp, iso2022-kr, iso2022

こうやって分類してみると、locale のエンコーディングになりそ
うなのは ASCII 互換なものと ebcdic だけに見えます。

マルチバイトな文字セットそのままのもの (jis0208 とか) は
portable character set が 1バイトで表現できないといけないと
いう POSIX の規約に反します。

dingbats などの記号類は portable character set を表現できず、
これも POSIX に反します。

stateful なのは POSIX 的にはいちおう許されているような気がす
るのですが、実装はありましたっけ?  まぁ、少なくとも実際によ
く使われているようには思えません。

ここで Ruby は EBCDIC を扱わないので ebcdic はやめておくとす
れば、残りの中で replica で済まないものは cp936 と cp949 だ
けではないでしょうか。

難しい救済に挑戦するよりは、定義しちゃったほうが、tk 以外で
も幸せになれますし、いいのではないかと思います。

>  * 未定義と定義済とは区別できるべきではないのか？

さて。

区別が可能だとして、区別するとどのくらい嬉しいことがあって、
どのくらい厄介なことがあるのか、という問題になります。

tk で嬉しいことがあるというのはそうなんでしょう。

私の懸念は区別する手間です。文字列を生成するときにどちらにす
るか、また、正規表現とどうマッチさせるかといった操作など、tk
にたどり着くまでに文字列に対して扱われる処理にどのような手間
が増えるかという点に懸念を持っています。

たとえば、文字列を生成するときに、それが tk にたどりつくかど
うかもわからないのに、ちゃんとどちらにすべきなのか判断できる
のか、とか。

いまのところ大変になるという確信があるわけではないんですが。

でも、もともと tk の API でバイナリを要求するかテキストを要
求するかの情報が欠けているというところから問題が発生している
ので、情報を提供するのは tk の近くのほうが適切なのではないか
という気はしています。

> 「binary の導入を」という希望は，
> 未定義と定義済との区別がなされていないように見える現状に対し，
> せめて「(未定義or定義済)と定義済」の区別ができるようにしてほしい
> というものです．
> 
> ですので，例えば未定義 == dummy encoding であり，
> それによって「未定義と定義済」の区別ができるのであれば
> binary == ASCII-8BIT でも何ら不満はありません．

文字列を受け取る側としては区別できるようにしてほしいのでしょ
うが、文字列を生成する側はどうでしょうか。区別して生成し分け
るのは簡単だと思いますか?
-- 
[田中 哲][たなか あきら][Tanaka Akira]

Thread

Prev Next

In This Thread

Prev Next

[#32910] NKF,Kconv — Kazuhiro NISHIYAMA <zn@...>

[#32913] openの"b"とencoding — Kazuhiro NISHIYAMA <zn@...>

[#32922] SEGV by regexp match in while loop — Tanaka Akira <akr@...>

[#32932] extend Tempfile — Tanaka Akira <akr@...>

[#32935] queue and timeout — Tanaka Akira <akr@...>

[#32940] ripper cannot build on win32 — yukimi_sake <yukimi_sake@...>

[#32945] Shift_JIS variants and UTF-16 support — "U.Nakamura" <usa@...>

[#32946] replica と alias の違い(encoding) — KIMURA Koichi <kimura.koichi@...>

[#32957] SEGV by Symbol#match — "Hiroyuki Iwatsuki" <don@...>

[#32970] rb_thread_create()の中でmodule_eval — Kouhei Sutou <kou@...>

[#32979] BOM of UTF-８ — KIMURA Koichi <hogemuta@...>

[#32987] error with open-uri (instance_eval?) — "U.Nakamura" <usa@...>

[#32988] Re: [ruby-cvs:22194] Ruby:r14957 (trunk): * encoding.c (rb_enc_init): UTF-{16,32}{BE,LE} are not builtin. — Yukihiro Matsumoto <matz@...>

[#32992] ASCII is alias of US-ASCII; replica of dummy encoding is not a dummy — "NARUSE, Yui" <naruse@...>

[#32996] binmode and ASCII-8BIT — Kazuhiro NISHIYAMA <zn@...>

[#33058] Time.mktime — Tadayoshi Funaba <tadf@...>

[#33059] time.rb — Tadayoshi Funaba <tadf@...>

[#33060] Shellwords alias bug? — Masahiro Kawato <m-kawato@...>

[#33061] rational 1.18 — Tadayoshi Funaba <tadf@...>

[#33069] Re: [ruby-cvs:22244] Ruby:r15007 (trunk): * enc/make_encdb.rb: added. search enc/*.c and make encoding database. — Yukihiro Matsumoto <matz@...>

[#33072] Segmentation fault when File.open — Jun Mukai <mukai@...>

[#33076] Encoding.compatible? and dummy encodings — sheepman <sheepman@...>

[#33078] NEW REPLICA ENCODINGS AND ENCODING ALIASES — "NARUSE, Yui" <naruse@...>

[#33079] A patch for the manpage and ruby -h — Yugui <yugui@...>

[#33088] IO#gets with limit — sheepman <sheepman@...>

[#33095] Coerce via aliased methods — Yugui <yugui@...>

[#33097] Re: [ruby-cvs:22286] Ruby:r15049 (trunk): * configure.in (setup): add -I$(EXTOUT)/$(arch) to MINIRUBY. — "U.Nakamura" <usa@...>

[#33101] String#valid_encoding? shoud be strict? — Masayoshi Takahashi <maki@...>

[#33111] us_ascii.o: No such file or directory — Martin Duerst <duerst@...>

[#33124] Thread#priority= does not work — "Yusuke ENDOH" <mame@...>

[#33129] uninitialized constant Encoding::ASCII_8BIT (NameError) — Tanaka Akira <akr@...>

[#33130] 1.9.0 をコンパイルしてみた — Shin-ichiro HARA <sinara@...>

[#33136] enc_register_at should use strdup — sheepman <sheepman@...>

[#33139] Bignum#* might invoke GC parallelly? — "Yusuke ENDOH" <mame@...>

[#33142] eval(str.dump)==str — Kazuhiro NISHIYAMA <zn@...>

[#33156] default script encoding and -K option — sheepman <sheepman@...>

[#33159] the encoding of StringIO.new — sheepman <sheepman@...>

[#33164] default encoding for Marshal.load — "Shugo Maeda" <shugo@...>

[#33173] should initialize the group of threads — sheepman <sheepman@...>

[#33185] コンパイルの問題 (r15218) — Martin Duerst <duerst@...>

[#33189] nonlinear performance of each_char — Tanaka Akira <akr@...>

[#33191] Re: [ruby-cvs:22367] Ruby:r15130 (trunk): * enc/koi8_u.c: added. — Tanaka Akira <akr@...>

[#33211] each_char — Tanaka Akira <akr@...>

[#33218] Re: Ruby1.9String バイト列へのインデックス アクセス — "Hisanori Kiryu" <hkiryu@...>

[#33221] encoding of Iconv::Failure#success — Tanaka Akira <akr@...>

[#33224] printf "%0x" — Tanaka Akira <akr@...>

[#33226] [PATCH] warnings of enc/trans/utf_16_32.c — Nobuyoshi Nakada <nobu@...>

[#33231] each_char yields extra NUL — Tanaka Akira <akr@...>

[#33234] SEGV by test/ruby/test_io_m17n.rb — Tanaka Akira <akr@...>

[#33239] Re: [ruby-cvs:22386] Ruby:r15149 (trunk): * string.c (rb_str_each_char): move forward. — Tanaka Akira <akr@...>

[#33247] requests to transcode — "U.Nakamura" <usa@...>

[#33257] Bignum#quo may cause infinite loop — "Yusuke ENDOH" <mame@...>

[#33258] exhaustive test for bignum.c — "Yusuke ENDOH" <mame@...>

[#33261] Local variables in ChangeLog — Kazuhiro NISHIYAMA <zn@...>

[#33264] Marshal.load fails on LANG=ja_JP.EUC-JP — Tanaka Akira <akr@...>

[#33265] backported GC.stress for 1.8 — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#33273] Re: [ruby-cvs:22404] Ruby:r15167 (trunk): * configure.in (MINIRUBY): remove -I$(EXTOUT)/$(arch) from — Tanaka Akira <akr@...>

[#33275] comment about sprintf %u — "Yusuke ENDOH" <mame@...>

[#33276] comment about Math#asin — "Yusuke ENDOH" <mame@...>

[#33279] ASCII-8BIT regexp — sheepman <sheepman@...>

[#33280] exhaustive tests for struct.c, sprintf.c and math.c — "Yusuke ENDOH" <mame@...>

[#33282] fronzen string cannot unpack("p") — Nobuyoshi Nakada <nobu@...>

[#33303] Time#strftimeのエンコーディング — rubikitch@...

[#33328] can modify array during iteration — "Yusuke ENDOH" <mame@...>

[#33340] Can large scale projects be successful implemented around a dynamic programming language? — Jordi <mumismo@...>

[#33354] Re: [ruby-cvs:22447] Ruby:r15210 (trunk): * io.c (rb_io_getline_fast): the end point of left_char_head() — "U.Nakamura" <usa@...>

[#33359] printf "%#o\n", 0 — Tanaka Akira <akr@...>

[#33363] printf "%.0d\n", 0 — Tanaka Akira <akr@...>

[#33364] rdocのメモリ消費量がやばい — rubikitch@...

[#33367] printf "%#o\n", -1 — Tanaka Akira <akr@...>

[#33368] summary of script encoding — "U.Nakamura" <usa@...>

[#33377] Regexp#sourceのencoding — Kazuhiro NISHIYAMA <zn@...>

[#33380] Re: [ruby-cvs:22481] Ruby:r15244 (trunk): * string.c (rb_str_usascii_new{,2}: defined. — Tanaka Akira <akr@...>

[#33387] HashからStructを作る — rubikitch@...

[#33388] void value expression — SASADA Koichi <ko1@...>

[#33392] Re: [ruby-cvs:22482] Ruby:r15245 (trunk): * compile.c, compile.h: fix stack pointer issues. — Tanaka Akira <akr@...>

[#33399] regexp match /.../n against to UTF-8 string — Tanaka Akira <akr@...>

[#33400] /#{}/e.encoding — Tanaka Akira <akr@...>

[#33401] _dump and encoding with marshal — Tanaka Akira <akr@...>

[#33403] wrapped String#gsub — "Park Ji-In" <tisphie@...>

[#33218] Re: Ruby1.9String 　バイト列へのインデックス　アクセス — "Hisanori Kiryu" <hkiryu@...>