ruby-dev

遊楽庵です。

あの、前にも出してスルーされちゃった話で恐縮ですが…

> 変換していないのにトラブルが発生する理由がわかりません。そのようなトラブ
> ルが発生するケースとは、ビットマップデータをテキストボックスに突っ込むよ
> うな事態が起きてるってことですよね？
というご発言から考えて、成瀬さんは「Stringは必ず文字列である」とお考えの
ようですが、私は必ずしもそうではなくもっと広い概念で「文字列ではない
Stringも存在する」と思っています。
蒸し返してすみませんけど、そういう「文字列でないString」のための
「正しい」encodingとしての「binary」(でも「identity」でもいいですけど)を
用意することは考えられないでしょうか。

NARUSE, Yui さんは書きました:
> 成瀬です。
> 
> Hidetoshi NAGAI wrote:
>> From: Tanaka Akira <akr@fsij.org>
>> Subject: [ruby-dev:33080] Re: Binary String
>> Date: Mon, 14 Jan 2008 00:33:41 +0900
>> Message-ID: <87ejclkaeh.fsf@fsij.org>
>>> そういうときはやはり具体的な問題に立ち帰るのがいいんじゃない
>>> でしょうか。問題の具体例を示してみるのはどうでしょう?
>> 以下は「推測」とは別の話なので
>> 一例になるのかよく分からない点もありますが，
>> tk で生成する binary (identity) 文字列は
>> どうやって識別可能にしておけばいいのでしょうか？
> 
> で、本当に binary が識別可能じゃないとだめなの？ってのが疑問ですね。
> 
>> 生成された文字列には Ruby のオブジェクトに変換するための処理を
>> 適用した上で Ruby 側に渡してやる必要があります．
>> その際，Ruby 側での処理が楽になるように，
>> 文字列はデフォルトの encoding で渡すようにしています．
> 
> default_external が、tcl/tk を呼び出すスクリプトの内部エンコーディングと
> 等しいとは限らない気がします。スクリプトを書く人が CSI に作ってくれてい
> るならば綺麗に動くのでしょうが、実際は default_external は Windows-31J
> で 内部は UTF-8 とかこれからは多そうな気が。まぁ、蛇足ですが。
> 
>> 通常の文字列であれば変換処理を適用すべきですが，
>> binary (identity) 文字列であればそのまま渡さねばなりません．
>> また，Ruby 側に渡した文字列は Tk 側を呼ぶ際に
>> そのまま使われる可能性があります．
>> binary (identity) 文字列であればもちろん加工なしに渡さねばなりません．
>>
>> この変換処理の判定をすべてのケースについて記述しようとすると，
>> コードの量が極度に増えてしまう危険性が大きく，
>> 新しい Tcl/Tk の機能/属性に対してもその度に対応作業が
>> 必要になる可能性も高まるため，避ける必要があります．
> 
> ソースをざっと見ただけなので間違っているかもしれませんが、本当にそうです
> か。tk_call_without_enc とかの binary 版を作れば解決したりしませんかね。
> 
>> この際，Ruby 側のデフォルトの encoding が 
>> ASCII-8BIT なりうるとすると，どうすべきなのでしょうか？
>> 多分，「変換しなければいい」とおっしゃるのだろうとは思いますが，
>> Ruby と Tk との間で渡したり渡されたりの中で
>> 区別できなくなっていることによるトラブル発生への心配を
>> どうしても拭いきれません．
> 
> 変換していないのにトラブルが発生する理由がわかりません。そのようなトラブ
> ルが発生するケースとは、ビットマップデータをテキストボックスに突っ込むよ
> うな事態が起きてるってことですよね？
> 
>> Tk が認識 or 保持しているデフォルトの encoding は
>> そのユーザの GUI 環境において普通の encoding であり，
>> 通常はその encoding を使っているというように推測するのは
>> さほどおかしな事とは思えません．
>> Ruby の default_external が未定義の状態にある場合にのみ
>> (識別できるなら「未定義」の文字列に対してのみ) 
>> Tk のデフォルトを参照しようということですので，
>> 問題はないと考えます．
> 
> * 最近は locale に関わらず内部 Unicode なのでは
> * locale_charmap がとれない場合は US-ASCII になった [ruby-dev:33078]
> * ASCII-8BIT が返ってくる場合は、Ruby の知らない encoding のみ
> * Tcl/Tk が知っていて Ruby が知らないのは KOI8-U のみ
> 
> KOI8-UはKOI8とKOI8-Rどちらのreplicaにすればわからなかったので保留してい
> ましたが、Wikipediaにどっちとも違うと載っていたので適当にいじってそのう
> ち対応させます。
> 
>> なぜ binary であることを示す identity が外されているのでしょうか？
>> generic/tclEncoding.c で initial encoding の筆頭で定義されています．
> 
> default_external の文脈ですから、文字列に対する encoding のことでしょう。
> 
>>> 難しい救済に挑戦するよりは、定義しちゃったほうが、tk 以外で
>>> も幸せになれますし、いいのではないかと思います。
>> はい．
>> 他の encoding の alias ではない形での identity も含めて
>> 定義していただけるなら，幸せになれます．(^_^)
>> Tk 上で「binary である」と規定されている identity を，
>> Ruby 上で「binary であるとは限らない」とされている 
>> ASCII-8BIT の alias として定義されてしまうのは困ります．
> 
> この「定義」って CP936 と CP949 のことでは。で、これはもう Ruby 側で対応
> しました。
> 
>> # グリフが明らかに違うのに同じコードにされてしまった
>> # 日中の「骨」のように．(^_^)
> 
> 一応解説。Unicode という存在の解釈の仕方はいろいろあるのですが、その一つ
> として、Internationalization のためのものではなく、Globalization のため
> のものであると。つまり、日本語の文字列と中国語の文字列が同時に一つの文章
> には混在しないので、グリフが違っても問題ないのですよ。なので、Unicode を
> 使うときは言語情報も付加させないとだめですよというお話です。もしそれが問
> 題だと思うのならばグリフが同じでも中国語の文字と日本語の文字は別にするべ
> きで（厳密な同定が事実上困難だとか他の異体字との兼ね合いだとかグリフが同
> じでも意味が違えば違う字だろうとか、んじゃ意味が同じとは何かとか）、それ
> は ISO 2022 だとか ISO 10646 原案のような方向になりますな。
> 
>> え〜っと，ASCII-8BIT 以外は「未定義」ではないのですよね？
> 
> 定義しないと振られませんね。
> 
>> スクリプトの encoding は明示するようにするのが基本で，
>> 明示がなければ default_external とする (これは未決定？) のですよね？
> 
> 違います、magic comment の指定されていないスクリプトの文字列リテラルのエ
> ンコーディングは ASCII-8BIT です。
> 
>> で，default_external は encoding が決定できない場合のみに
>> ASCII-8BIT に設定され，
> 
> 前述のとおり、Rubyが知らない encoding が来た場合のみになりました。
> 
>> その場合に encoding を指定せずに生成した
>> 文字列のみが「未定義」となる (ASCII-8BIT を明示した文字列は「定義済」)
>> というように考えていたのですが，間違っていますか？
> 
> 生成がどこで行われているかは大きな問題です。外部からの入力、文字列リテラ
> ルが大きなものでしょうが、他に Integer#chr とか Array#pack だとか。
> 
>> # 私がはっきりしていないばかりに，
>> # 二種類の対応策についての議論が明確に切り分けられずに進んでいて，
>> # 混乱した状態になってしまっているのかも．．．
> 
> 端的にいえば、問題がどこにあるのか把握なさってないのではないのでしょう
> か。問題が変換についてだけなら、ソースを見た感じ、
> * バイナリデータな string を受けるときはメソッドを変える
> * 変換してほしくない文字列は UTF-8 にしてしまう (なんか hack ぽいけど)
> * ASCII-8BIT は変換しない (Ruby 側で予め encoding を設定してもらう)
> のどれかで解決するでしょう。
> 
> 逆に永井さんのおっしゃるアプローチで BINARY を新たに定義したとしても、バ
> イナリを期待するメソッドに外から ASCII-8BIT でデータををつっこまれれば自
> 動変換がかかって終了ですし、そこを突破しても BINARY と ASCII-8BIT の　
> string の結合を試みた時点で死にます。
> 
> 遠回りに見えるかもしれませんが、encoding を正しく設定してもらうのが実際
> は一番の近道だと思いますよ。こちらのアプローチで気をつけるのは常に Ruby
> の対応文字コード (ここでの「対応」は名前を知ってさえいればそれで足りる)
> が Tcl/Tk を内包するようにすることだけですし。
> 

--------------------------------------
Easy + Joy + Powerful = Yahoo! Bookmarks x Toolbar
http://pr.mail.yahoo.co.jp/toolbar/

Thread

Prev Next

In This Thread

Prev Next

[#32910] NKF,Kconv — Kazuhiro NISHIYAMA <zn@...>

[#32913] openの"b"とencoding — Kazuhiro NISHIYAMA <zn@...>

[#32922] SEGV by regexp match in while loop — Tanaka Akira <akr@...>

[#32932] extend Tempfile — Tanaka Akira <akr@...>

[#32935] queue and timeout — Tanaka Akira <akr@...>

[#32940] ripper cannot build on win32 — yukimi_sake <yukimi_sake@...>

[#32945] Shift_JIS variants and UTF-16 support — "U.Nakamura" <usa@...>

[#32946] replica と alias の違い(encoding) — KIMURA Koichi <kimura.koichi@...>

[#32957] SEGV by Symbol#match — "Hiroyuki Iwatsuki" <don@...>

[#32970] rb_thread_create()の中でmodule_eval — Kouhei Sutou <kou@...>

[#32979] BOM of UTF-８ — KIMURA Koichi <hogemuta@...>

[#32987] error with open-uri (instance_eval?) — "U.Nakamura" <usa@...>

[#32988] Re: [ruby-cvs:22194] Ruby:r14957 (trunk): * encoding.c (rb_enc_init): UTF-{16,32}{BE,LE} are not builtin. — Yukihiro Matsumoto <matz@...>

[#32992] ASCII is alias of US-ASCII; replica of dummy encoding is not a dummy — "NARUSE, Yui" <naruse@...>

[#32996] binmode and ASCII-8BIT — Kazuhiro NISHIYAMA <zn@...>

[#33058] Time.mktime — Tadayoshi Funaba <tadf@...>

[#33059] time.rb — Tadayoshi Funaba <tadf@...>

[#33060] Shellwords alias bug? — Masahiro Kawato <m-kawato@...>

[#33061] rational 1.18 — Tadayoshi Funaba <tadf@...>

[#33069] Re: [ruby-cvs:22244] Ruby:r15007 (trunk): * enc/make_encdb.rb: added. search enc/*.c and make encoding database. — Yukihiro Matsumoto <matz@...>

[#33072] Segmentation fault when File.open — Jun Mukai <mukai@...>

[#33076] Encoding.compatible? and dummy encodings — sheepman <sheepman@...>

[#33078] NEW REPLICA ENCODINGS AND ENCODING ALIASES — "NARUSE, Yui" <naruse@...>

[#33079] A patch for the manpage and ruby -h — Yugui <yugui@...>

[#33088] IO#gets with limit — sheepman <sheepman@...>

[#33095] Coerce via aliased methods — Yugui <yugui@...>

[#33097] Re: [ruby-cvs:22286] Ruby:r15049 (trunk): * configure.in (setup): add -I$(EXTOUT)/$(arch) to MINIRUBY. — "U.Nakamura" <usa@...>

[#33101] String#valid_encoding? shoud be strict? — Masayoshi Takahashi <maki@...>

[#33111] us_ascii.o: No such file or directory — Martin Duerst <duerst@...>

[#33124] Thread#priority= does not work — "Yusuke ENDOH" <mame@...>

[#33129] uninitialized constant Encoding::ASCII_8BIT (NameError) — Tanaka Akira <akr@...>

[#33130] 1.9.0 をコンパイルしてみた — Shin-ichiro HARA <sinara@...>

[#33136] enc_register_at should use strdup — sheepman <sheepman@...>

[#33139] Bignum#* might invoke GC parallelly? — "Yusuke ENDOH" <mame@...>

[#33142] eval(str.dump)==str — Kazuhiro NISHIYAMA <zn@...>

[#33156] default script encoding and -K option — sheepman <sheepman@...>

[#33159] the encoding of StringIO.new — sheepman <sheepman@...>

[#33164] default encoding for Marshal.load — "Shugo Maeda" <shugo@...>

[#33173] should initialize the group of threads — sheepman <sheepman@...>

[#33185] コンパイルの問題 (r15218) — Martin Duerst <duerst@...>

[#33189] nonlinear performance of each_char — Tanaka Akira <akr@...>

[#33191] Re: [ruby-cvs:22367] Ruby:r15130 (trunk): * enc/koi8_u.c: added. — Tanaka Akira <akr@...>

[#33211] each_char — Tanaka Akira <akr@...>

[#33218] Re: Ruby1.9String バイト列へのインデックス アクセス — "Hisanori Kiryu" <hkiryu@...>

[#33221] encoding of Iconv::Failure#success — Tanaka Akira <akr@...>

[#33224] printf "%0x" — Tanaka Akira <akr@...>

[#33226] [PATCH] warnings of enc/trans/utf_16_32.c — Nobuyoshi Nakada <nobu@...>

[#33231] each_char yields extra NUL — Tanaka Akira <akr@...>

[#33234] SEGV by test/ruby/test_io_m17n.rb — Tanaka Akira <akr@...>

[#33239] Re: [ruby-cvs:22386] Ruby:r15149 (trunk): * string.c (rb_str_each_char): move forward. — Tanaka Akira <akr@...>

[#33247] requests to transcode — "U.Nakamura" <usa@...>

[#33257] Bignum#quo may cause infinite loop — "Yusuke ENDOH" <mame@...>

[#33258] exhaustive test for bignum.c — "Yusuke ENDOH" <mame@...>

[#33261] Local variables in ChangeLog — Kazuhiro NISHIYAMA <zn@...>

[#33264] Marshal.load fails on LANG=ja_JP.EUC-JP — Tanaka Akira <akr@...>

[#33265] backported GC.stress for 1.8 — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#33273] Re: [ruby-cvs:22404] Ruby:r15167 (trunk): * configure.in (MINIRUBY): remove -I$(EXTOUT)/$(arch) from — Tanaka Akira <akr@...>

[#33275] comment about sprintf %u — "Yusuke ENDOH" <mame@...>

[#33276] comment about Math#asin — "Yusuke ENDOH" <mame@...>

[#33279] ASCII-8BIT regexp — sheepman <sheepman@...>

[#33280] exhaustive tests for struct.c, sprintf.c and math.c — "Yusuke ENDOH" <mame@...>

[#33282] fronzen string cannot unpack("p") — Nobuyoshi Nakada <nobu@...>

[#33303] Time#strftimeのエンコーディング — rubikitch@...

[#33328] can modify array during iteration — "Yusuke ENDOH" <mame@...>

[#33340] Can large scale projects be successful implemented around a dynamic programming language? — Jordi <mumismo@...>

[#33354] Re: [ruby-cvs:22447] Ruby:r15210 (trunk): * io.c (rb_io_getline_fast): the end point of left_char_head() — "U.Nakamura" <usa@...>

[#33359] printf "%#o\n", 0 — Tanaka Akira <akr@...>

[#33363] printf "%.0d\n", 0 — Tanaka Akira <akr@...>

[#33364] rdocのメモリ消費量がやばい — rubikitch@...

[#33367] printf "%#o\n", -1 — Tanaka Akira <akr@...>

[#33368] summary of script encoding — "U.Nakamura" <usa@...>

[#33377] Regexp#sourceのencoding — Kazuhiro NISHIYAMA <zn@...>

[#33380] Re: [ruby-cvs:22481] Ruby:r15244 (trunk): * string.c (rb_str_usascii_new{,2}: defined. — Tanaka Akira <akr@...>

[#33387] HashからStructを作る — rubikitch@...

[#33388] void value expression — SASADA Koichi <ko1@...>

[#33392] Re: [ruby-cvs:22482] Ruby:r15245 (trunk): * compile.c, compile.h: fix stack pointer issues. — Tanaka Akira <akr@...>

[#33399] regexp match /.../n against to UTF-8 string — Tanaka Akira <akr@...>

[#33400] /#{}/e.encoding — Tanaka Akira <akr@...>

[#33401] _dump and encoding with marshal — Tanaka Akira <akr@...>

[#33403] wrapped String#gsub — "Park Ji-In" <tisphie@...>

[#33218] Re: Ruby1.9String 　バイト列へのインデックス　アクセス — "Hisanori Kiryu" <hkiryu@...>