ruby-dev

中田さん、こんにちは。

At 16:43 07/12/13, Nobuyoshi Nakada wrote:
>なかだです。
>
>At Thu, 13 Dec 2007 13:27:57 +0900,
>Martin Duerst wrote in [ruby-dev:32572]:
>> >transcoderを拡張ライブラリに出してみました。ext/とは別にしたほう
>> >がいいかもしれませんが。
>> 
>> その通りだと思います。これからデータのファイルが増えるので、
>> メインのところにはちょっと不便ですが、ext にするといちいち
>> require が必要になると思いますが、これはとても不便だと思います。
>> require が必要になったら結局 String#encode が定義されているが、
>> require しないと使えない、という不思議な現象になってしまうでしょう。
>
>requireは自動的に行うように考えています。

パッチを最後まで読んだところでそれができている様な来もしました。

>> ファイルの場所を考えると、enc の中、もしくは enc/trans では
>> いいのではないかと思います。
>
>最初はenc/transを考えていたのですが、結局やることはextと同じなの
>で、とりあえず手を抜きました。
>
>> >include/ruby/transcode.hとext/enc/trans/iso_8859/iso_8859.cは、
>> >それぞれtranscode_data.hとtranscode_data_iso_8859.cをsvn mv した
>> >ものです。
>> 
>> 細かいところだけいいますと、/iso_8859/ の部分は要らないと思います。
>> ファイル一つだけのためのディレクトリは余り意味がないと思います。
>
>extmk.rbで扱うための手抜きの他に、複数ファイルに分ける場合がある
>かもしれないということです。
>
>> しかも、iso-8859 見たいに標準にそってファイルをまとめることに
>> は長期的にはならないと思います。データの効率を考えると文字種
>> (例えば Latin、Greek、など) にそってまとめた方がいいと思います。
>
>これはちょっとよくわからなかったんですが、たとえばLatin文字セッ
>トの各encodingでのcodepoint表を作る、といったことでしょうか。
>
>言語ごとに作業を分けられるというメリットがあるかと思いますが、
>String#encodeでの指定などはどういう風になるんでしょうか。

作業の話のではなく、データの話です。似たような文字を扱うコード変換で
データをある程度共用できますので、例えば iso-8859-1 (文字種: Latin)
と iso-8859-7 (ASCII 以外の文字種: Greek) を一緒にするのではなく、
iso-8859-1 と windows-1252 を一緒にした方がいいです。現在の
データ構造だとこれはなぜだろうかということは見えないが、次の
段で見えてくると思います。いずれ今のところどの文字コードはどのぐらい
のデータが必要になるのか、どの文字コードを共通のファイルにするのか、
大体一発ロードするものでは何キロバイトぐらいが適切なのか
(極端に rubygems でメガ単位で増えたとしたら文字コード変換では
二三百キロでわさわさ動的にロードする必要がないという意見もある
かも知れませんので)、今ディレクトリに小分けするのは早すぎだと
思います。

>> 後は、(予定していた) transcode.h と (既に存在する) transcode_data.h
>> は別物として考えています。transcode.h はルビから使える機能を定義し、
>> transcode_data.h はデータ形式関係のものを定義し、ルビからは
>> アクセスしなくていいもの、という考え方です。
>
>了解です。
>
>> >-/* in the future, add some mechanism for dynamically adding stuff here */
>> >-#define MAX_TRANSCODERS 29  /* todo: fix: this number has to be adjusted 
>> >by hand */
>> >-static transcoder transcoder_table[MAX_TRANSCODERS];
>> >+static st_table *transcoder_table;
>> 
>> ハッシュにするのはありかと思います。
>
>
>
>> >+#define TRANSCODER_SEP '@'
>> 
>> これは内部だけの決まりだと思いましたが、ファイル名にまで使われているので、
>> 十分検討した方がいいと思います。
>
>requireするときには'/'に書き換えるということも可能でしょう。実際
>最初はそのようにしたんですが、ディレクトリが多すぎるように感じた
>のでこのようにしてみました。

'/' は確かにそういう問題になりますので止めた方がいいと思います。

>> >+    for (s = key; *s; ++s) {
>> >+      if (ISUPPER(*s)) *s = tolower(*s);
>> 
>> 今まで見たところで、ルビ内の Encoding は全部大文字になっていますので、
>> なぜでここで小文字にしますか。
>
>ライブラリ名は小文字という慣習が(おおむね)ありますので。
>

そうですね。Encoding そのものが大文字になっているのは
定数として使えるためでしょうか。この辺りも方針をはっきり
した方がいいと思います。

>> >+             rb_transcoding *my_transcoding)
>> > {
>> >     char *in_p = *in_pos, *out_p = *out_pos;
>> >-    const BYTE_LOOKUP *conv_tree_start = my_transcoder->conv_tree_start;
>> >+    const BYTE_LOOKUP *conv_tree_start = my_transcoder->transcode_arg;
>> 
>> 変数、メンバーの名前を変える必要がないと思います。
>
>抽象化のためです。rb_register_transcoder()に関数ポインタを渡すよ
>うにすることで、str_encode()とtranscode_loop()は直接の関係を持た
>なくなります。つまり、transcoderによってはtreeとはまったく異なる
>ものを使うことになるかもしれません。

考えていることはよく分かります。しかしこれから変換の色々な
機能 (例えば変換不可能なときの対応等) を追加するとすると、
それぞれの具体的な変換関数に似たようなものをどんどん追加する必要
になってしまって、かなりだぶることになりかねないです。
抽象化は勿論考えていますが、ちょっと違うやり方を予定しています。


>> > transcode_loop(char **in_pos, char **out_pos,
>> >              char *in_stop, char *out_stop,
>> >-             transcoder *my_transcoder,
>> >-             transcoding *my_transcoding)
>> >+             const rb_transcoder *my_transcoder,
>> >+             int from_utf8,
>> 
>> 変数を増やさない方がいいと思います。
>
>> >+void
>> >+rb_transcode_loop_from_utf8(char **in_pos, char **out_pos,
>> >+                          char *in_stop, char *out_stop,
>> >+                          const rb_transcoder *my_transcoder,
>> >+                          rb_transcoding *my_transcoding)
>> >+{
>> >+    transcode_loop(in_pos, out_pos, in_stop, out_stop,
>> >+                 my_transcoder, 1, my_transcoding);
>> >+}
>> >+
>> >+void
>> >+rb_transcode_loop_simple(char **in_pos, char **out_pos,
>> >+                      char *in_stop, char *out_stop,
>> >+                      const rb_transcoder *my_transcoder,
>> >+                      rb_transcoding *my_transcoding)
>> >+{
>> >+    transcode_loop(in_pos, out_pos, in_stop, out_stop,
>> >+                 my_transcoder, 0, my_transcoding);
>> >+}
>> >+
>> 
>> 関数を増やす必要が現在内と思います。
>
>transcode_loop()をコピーするよりは、フラグ引数のままのほうがよい
>だろうと思いました。

そうですね。でもそもそも関数を複数作る必要がありません。

>> >     /* for simple testing: */
>> >-    transcode_loop(&fromp, &bp, (sp+slen), (bp+blen), my_transcoder, 
>> >&my_transcoding);
>> >+    my_transcoder->transcode_loop(&fromp, &bp, (sp+slen), (bp+blen),
>> >+                                my_transcoder->transcode_arg, 
>&my_transcoding);
>> 
>> やりたいことが分かりますが、あくまでもデータ中心にやった方がいいと思います。
>
>テーブル駆動ということですか? iso-8859系とutf-8間ではそれがいい
>と思いますが、必ずしもそういう変換ばかりではありませんから。

いいたいことはよく分かります。例えば Shift_JIS と EUC-JP の変換とか
ですよね。心配しないでください。その辺りも考えています。

>> >Index: ext/enc/trans/iso_8859/lib/iso-8859-1@utf-8.rb
>> >===================================================================
>> >--- ext/enc/trans/iso_8859/lib/iso-8859-1@utf-8.rb     (revision 0)
>> >+++ ext/enc/trans/iso_8859/lib/iso-8859-1@utf-8.rb     (revision 0)
>> >@@ -0,0 +1 @@
>> >+require "enc/trans/iso_8859"
>> >Index: ext/enc/trans/iso_8859/lib/utf-8@iso-8859-1.rb
>> 
>> いちいち一行のファイルを作るのはちょっとやりすぎだと思います。
>> もうちょっといい方法はないのでしょうか。
>
>同感です。

何かいい方法はあるでしょうか。

>> このやり方でルビの内部でどの変換があるのか分からないという問題になる
>> のもよく分かります。これは例えば force_encoding の ([ruby-dev:32563]
>> など) と関係するだけではなく、utf-8 とか経由の二段階とかで変換するときにも
>> 問題になりそうです。
>
>変換パスを登録するDBのようなものが必要になりますかねぇ。

本当の DB の意味でしょうか。そうではなく何かのデータ構造に
前もって登録するように考えています。今のコードでいうと
(rb_)register_transcoder を Ruby 全体の init 時にやって、
そこにロードされているかどうかやデータのファイル名など
を追加する。

>> >+typedef struct {
>> >+    const BYTE_LOOKUP *conv_tree_start;
>> >+    int max_output;
>> >+} iso_8859_transcoder;
>> 
>> これは少なくともいまの段階で必要ないかと思います。
>
>1.9.1までには少なくとも日本語の変換も可能にしたいです。

もちろんそうです。心配しないでください。

宜しくお願いします。     Martin.


#-#-#  Martin J. Du"rst, Assoc. Professor, Aoyama Gakuin University
#-#-#  http://www.sw.it.aoyama.ac.jp       mailto:duerst@it.aoyama.ac.jp

Thread

Prev Next

In This Thread

Prev Next

[#32429] eval("\"\xfd".force_encoding("utf-8")) generages garbage in error message. — Tanaka Akira <akr@...>

[#32430] "wrong number of arguments (6 for 2)" by def m(a, b=:b, c, d, e) — Tanaka Akira <akr@...>

[#32432] eval("a"): illegal multibyte char — Tanaka Akira <akr@...>

[#32434] signature of exit() on C++ — "KISHIMOTO, Makoto" <ksmakoto@...4u.or.jp>

[#32447] ruby 1.9 trunk NKF and KCONV Encoding:ASCII-8BIT — WATANABE Tetsuya <Tetsuya.WATANABE@...>

[#32448] SEGV on "abcd\xf0".force_encoding("utf-8").reverse — Tanaka Akira <akr@...>

[#32451] -e:1:in `conv': no implicit conversion from nil to integer (TypeError) — Tanaka Akira <akr@...>

[#32452] `split': negative string size (or size too big) (ArgumentError) — Tanaka Akira <akr@...>

[#32459] Enumerator raises `dead fiber called' — "Yusuke ENDOH" <mame@...>

[#32462] SEGV by test/ruby/test_fiber.rb — Tanaka Akira <akr@...>

[#32468] Iconv.list patch for NetBSD/Citrus — "NARUSE, Yui" <naruse@...>

[#32473] about to_path and to_open — "Yusuke ENDOH" <mame@...>

[#32475] ext/tk/sample/tkextlib/vu/canvSticker2.rb — Tanaka Akira <akr@...>

[#32485] self-calling method dumps core — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#32493] Regexp#names, MatchData#names, MatchData#regexp — Tanaka Akira <akr@...>

[#32498] Re: [ruby-cvs:21399] Ruby:r14162 (trunk): * parse.y (expr): redefinable not (!) operator. — SASADA Koichi <ko1@...>

[#32502] :!@.inspect — Kazuhiro NISHIYAMA <zn@...>

[#32509] ruby-core:13961での問題(Error while bulding Ruby 1.9 from snapshot 2007/12/09) — KIMURA Koichi <kimura.koichi@...>

[#32512] Re: [ruby-cvs:21409] Ruby:r14172 (trunk): * transcode.c: new file to provide encoding conversion features. — Nobuyoshi Nakada <nobu@...>

[#32514] typo in lib/uri/common.rb — Ueda Satoshi <s-ueda@...>

[#32518] bug in Array#slice! — Satoshi Nakagawa <snakagawa@...>

[#32531] eigenmethod definition for BasicObjects dumps core — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#32536] timezone 関数が cygwin で見つかりません — Martin Duerst <duerst@...>

[#32550] Binary String — Hidetoshi NAGAI <nagai@...>

[#32556] default completion for irb1.9 — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#32563] transcoder loading — Nobuyoshi Nakada <nobu@...>

[#32565] Re: [ruby-cvs:21436] Ruby:r14199 (trunk): * io.c (rb_io_check_readable): set default external encoding to — Tanaka Akira <akr@...>

[#32566] hang with write — Tanaka Akira <akr@...>

[#32567] [nil, [...]] — Tanaka Akira <akr@...>

[#32569] Re: [ruby-cvs:21441] Ruby:r14204 (trunk): * io.c (rb_io_getc): use default external encoding if fptr->enc is — Tanaka Akira <akr@...>

[#32581] expandarray may mark dirty VALUE beyond stack — "Yusuke ENDOH" <mame@...>

[#32585] SEGV by IO.pipe — Tanaka Akira <akr@...>

[#32588] /(?<foo>...)/ =~ str assigns foo — Tanaka Akira <akr@...>

[#32590] Circular dependency on AIX — "Yutaka Kanemoto" <kinpoco@...>

[#32604] stack overflow by GC in a thread — Tanaka Akira <akr@...>

[#32606] encoding loading — Nobuyoshi Nakada <nobu@...>

[#32608] $! == 8 — Tanaka Akira <akr@...>

[#32609] Re: [ruby-cvs:21475] Ruby:r14238 (trunk): * configure.in (enc/Makefile): add external encoding objects list. — Yukihiro Matsumoto <matz@...>

[#32610] 1.9.1 issues left (as of 12/15) — Yukihiro Matsumoto <matz@...>

[#32622] binding of caller — Nobuyoshi Nakada <nobu@...>

[#32624] rss and base64 — Tanaka Akira <akr@...>

[#32625] Re: [ruby-cvs:21528] Ruby:r14292 (trunk): more tests. — Yukihiro Matsumoto <matz@...>

[#32628] Bignum#to_s doesn't check base — "Yusuke ENDOH" <mame@...>

[#32629] faster Bignum#* — "Yusuke ENDOH" <mame@...>

[#32631] Cygwin 上で Ruby最新版 をインストールする場合 — "Koji Tominaga" <crimsonshower@...>

[#32636] Re: [ruby-cvs:21552] Ruby:r14315 (trunk): * ext/nkf/nkf.c (NKF::_ENCODING): removed. — Tanaka Akira <akr@...>

[#32640] inspect closed dir. — Tanaka Akira <akr@...>

[#32641] interrupt in * — Tanaka Akira <akr@...>

[#32644] unparenthesized method call with block — "Yusuke ENDOH" <mame@...>

[#32645] unparenthesized method call with block — "Yusuke ENDOH" <mame@...>

[#32662] encode! は変換しないときに <nil> になってしまう。 — Martin Duerst <duerst@...>

[#32665] Net::POP3#enable_sslの仕様変更 — Shugo Maeda <shugo@...>

[#32668] syntax errors on ext/tk/sample — "U.Nakamura" <usa@...>

[#32675] /(?<break>a)/ =~ "a" 等によるローカル変数 — "Keita Yamaguchi" <keita.yamaguchi@...>

[#32677] nil.freeze in date.rb — Shugo Maeda <shugo@...>

[#32680] fail to compile version.c in trunk — Masaki Suketa <masaki.suketa@...>

[#32685] test/webrick/test_server.rb hang — Tanaka Akira <akr@...>

[#32686] enum_inject の説明文 — "Keita Yamaguchi" <keita.yamaguchi@...>

[#32687] Re: [ruby-cvs:21753] Ruby:r14516 (trunk): * lib/time.rb (Time.httpdate): use Time.utc for — Tadayoshi Funaba <tadf@...>

[#32691] Why only inject() accepts :symbols as if it's a Proc in Enumerable? — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#32693] String#== is not transitive — Tanaka Akira <akr@...>

[#32695] ISO-2022-JP output for transcode — "NARUSE, Yui" <naruse@...>

[#32699] cygwin 上で r14576 現在の test の失敗 — Martin Duerst <duerst@...>

[#32706] Fwd: RDoc: [FATAL] failed to allocate memory — Martin Duerst <duerst@...>

[#32708] Enumerable can't take multiple parameters — GOTOU Yuuzou <gotoyuzo@...>

[#32709] Re: [ruby-cvs:21826] Ruby:r14589 (trunk): Mon Dec 24 17:20:34 2007 NAKAMURA, Hiroshi <nahi@ruby-lang.org> — Tadayoshi Funaba <tadf@...>

[#32710] \e — "U.Nakamura" <usa@...>

[#32713] pre-release note for the christmas release. — Yukihiro Matsumoto <matz@...>

[#32715] issues left as of 12/25 2:00am JST — Yukihiro Matsumoto <matz@...>

[#32718] next dumps core when poped is 0 — "Yusuke ENDOH" <mame@...>

[#32725] more ANSI'ize — Tadashi Saito <shiba@...2.accsnet.ne.jp>

[#32726] Can't build on MacOSX 10.4(Tiger) (was Re: Re: 1.9.1 issues left (as of 12/15)) — "MOROHASHI Kyosuke" <moronatural@...>

[#32740] distinguish "w" and "w:euc-jp" — Tanaka Akira <akr@...>

[#32746] appendline Invalid read of size 1 — Tanaka Akira <akr@...>

[#32747] test-all on Debian/GNU etch — SASADA Koichi <ko1@...>

[#32748] resut of make test on cygwin — SASADA Koichi <ko1@...>

[#32756] make rdoc cause segv on OpenBSD — SASADA Koichi <ko1@...>

[#32763] Re: [ruby-cvs:21913] Ruby:r14676 (trunk): * trunk/common.mk, goruby.c, golf_prelude.rb: for golfers. — Yukihiro Matsumoto <matz@...>

[#32765] test/ruby/test_transcode.rb の問題 — Martin Duerst <duerst@...>

[#32767] result of test-all on FreeBSD 6.2 — SASADA Koichi <ko1@...>

[#32631] Cygwin 上で Ruby最新版をインストールする場合 — "Koji Tominaga" <crimsonshower@...>