[#23332] to_str再考 — matz@... (Yukihiro Matsumoto)

まつもと ゆきひろです

15 messages 2004/04/05

[#23380] [SEGV] make test-all (bccwin32 ruby1.9.0) — "H.Yamamoto" <ocean@...2.ccsnet.ne.jp>

山本です。

17 messages 2004/04/15
[#23400] Re: [SEGV] make test-all (bccwin32 ruby1.9.0) — "H.Yamamoto" <ocean@...2.ccsnet.ne.jp> 2004/04/16

山本です。落ちる場所がわかりました。

[#23402] Re: [SEGV] make test-all (bccwin32 ruby1.9.0) — "H.Yamamoto" <ocean@...2.ccsnet.ne.jp> 2004/04/16

山本です。

[#23403] Re: [SEGV] make test-all (bccwin32 ruby1.9.0) — nobu.nakada@... 2004/04/16

なかだです。

[#23405] Re: [SEGV] make test-all (bccwin32 ruby1.9.0) — "H.Yamamoto" <ocean@...2.ccsnet.ne.jp> 2004/04/16

山本です。

[#23407] Re: [SEGV] make test-all (bccwin32 ruby1.9.0) — "H.Yamamoto" <ocean@...2.ccsnet.ne.jp> 2004/04/16

山本です。

[ruby-dev:23326] Re: [Oniguruma] Version 2.2.6

From: <kkosako@...>
Date: 2004-04-05 03:16:56 UTC
List: ruby-dev #23326
> -----Original Message-----
> From: Yukihiro Matsumoto [mailto:matz@ruby-lang.org]
> 
> UTF-16対応版はどういう方針で実装しますか。
> もしよければ聞かせてください。
> 

実装の変更点は以下の通りです。

1. 先頭バイトから文字のバイト長が判定できるという
   仮定をなくして、enc_len()の引数を先頭バイトから
   ポインタに変更
2. エンコーディング情報テーブル(OnigEncodingType)の変更
3. 8-bit encoding以外に対応するためにパターンのパース部分
   (regparse.c)等の修正
4. パターンと対象文字列に対して異なったエンコーディングも
   指定できるようにAPIを追加
   指定できるエンコーディングの組み合わせには大幅な制限がある。
   パターン:ASCII, 対象文字列:UTF-16だけかも?


Unicodeについてよく知らないままやっているので、
何か勘違いしているかもしれませんが、
以下の方針です。

1. UTF-16 BE, LEサポート
2. character typeは、現在のUTF-8と同様に
   [U+0000,U+00FF]の範囲しか正しく判定しない
   (他は全部word typeとみなす)
3. 複合文字(?)を考慮したマッチは、
    ドイツ語のess-tsett(U+00DF)しか対応しない

2と3は、将来的には改善するかもしれませんが、
当面はやりません。
--
小迫@出向中

In This Thread

Prev Next