[#31692] cannot run test-all — "U.Nakamura" <usa@...>
こんにちは、なかむら(う)です。
9 messages
2007/09/01
[#31697] Re: [ruby-list:43970] 次の1.8.6 — Tadayoshi Funaba <tadf@...>
> * [ruby-dev:31379]がペンディング
10 messages
2007/09/01
[#31699] Re: [ruby-list:43970] 次の1.8.6
— Urabe Shyouhei <shyouhei@...>
2007/09/01
Tadayoshi Funaba wrote:
[#31700] Re: [ruby-list:43970] 次の1.8.6
— Tadayoshi Funaba <tadf@...>
2007/09/01
> > WIN32OLE も Time も担当でないし、この報告が何をいいたいのかもよくわか
[#31703] Re: [ruby-list:43970] 次の1.8.6
— Urabe Shyouhei <shyouhei@...>
2007/09/01
Tadayoshi Funaba wrote:
[#31706] Re: [ruby-list:43970] 次の1.8.6
— Tadayoshi Funaba <tadf@...>
2007/09/01
> 今後サポートを続けるべきかはご判断にお任せします。OLEで使われてるん
[#31709] [BUG] non-initialized struct — Tanaka Akira <akr@...>
以下のようにすると [BUG] が出ます。
6 messages
2007/09/02
[#31715] string literal encoding — Nobuyoshi Nakada <nobu@...>
なかだです。
12 messages
2007/09/02
[#31716] Re: string literal encoding
— Yukihiro Matsumoto <matz@...>
2007/09/02
まつもと ゆきひろです
[#31729] packed st_table — Nobuyoshi Nakada <nobu@...>
なかだです。
8 messages
2007/09/04
[#31734] [m17n] String#chop & String#succ — Nobuyoshi Nakada <nobu@...>
なかだです。
2 messages
2007/09/05
[#31744] [m17n] String#encode — Nobuyoshi Nakada <nobu@...>
なかだです。
7 messages
2007/09/06
[#31768] shellescape — "Akinori MUSHA" <knu@...>
shellwords.rb に shellescape() 等を追加しようと思います。
5 messages
2007/09/10
[#31774] RSTRING(value)->ptr == NULL ? — Tietew <tietew+ruby-dev@...>
Tietew です。
7 messages
2007/09/11
[#31778] Re: RSTRING(value)->ptr == NULL ?
— Yukihiro Matsumoto <matz@...>
2007/09/12
まつもと ゆきひろです
[#31781] `scan': character encodings differ (ArgumentError) — Kouhei Sutou <kou@...>
須藤です。
5 messages
2007/09/15
[#31787] 文字列のinspect — eklerni <eklerni@...>
eklerniといいます。
5 messages
2007/09/15
[#31798] generator from Enumerable#map — "Yusuke ENDOH" <mame@...>
遠藤と申します。
7 messages
2007/09/19
[#31810] rb_obj_is_kind_of — Tanaka Akira <akr@...>
rb_obj_is_kind_of の TYPE(cl) ですが、[ruby-dev:31805] の例
5 messages
2007/09/21
[#31815] 文字列の式展開 — eklerni <eklerni@...>
eklerniといいます。
6 messages
2007/09/22
[#31835] Kernel#` is blocked with Ruby/GLib2 on Intel Mac — Kouhei Sutou <kou@...>
須藤です。
5 messages
2007/09/24
[#31842] 拡張ライブラリ内での SIGVTALRM — とみたまさひろ <tommy@...>
とみたです。
10 messages
2007/09/24
[#31848] huge `if' dumps core — "Yusuke ENDOH" <mame@...>
遠藤と申します。
5 messages
2007/09/24
[#31850] meta programming might dump core — "Yusuke ENDOH" <mame@...>
遠藤と申します。
2 messages
2007/09/24
[#31853] optimize T_OBJECT space — Tanaka Akira <akr@...>
T_OBJECT なインスタンスで、インスタンス変数の名前をクラス側
7 messages
2007/09/25
[#31880] Re: optimize T_OBJECT space
— Tanaka Akira <akr@...>
2007/09/28
In article <87r6kne799.fsf@fsij.org>,
[ruby-dev:31734] [m17n] String#chop & String#succ
From:
Nobuyoshi Nakada <nobu@...>
Date:
2007-09-05 07:25:46 UTC
List:
ruby-dev #31734
なかだです。
http://dontstopmusic.no-ip.org/diary/20070827.html#p02 で指摘さ
れているchopとsuccに関するパッチです。
succに関しては、英数字以外は単純に文字コード順にずらしていますが、
本来ならひらがなとかカタカナとかの中で繰り上げをしたほうがいいの
かもしれません。たぶん以下のような機能が必要になるかと思います。
1 scriptを調べる
2 順序付可能か調べる
3 あるscript中での次の文字を得る
4 あるscript中での最初の文字を得る
Index: string.c
===================================================================
--- string.c (revision 13339)
+++ string.c (working copy)
@@ -1585,4 +1585,45 @@ succ_char(char *s)
}
+static int
+enc_succ_char(unsigned int c, char *s, rb_encoding *enc)
+{
+ unsigned int cs;
+
+ /* numerics */
+ if (rb_enc_isdigit(c, enc)) {
+ cs = c++;
+ if (rb_enc_isdigit(c, enc)) {
+ rb_enc_mbcput(c, s, enc);
+ return 0;
+ }
+ do c = cs--; while (rb_enc_isdigit(cs, enc));
+ rb_enc_mbcput(c, s, enc);
+ return ++c;
+ }
+ /* small alphabets */
+ if (rb_enc_islower(c, enc)) {
+ cs = c++;
+ if (rb_enc_islower(c, enc)) {
+ rb_enc_mbcput(c, s, enc);
+ return 0;
+ }
+ do c = cs--; while (rb_enc_islower(cs, enc));
+ rb_enc_mbcput(c, s, enc);
+ return c;
+ }
+ /* capital alphabets */
+ if (rb_enc_isupper(c, enc)) {
+ cs = c++;
+ if (rb_enc_isupper(c, enc)) {
+ rb_enc_mbcput(c, s, enc);
+ return 0;
+ }
+ do c = cs--; while (rb_enc_isupper(cs, enc));
+ rb_enc_mbcput(c, s, enc);
+ return c;
+ }
+ return -1;
+}
+
/*
@@ -1618,36 +1659,49 @@ rb_str_succ(VALUE orig)
char *sbeg, *s, *e;
int c = -1;
- long n = 0;
+ long n = 0, o = 0, l;
+ char carry[ONIGENC_CODE_TO_MBC_MAXLEN];
str = rb_str_new5(orig, RSTRING_PTR(orig), RSTRING_LEN(orig));
+ rb_enc_copy(str, orig);
OBJ_INFECT(str, orig);
if (RSTRING_LEN(str) == 0) return str;
enc = rb_enc_get(orig);
- sbeg = RSTRING_PTR(str); s = sbeg + RSTRING_LEN(str) - 1;
- e = RSTRING_END(str);
+ sbeg = RSTRING_PTR(str);
+ s = e = sbeg + RSTRING_LEN(str);
- while (sbeg <= s) {
+ while (sbeg <= (s = rb_enc_prev_char(sbeg, s, enc))) {
unsigned int cc = rb_enc_codepoint(s, e, enc);
if (rb_enc_isalnum(cc, enc)) {
- if ((c = succ_char(s)) == 0) break;
+ if (isascii(cc)) {
+ if ((c = succ_char(s)) == 0) break;
+ }
+ else {
+ if ((c = enc_succ_char(cc, s, enc)) == 0) break;
+ }
n = s - sbeg;
}
- s--;
}
if (c == -1) { /* str contains no alnum */
- sbeg = RSTRING_PTR(str); s = sbeg + RSTRING_LEN(str) - 1;
c = '\001';
- while (sbeg <= s) {
- if ((*s += 1) != 0) break;
- s--;
+ s = e;
+ while (sbeg <= (s = rb_enc_prev_char(sbeg, e, enc))) {
+ unsigned int cc = rb_enc_codepoint(s, e, enc) + 1;
+ l = rb_enc_mbcput(cc, carry, enc);
+ if (l > 0) {
+ if (l == (o = e - s)) goto overlay;
+ n = s - sbeg;
+ goto insert;
+ }
}
}
- if (s < sbeg) {
- RESIZE_CAPA(str, RSTRING_LEN(str) + 1);
+ if (s < sbeg && (l = rb_enc_mbcput(c, carry, enc)) > 0) {
+ insert:
+ RESIZE_CAPA(str, RSTRING_LEN(str) + l - o);
s = RSTRING_PTR(str) + n;
- memmove(s+1, s, RSTRING_LEN(str) - n);
- *s = c;
- STR_SET_LEN(str, RSTRING_LEN(str) + 1);
+ memmove(s + l, s + o, RSTRING_LEN(str) - n - o);
+ overlay:
+ memmove(s, carry, l);
+ STR_SET_LEN(str, RSTRING_LEN(str) + l - o);
RSTRING_PTR(str)[RSTRING_LEN(str)] = '\0';
}
@@ -4041,4 +4095,22 @@ rb_str_each_char(VALUE str)
}
+static long
+chopped_length(VALUE str)
+{
+ rb_encoding *enc = rb_enc_get(str);
+ const char *p, *p2, *beg, *end;
+
+ beg = RSTRING_PTR(str);
+ end = beg + RSTRING_LEN(str);
+ if (beg > end) return 0;
+ p = rb_enc_prev_char(beg, end, enc);
+ if (!p) return 0;
+ if (p > beg && rb_enc_codepoint(p, end, enc) == '\n') {
+ p2 = rb_enc_prev_char(beg, p, enc);
+ if (p2 && rb_enc_codepoint(p2, end, enc) == '\r') p = p2;
+ }
+ return p - beg;
+}
+
/*
* call-seq:
@@ -4054,13 +4126,9 @@ rb_str_chop_bang(VALUE str)
{
if (RSTRING_LEN(str) > 0) {
+ long len;
rb_str_modify(str);
- STR_DEC_LEN(str);
- if (RSTRING_PTR(str)[RSTRING_LEN(str)] == '\n') {
- if (RSTRING_LEN(str) > 0 &&
- RSTRING_PTR(str)[RSTRING_LEN(str)-1] == '\r') {
- STR_DEC_LEN(str);
- }
- }
- RSTRING_PTR(str)[RSTRING_LEN(str)] = '\0';
+ len = chopped_length(str);
+ STR_SET_LEN(str, len);
+ RSTRING_PTR(str)[len] = '\0';
return str;
}
@@ -4089,7 +4157,8 @@ static VALUE
rb_str_chop(VALUE str)
{
- str = rb_str_dup(str);
- rb_str_chop_bang(str);
- return str;
+ VALUE str2 = rb_str_new5(str, RSTRING_PTR(str), chopped_length(str));
+ rb_enc_copy(str2, str);
+ OBJ_INFECT(str2, str);
+ return str2;
}
Index: include/ruby/encoding.h
===================================================================
--- include/ruby/encoding.h (revision 13339)
+++ include/ruby/encoding.h (working copy)
@@ -63,5 +63,5 @@ int rb_enc_codelen(int, rb_encoding*);
/* ptr, ptr, encoding -> prev_char */
-#define rb_enc_prev_char(s,p,enc) onigenc_get_prev_char_head(enc,(UChar*)s,(UChar*)p)
+#define rb_enc_prev_char(s,p,enc) (char *)onigenc_get_prev_char_head(enc,(UChar*)s,(UChar*)p)
#define rb_enc_isascii(c,enc) ONIGENC_IS_CODE_ASCII(c)
--
--- 僕の前にBugはない。
--- 僕の後ろにBugはできる。
中田 伸悦