ruby-dev

[#48796] [ruby-trunk - Bug #10624] [Closed] \sには\vも含まれる — shibata.hiroshi@...

Issue #10624 has been updated by Hiroshi SHIBATA.

1 message 2015/01/01

[#48797] [ruby-trunk - Bug #10689] [Open] `unexpected break' occurs when TracePoint#binding is called — kazuki@...

Issue #10689 has been reported by Kazuki Tsujimoto.

1 message 2015/01/02

[#48798] [ruby-trunk - Bug #10689] `unexpected break' occurs when TracePoint#binding is called — kazuki@...

Issue #10689 has been updated by Kazuki Tsujimoto.

1 message 2015/01/03

[#48799] [ruby-trunk - Bug #9962] Numeric.new — akr@...

Issue #9962 has been updated by Akira Tanaka.

1 message 2015/01/04

[#48800] [ruby-trunk - Bug #10384] Fiddle::DLError: unknown symbol "Init_objspace" during Fiddle::TestHandle#test_NEXT and Fiddle::TestHandle#test_static_sym on Solaris — shibata.hiroshi@...

Issue #10384 has been updated by Hiroshi SHIBATA.

1 message 2015/01/05

[#48801] [ruby-trunk - Bug #10697] [Open] WIN32OLE: WIN32OLE_RECORD を使用したスクリプト終了時にruby.exe がクラッシュすることがある — sawanaka@...1.dion.ne.jp

Issue #10697 has been reported by Takashi Sawanaka.

1 message 2015/01/05

[#48802] [ruby-trunk - Bug #10384] [Closed] Fiddle::DLError: unknown symbol "Init_objspace" during Fiddle::TestHandle#test_NEXT and Fiddle::TestHandle#test_static_sym on Solaris — nobu@...

Issue #10384 has been updated by Nobuyoshi Nakada.

1 message 2015/01/05

[#48803] [ruby-trunk - Bug #10697] WIN32OLE: WIN32OLE_RECORD を使用したスクリプト終了時にruby.exe がクラッシュすることがある — masaki.suketa@...

Issue #10697 has been updated by Masaki Suketa.

1 message 2015/01/08

[#48804] [ruby-trunk - Bug #10689] `unexpected break' occurs when TracePoint#binding is called — ko1@...

Issue #10689 has been updated by Koichi Sasada.

1 message 2015/01/08

[#48805] [ruby-trunk - Bug #10722] [Open] Array#keep_if is borked if user calls 'break' — s.wanabe@...

Issue #10722 has been reported by _ wanabe.

1 message 2015/01/09

[#48806] [ruby-trunk - Bug #10722] Array#keep_if is borked if user calls 'break' — s.wanabe@...

Issue #10722 has been updated by _ wanabe.

1 message 2015/01/09

[#48807] [ruby-trunk - Bug #10722] [Closed] Array#keep_if is borked if user calls 'break' — nobu@...

Issue #10722 has been updated by Nobuyoshi Nakada.

1 message 2015/01/10

[#48808] [ruby-trunk - Bug #10722] Array#keep_if is borked if user calls 'break' — akr@...

Issue #10722 has been updated by Akira Tanaka.

1 message 2015/01/10

[#48809] [ruby-trunk - Bug #10722] Array#keep_if is borked if user calls 'break' — akr@...

Issue #10722 has been updated by Akira Tanaka.

1 message 2015/01/10

[#48810] [ruby-trunk - Bug #10470] TracePoint cannot trace attr_accessor/reader/writer method — kakyoin.hierophant@...

Issue #10470 has been updated by Tomohiro Hashidate.

1 message 2015/01/10

[#48811] [ruby-trunk - Bug #10722] Array#keep_if is borked if user calls 'break' — akr@...

Issue #10722 has been updated by Akira Tanaka.

1 message 2015/01/10

[#48812] [ruby-trunk - Bug #10689] `unexpected break' occurs when TracePoint#binding is called — kazuki@...

Issue #10689 has been updated by Kazuki Tsujimoto.

1 message 2015/01/11

[#48813] [ruby-trunk - Bug #10732] [Open] rdoc:ファイル中に単独の\rがあるとrdocがハングアップする — vmi@...

Issue #10732 has been reported by Motonori IWAMURO.

1 message 2015/01/12

[#48814] [ruby-trunk - Bug #10732] [Closed] rdoc:ファイル中に単独の\rがあるとrdocがハングアップする — nobu@...

Issue #10732 has been updated by Nobuyoshi Nakada.

1 message 2015/01/12

[#48815] [ruby-trunk - Bug #10689] `unexpected break' occurs when TracePoint#binding is called — ko1@...

Issue #10689 has been updated by Koichi Sasada.

1 message 2015/01/13

[#48816] [ruby-trunk - Bug #10470] TracePoint cannot trace attr_accessor/reader/writer method — kakyoin.hierophant@...

Issue #10470 has been updated by Tomohiro Hashidate.

1 message 2015/01/13

[#48817] [ruby-trunk - Bug #10615] SIGKILL is not supported by signal() of some versions of MSVCRT — usa@...

Issue #10615 has been updated by Usaku NAKAMURA.

1 message 2015/01/14

[#48818] [ruby-trunk - Bug #10722] Array#keep_if is borked if user calls 'break' — akr@...

Issue #10722 has been updated by Akira Tanaka.

1 message 2015/01/15

[#48820] [ruby-trunk - Bug #10675] Fix typo — naruse@...

Issue #10675 has been updated by Yui NARUSE.

1 message 2015/01/16

[#48821] [ruby-trunk - Bug #10689] [Closed] `unexpected break' occurs when TracePoint#binding is called — kazuki@...

Issue #10689 has been updated by Kazuki Tsujimoto.

1 message 2015/01/16

[#48822] [ruby-trunk - Bug #10689] `unexpected break' occurs when TracePoint#binding is called — kazuki@...

Issue #10689 has been updated by Kazuki Tsujimoto.

1 message 2015/01/16

[#48823] [ruby-trunk - Bug #10750] [Open] configure script has bashism on Ruby 2.2.0 — taca@...

Issue #10750 has been reported by Takahiro Kambe.

1 message 2015/01/17

[#48824] [ruby-trunk - Bug #10750] [Closed] configure script has bashism on Ruby 2.2.0 — nobu@...

Issue #10750 has been updated by Nobuyoshi Nakada.

1 message 2015/01/17

[#48825] [ruby-trunk - Bug #10697] [Closed] WIN32OLE: WIN32OLE_RECORD を使用したスクリプト終了時にruby.exe がクラッシュすることがある — masaki.suketa@...

Issue #10697 has been updated by Masaki Suketa.

1 message 2015/01/18

[#48827] [ruby-trunk - Bug #10732] rdoc:ファイル中に単独の\rがあるとrdocがハングアップする — naruse@...

Issue #10732 has been updated by Yui NARUSE.

1 message 2015/01/19

[#48828] [ruby-trunk - Bug #10750] configure script has bashism on Ruby 2.2.0 — naruse@...

Issue #10750 has been updated by Yui NARUSE.

1 message 2015/01/19

[#48832] [ruby-trunk - Bug #10697] WIN32OLE: WIN32OLE_RECORD を使用したスクリプト終了時にruby.exe がクラッシュすることがある — naruse@...

Issue #10697 has been updated by Yui NARUSE.

1 message 2015/01/20

[#48833] [Backport21 - Backport #10448] [Closed] Backport r48186 (Kernel#load with non-ASCII path cause LoadError) — nagachika00@...

Issue #10448 has been updated by Tomoyuki Chikanaga.

1 message 2015/01/21

[#48834] [ruby-trunk - Bug #10524] %I segfaults with --dump=parsetree — nagachika00@...

Issue #10524 has been updated by Tomoyuki Chikanaga.

1 message 2015/01/21

[#48835] [ruby-trunk - Bug #10615] SIGKILL is not supported by signal() of some versions of MSVCRT — nagachika00@...

Issue #10615 has been updated by Tomoyuki Chikanaga.

1 message 2015/01/21

[#48836] [ruby-trunk - Feature #10770] [Open] chr and ord behavior for ill-formed byte sequences and surrogate code points — masakielastic@...

Issue #10770 has been reported by Masaki Kagaya.

1 message 2015/01/22

[#48837] [ruby-trunk - Feature #10770] chr and ord behavior for ill-formed byte sequences and surrogate code points — masakielastic@...

Issue #10770 has been updated by Masaki Kagaya.

1 message 2015/01/22

[#48838] [ruby-trunk - Bug #10689] `unexpected break' occurs when TracePoint#binding is called — naruse@...

Issue #10689 has been updated by Yui NARUSE.

1 message 2015/01/22

[#48839] [ruby-trunk - Feature #10770] chr and ord behavior for ill-formed byte sequences and surrogate code points — nobu@...

Issue #10770 has been updated by Nobuyoshi Nakada.

1 message 2015/01/22

[#48840] [ruby-trunk - Bug #10787] [Open] skipped test are not shown on test-all — usa@...

Issue #10787 has been reported by Usaku NAKAMURA.

1 message 2015/01/27

[#48841] [ruby-trunk - Bug #10787] skipped test are not shown on test-all — her@...

Issue #10787 has been updated by Shota Fukumori.

1 message 2015/01/27

[#48842] [ruby-trunk - Bug #10787] [Assigned] skipped test are not shown on test-all — usa@...

Issue #10787 has been updated by Usaku NAKAMURA.

1 message 2015/01/27

[#48843] [ruby-trunk - Bug #10787] [Feedback] skipped test are not shown on test-all — akr@...

Issue #10787 has been updated by Akira Tanaka.

1 message 2015/01/27

[#48844] [ruby-trunk - Bug #10787] [Rejected] skipped test are not shown on test-all — usa@...

Issue #10787 has been updated by Usaku NAKAMURA.

1 message 2015/01/27

[#48845] [ruby-trunk - Feature #10790] [Open] Can't read CommitterHowto's links — sho-h@...

Issue #10790 has been reported by Sho Hashimoto.

1 message 2015/01/27

[#48846] [ruby-trunk - Bug #10794] [Closed] false positive on mswin CI — usa@...

Issue #10794 has been reported by Usaku NAKAMURA.

1 message 2015/01/28

[#48847] [ruby-trunk - Bug #10732] rdoc:ファイル中に単独の\rがあるとrdocがハングアップする — usa@...

Issue #10732 has been updated by Usaku NAKAMURA.

1 message 2015/01/30

[#48848] [ruby-trunk - Feature #10790] Can't read CommitterHowto's links — zn@...

Issue #10790 has been updated by Kazuhiro NISHIYAMA.

1 message 2015/01/30

[#48849] [ruby-trunk - Bug #10808] [Open] r49451以降 Solarisにてruby-glommed.oの作成に失敗 — ngotogenome@...

Issue #10808 has been reported by Naohisa Goto.

1 message 2015/01/31

[#48850] [ruby-trunk - Bug #10808] [Feedback] r49451以降 Solarisにてruby-glommed.oの作成に失敗 — nobu@...

Issue #10808 has been updated by Nobuyoshi Nakada.

1 message 2015/01/31

[ruby-dev:48837] [ruby-trunk - Feature #10770] chr and ord behavior for ill-formed byte sequences and surrogate code points

From: masakielastic@...

Date: 2015-01-22 01:12:27 UTC

List: ruby-dev #48837

Issue #10770 has been updated by Masaki Kagaya.


This issue comes from discussion about mruby's behavior (https://github.com/mruby/mruby/issues/2708).

----------------------------------------
Feature #10770: chr and ord behavior for ill-formed byte sequences and surrogate code points
https://bugs.ruby-lang.org/issues/10770#change-51165

* Author: Masaki Kagaya
* Status: Open
* Priority: Normal
* Assignee: 
----------------------------------------
ord raise error when meeting ill-formed byte sequences, thus the difference of atttiute exists beteween each_char and each_codepoint.

<pre><code class="ruby">
str = "a\x80bc"
str.each_char {|c| puts c }
 # no error
str.each_codepoint {|c| puts c }
 # invalid byte sequence in UTF-8 (ArgumentError)
</code></pre>

The one way of keeping consistency is change ord to return substitute code point such as 0xFFFD adopted by scrub.

Another problem about consitency is surrogate code points. Althouh CRuby allows to use surrogate code points in unicode literal, ord and chr dont't allow them.

<pre><code class="ruby">
"\uD800".ord
 # invalid byte sequence in UTF-8 (ArgumentError)

0xD800.chr('UTF-8')
 # invalid codepoint 0xD800 in UTF-8 (RangeError)
</code></pre>

How about remove the restriction? The one example of using surrogate code points is converting a 4-byte character to a pair of 3-byte characters for MySQL/MariaDB's utf8mb3.

<pre><code class="ruby">
str = "\u{1F436}" # DOG FACE
cp = str.ord

if cp > 0x10000 then
  # http://unicode.org/faq/utf_bom.html#utf16-4
  lead = 0xD800 - (0x10000 >> 10) + (cp >> 10)
  trail = 0xDC00 + (cp & 0x3FF)
  ret = lead.chr('UTF-8') + trail.chr('UTF-8')
end
</code></pre>



-- 
https://bugs.ruby-lang.org/

Thread

Prev Next

In This Thread

Prev Next