[#40528] [Feature #2833] 絵文字エンコーディングの提案 — Kenta Murata <redmine@...>

Feature #2833: 絵文字エンコーディングの提案

32 messages 2010/03/02
[#40530] Re: [Feature #2833] 絵文字エンコーディングの提案 — Yukihiro Matsumoto <matz@...> 2010/03/02

まつもと ゆきひろです

[#40597] Re: [ruby-list:46898] 重複組合せは組込みにならないのでしょうか? — "KISHIMOTO, Makoto" <ksmakoto@...4u.or.jp>

きしもとです

17 messages 2010/03/12
[#40598] Re: [ruby-list:46898] 重複組合せは組込みにならないのでしょうか? — Yukihiro Matsumoto <matz@...> 2010/03/12

まつもと ゆきひろです

[#40601] Re: [ruby-list:46898] 重複組合せは組込みにならないのでしょうか? — Yusuke ENDOH <mame@...> 2010/03/12

遠藤です。

[#40608] Re: 組込みの重複順列・重複組合せ — "KISHIMOTO, Makoto" <ksmakoto@...4u.or.jp> 2010/03/13

> 同様に、repeated_permutation/combination のデフォルト引数にも反対

[#40610] Re: 組込みの重複順列・重複組合せ — Yukihiro Matsumoto <matz@...> 2010/03/13

まつもと ゆきひろです

[#40641] [Bug #2965] method `===' called on hidden T_STRING object (NotImplementedError) — Kenta Murata <redmine@...>

Bug #2965: method `===' called on hidden T_STRING object (NotImplementedError)

12 messages 2010/03/15

[#40649] [Feature #2968] 数値の正負を返すメソッド — Yui NARUSE <redmine@...>

Feature #2968: 数値の正負を返すメソッド

17 messages 2010/03/15

[#40650] [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — Yui NARUSE <redmine@...>

Feature #2969: String#to_f が -h.hhh±pd を解釈できるように

38 messages 2010/03/15
[#40728] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — Tadayoshi Funaba <tadf@...> 2010/03/22

質問ですが、この形式は入力だけでなく、なんらかの方法で出力でも利用でき

[#40732] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — "NARUSE, Yui" <naruse@...> 2010/03/22

成瀬です。

[#40736] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — Tadayoshi Funaba <tadf@...> 2010/03/23

> String#to_f は従来から指数表記を許していたので、

[#40738] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — "NARUSE, Yui" <naruse@...> 2010/03/23

成瀬です。

[#40745] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — Tadayoshi Funaba <tadf@...> 2010/03/24

> to_i がデフォルトで prefix を見ないのは、0377 のような、

[#40747] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — "NARUSE, Yui" <naruse@...> 2010/03/24

成瀬です。

[#40749] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — Tadayoshi Funaba <tadf@...> 2010/03/24

> 先のパッチの対象関数が ruby_strtod である通り、

[#40759] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — "NARUSE, Yui" <naruse@...> 2010/03/25

成瀬です。

[#40762] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — Tadayoshi Funaba <tadf@...> 2010/03/25

> strtod(3) の解釈対象に含まれていない 2 進や 8 進を否定することが、

[#40763] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — "NARUSE, Yui" <naruse@...> 2010/03/25

(2010/03/26 3:05), Tadayoshi Funaba wrote:

[#40764] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — Tadayoshi Funaba <tadf@...> 2010/03/25

> なぜ同じなのでしょう。

[#40782] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — "NARUSE, Yui" <naruse@...> 2010/03/26

(2010/03/26 4:02), Tadayoshi Funaba wrote:

[#40786] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — KOSAKI Motohiro <kosaki.motohiro@...> 2010/03/27

>> strtod(3) を参考にしたり、影響されたりすることは普通にあるとは思います

[#40788] Re: [Feature #2969] String#to_f が -h.hhh±pd を解釈できるように — "NARUSE, Yui" <naruse@...> 2010/03/27

(2010/03/27 18:19), KOSAKI Motohiro wrote:

[#40695] keiju, please check tickets assigned to you — Yusuke ENDOH <mame@...>

いしつかさん

15 messages 2010/03/18

[#40779] [Feature #3018] UNINITIALIZED_VAR() マクロの導入 — Motohiro KOSAKI <redmine@...>

Feature #3018: UNINITIALIZED_VAR() マクロの導入

12 messages 2010/03/26

[#40805] Improvement of Fiber switching cost with system dependent way — SASADA Koichi <ko1@...>

 ささだです.

10 messages 2010/03/28

[ruby-dev:40539] Re: [Feature #2833] 絵文字エンコーディングの提案

From: Kenta Murata <muraken@...>
Date: 2010-03-03 01:00:18 UTC
List: ruby-dev #40539
むらたです。

On 2010/03/03, at 8:48, KOSAKI Motohiro wrote:

>> - Shift_JIS-DoCoMo
>> - Shift_JIS-KDDI
>> - ISO-2022-JP-KDDI
>> - Shift_JIS-SoftBank
> 
> この4つは直感的に理解出来るとして
> 
>> - UTF8-Google
> 
> これは普通のUTF-8とは違うもの?

違います。UTF8-Google は、DoCoMo, KDDI, SoftBank のそれぞれの
絵文字集合の和集合を持っており、現存する3者が持つすべての絵文字に
一意なコードポイントを割り当てています。以下の URL が対応表です。

http://www.unicode.org/~scherer/emoji4unicode/snapshot/full.html

この表の最初の行を見ると分かるように、UTF-8 と UTF8-Google では
「晴れ」を表す絵文字の扱いが異なります。
DoCoMo, KDDI, SoftBank 各社の「晴れ」絵文字を UTF-8 へ変換すると
U+2600 に変換されるため、元々絵文字であった事実が失われます。
UTF8-Google へ変換すると U+FE000 へ変換され絵文字である事実は
失われません。

>> - UTF8-DoCoMo
>> - UTF8-KDDI
>> - UTF8-SoftBank
> 
> この3つは、utf-8-macのように、utf-8に変換ルールヒントを加えたもの
> という理解でいいのでしょうか?

各 transcoder で絵文字のコードポイントに対して適切な変換結果を対応させています。

> 3社でPUAの使い方が違う??

PUA が Private User Area の略だということは教えてもらったのですが、
「PUA の使い方」という言葉がよく分かっていません。
複数の使い方があるんでしょうか?

>> - stateless-ISO-2022-JP-KDDI
> 
> stateless iso-2022というのが、どういう状況で使うのか想像できないので
> 解説をお願いしていいですか?

これは内部で使われているだけなので、表に名前を出す必要はなかったですね。

現状では ISO-2022-JP <-> EUC-JP の変換が stateless-ISO-2022-JP を介した
変換で実現されています。stateless-ISO-2022-JP-KDDI は、
ISO-2022-JP-KDDI <-> UTF8-KDDI の変換でこれを真似したために存在しています。

> 第一印象としては、現実の汚さを反映してそれなりに使い方がやっかいなシロモノ
> になっているので、どこかにガイドアーティクルがあるとうれしいんじゃないかと
> 思いました。

なるほど、私もそう思います。達人出版会の出番ですね!

> # それを言ったら日本語コード変換は全般的に罠の宝庫なので「日本語コード変換HOWTO」
> # が必要だ。という気も若干してきますが、発散するので気づかなかったことに

私はなにも見ていません。

> とりあえず、Encodingクラスのリファレンスに加筆する予定の、エンコーディングの
> 説明を見せて頂けると、レビューしやすいです。
> きっと、コード本体については誰も反対しないんだろうし。

るりまの以下のページにある定数表のことですよね?
http://doc.okkez.net/192/view/class/Encoding

こんな感じかなぁ

--- Encoding::UTF8_DoCoMo
DoCoMo 携帯の絵文字を含む UTF-8 エンコーディングです。
絵文字のコード表は以下で公開されています。
[[url:http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/basic/]]
[[url:http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/extention/index.html]]

--- Encoding::UTF8_KDDI
KDDI 携帯の絵文字を含む UTF-8 エンコーディングです。
Web のフォームに入力された絵文字のコードにも対応しています。
絵文字のコード表は以下で公開されています。
[[url:http://www.au.kddi.com/ezfactory/tec/spec/img/typeD.pdf]]

--- Encoding::UTF8_SoftBank
SoftBank 携帯の絵文字を含む UTF-8 エンコーディングです。
絵文字のコード表は以下で公開されています (2つ目はユーザ登録が必要)。
[[url:http://creation.mb.softbank.jp/web/web_pic_about.html]]
[[url:http://www2.developers.softbankmobile.co.jp/dp/tool_dl/download.php?docid=120&companyid=]]

--- Encoding::UTF8_Google
DoCoMo, KDDI, SoftBank 各社の絵文字集合の和集合に含まれる各文字に対して一意なコードポイントを与えた UTF-8 亜種です。
各社の絵文字と Google のコードポイントとの対応関係は emoji4unicode プロジェクトの成果に基づいています。
[[url:http://code.google.com/p/emoji4unicode/]]

--- Encoding::SJIS_DoCoMo
DoCoMo 携帯の絵文字を含む Windows-31J の亜種です。
絵文字のコード表は以下で公開されています。
[[url:http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/basic/]]
[[url:http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/extention/index.html]]

--- Encoding::SJIS_KDDI
KDDI 携帯の絵文字を含む Windows-31J の亜種です。
絵文字のコード表は以下で公開されています。
[[url:http://www.au.kddi.com/ezfactory/tec/spec/img/typeD.pdf]]

--- Encoding::SJIS_SoftBank
SoftBank 携帯の絵文字を含む Windows-31J の亜種です。
絵文字のコード表は以下で公開されています (2つ目はユーザ登録が必要)。
[[url:http://creation.mb.softbank.jp/web/web_pic_about.html]]
[[url:http://www2.developers.softbankmobile.co.jp/dp/tool_dl/download.php?docid=120&companyid=]]

--- Encoding::ISO_2022_JP_KDDI
KDDI 携帯の絵文字を含む ISO-2022-JP の亜種です。
絵文字のコード表は以下で公開されています。
[[url:http://www.au.kddi.com/ezfactory/tec/spec/img/typeD.pdf]]



--
Kenta Murata
OpenPGP FP = FA26 35D7 4F98 3498 0810 E0D5 F213 966F E9EB 0BCC

本を書きました!!
『Ruby 逆引きレシピ』 http://www.amazon.co.jp/dp/4798119881/mrkn-22

E-mail: mrkn@mrkn.jp
twitter: http://twitter.com/mrkn/
blog: http://d.hatena.ne.jp/mrkn/


In This Thread