[#28446] named capture and /g, /G option — "K.Kosako" <sndgk393@...>

Ruby 1.9に、

30 messages 2006/03/21
[#28449] Re: named capture and /g, /G option — "K.Kosako" <sndgk393@...> 2006/03/21

> Ruby 1.9に、

[#28452] Re: named capture and /g, /G option — Yukihiro Matsumoto <matz@...> 2006/03/21

まつもと ゆきひろです

[#28453] Re: named capture and /g, /G option — "K.Kosako" <sndgk393@...> 2006/03/21

Yukihiro Matsumoto wrote:

[ruby-dev:28439] Re: [案内] レガシーエンコーディングの変換機能の開発

From: MORIYAMA Masayuki <moriyama@...>
Date: 2006-03-16 07:09:11 UTC
List: ruby-dev #28439
森山です。

"NARUSE, Yui" <naruse@airemix.com> wrote:
> 現在の状況ですが、
> 1.8.4 は nkf 2.0.5 ベース、1.9は 2.0.5 2005-07-22 版ベースです。
> 
> 1.8.4 においては、
> * JIS X 0212 への対応が有効となっていない
> というバグがあり、nkf 側で用いているマッピングテストでは、
> * CP932 -> Unicode で7文字  Unicode -> CP932 で80文字
> * CP51932 -> Unicode で6文字  Unicode -> CP51932 で80文字
> * eucJP-ms -> Unicode で6179文字  Unicode -> eucJP-ms で6161文字
> の「間違い」が残っています。
> http://nkf.sourceforge.jp/ucm/

現在、次のようなツールを作成しています。

・cp932,cp51932,eucJP-ms,ISO-2022-JP-MS の generic な変換表生成ツール
・各ソフトの変換を抽出するツール
・変換表の比較を行うツール (sort して diff するだけですが)

generic な変換表というのは、Unicode → マルチバイト文字への変換で、多
対1 の変換を行わないものを指しています。
Unicode コンソーシアムの CP932.TXT や TOG/JVC の変換表を元に、ユーザ定
義文字の変換の追加や重複定義文字の変換を考慮した ucm 形式の変換表にな
ります。

この変換表と、各ソフトの変換表を比較することで、各ソフトウェア間での変
換の違いを明確にできれば考えています。

> 今後は、
> CP932/CP51932/eucJP-ms への対応が行われた nkf は、
> nkf 2.0.6 としてリリースされる予定です。

nkf 2.0.5 (2006-03-04) 版で試させてもらっています
> 
> 現在 beta1 がリリースされています。
> http://sourceforge.jp/projects/nkf/
> 
> nkf 2.0.6 がリリースされ次第、1.8 と 1.9 両方で取り込みます。
> 
> ISO-2022-JP-MSについてはこれから調べます。

ISO-2022-JP-MS に関しては、Windows の CP50221 (JIS X 0201 を ESC(I で
エンコード) にユーザ定義文字のエスケープシーケンスを追加しています。

詳しい事は、http://Legacy-Encoding.SourceForge.jp/ に載せていく予定で
す。

--
森山 将之 moriyama@miraclelinux.com
ミラクル・リナックス株式会社


In This Thread

Prev Next