[#37021] [RAA] RAA/2.3 — "U.Nakamura" <usa@...>

みなさんこんにちは。

20 messages 2003/01/30

[ruby-list:36964] Re: Unicode対応の nkfは?

From: たむらけんいち <sgs02516@...>
Date: 2003-01-18 14:38:39 UTC
List: ruby-list #36964
たむらです。

On Sat, 18 Jan 2003 18:47:03 +0900
Take_tk <ggb03124@nifty.ne.jp> wrote:

> たけ(tk)です。
> 
> [ruby-list:36958] Re: Unicode 対応の nkfは? にて 
> nobu.nakada@nifty.ne.jp さん 曰く:
> : > 「utf-8 の取り扱えるnkf」というのはrubyで採用されるのでしょうか?
> : > 
> : > http://sourceforge.jp/forum/forum.php?forum_id=1038
> : > http://www.ie.u-ryukyu.ac.jp/~kono/nkf/
> : 
> : roughにはunkfが入ってます。標準にいつ入るかは分かりませんが、
> : nkf自体の状況次第なのかも。
> 
>  去年の9月にバグフィックス版のnkf 2.0.1が出ていて、その後の音沙汰は分か
> りませんが、まだバグだしの最中なのでしょうか?
>  安定しているから音沙汰なしなのか??

nkf-unicode 対応版メンテナのたむらです。

 * 最新版の nkf-2.0.1 対応をしてない
 * NKF::guess の UTF-8対応をどうするのか
 * nkf-2x自体が UTF-8 に続いて UTF-16対応もする予定だが、どう扱うか

などのため、ペンディングといったところです。
特に、NKF::guess は深刻で、そもそも nkfはライブラリとしての利用を考慮してないため
文字コード判別ルーチンが提供されてないのです。現行では ext/nkf/nkf.c を見れば判りますが
/*
 * Character code detection - Algorithm described in:
 * Ken Lunde. `Understanding Japanese Information Processing'
 * Sebastopol, CA: O'Reilly & Associates.
 */ 
ということで、独自に EUC/SJIS/JIS判定ルーチンが入っており、これの UTF-8対応が問題なわけです。
最近ひさしぶりに、lvとかRuby/lv とか見てて、guess()相当を作ってみたりしてますが、
これを採用するか
どうかは、未定なのです。

そういえば、MoonWolfさんの判定ルーチンってもらえないかしら。

# 一番の原因は、たむらの怠慢です。済みません。

変換ルーチン自体は安定してると思われます。自分でも使ってるし。

-- 

たむら (http://tamura.tdiary.net)

In This Thread