ruby-list

カカクコム 京和です。

お返事ありがとうございます。

> nkfで入力文字コードを指定しないと、文字コードを推測します。
> nkfのバージョンが2.0.8になって推測のアルゴリズムが変わったのでしょう。
NKF.guessメソッドではUTF8と正しく推測しています。
NKF.guess("餃子") == NKF::UTF8 #=> true
また、
>>ruby 1.8.5から1.8.6のバージョンアップに伴い組み込みのnkfの
>>バージョンが2.0.7から2.0.8に上がっていますが、1.8.6添付のnkfの
>>ソース(ext/nkf/nkf-utf8)でコンパイルしたバイナリでは上記の
>>文字化けは起こりませんでした。
と、
>>他にも丼、俑、凛、巫などで確認しましたが、同様でした。
と言う結果から、推測アルゴリズムの変更に拠るものではない可能性が高そうです。

> 句読点があると誤認識しないようです。
おお、本当ですね。
ただし、長い文字列であれば一概に問題ないかというとそうでもないようです。
NKF.nkf("-w", "昨日は餃子専門店に行きました") #=> 文字化け
NKF.nkf("-w", "昨日は池袋にある餃子専門店に行きました") #=> OK

どちらにせよruby 1.8.5のNKFモジュールであれば問題ありません。
ちなみに僕が把握している誤認識のケースは文字コード間でバイト列が
同じものがある場合、nkfだと確かEUCから判定するので、その場合に
誤って判定されてしまうケースですね。

> 入力文字コードがわかっている場合は明示するべきです。
入力の文字コードは不定なので、意図的に入力側の
文字コードは指定しないようにしています。

==
京和崇行
kyowa_t@kakaku.com

Thread

Prev Next

In This Thread

Prev Next

[#45607] Rubyでのマウス・キーボード自動化 — 山根 慎治 <netti@...>

[#45608] 関西Ruby会議01のご案内 — HIGAKI Masaru (ひがき まさる) <mash@...>

[#45609] ruby 1.8.6のNKFにおける漢字変換の不具合について — 京和 崇行 <kyowa_t@...>

[#45614] 九州 Ruby 会議 01 暫定版プログラム公開 — Hidetoshi NAGAI <nagai@...>

[#45623] String#ljust, center, rjustの挙動 — rubikitch@...

[#45628] Shell::Filter の + — Kouya <kouyataifu4@...>

[#45632] [ANN]関西 Ruby 会議 01 の動画を公開しました — okkez <okkez000@...>

[#45634] Shell#[] が動かない。 — Kouya <kouyataifu4@...>

[#45636] [ANN] nokogiri 1.0.5 リリース — Aaron Patterson <aaron@...>

[#45644] [ANN] nokogiri 1.0.6 リリース — Aaron Patterson <aaron@...>

[#45645] rdtool cannot handle filter — Masaki Hasegawa <masaki-h@...4u.or.jp>

[#45646] NPUG初心者向けハンズオンセミナー2008秋 — Kiyoshi Sawada <sawa@...2.jrc.or.jp>

[#45647] 【九州Ruby会議01】12月14日開催のお知らせ — Hidetoshi NAGAI <nagai@...>

[#45649] 調査案内: Ruby + GUI — Kouhei Sutou <kou@...>

[#45650] [ANN] オープンセミナー2008@徳島 開催のお知らせ — moriq@...

[#45651] require 'postgres' とするとエラーになる — "Nobuyuki Inaba" <nobuyuki.inaba@...>

[#45654] Merb と DataMapper と RSpec のチュートリアル — "Makoto Kuwata" <kwa@...>

[#45655] ソースに関する助言のおねがい — "Hideo Konami" <konami@...>

[#45657] 【楽天テクノロジーカンファレンス】御礼 — 三條 正裕 <masahiro.sanjo@...>

[#45658] 「Rubyリファレンスマニュアル刷新計画」2008-11分のスナップショットリリース — okkez <okkez000@...>

[#45659] [ANN] 第31回 Ruby/Rails勉強会＠関西（運営：Ruby 関西） — "shoko.m" <shoko-m@...>

[ruby-list:45611] Re: ruby 1.8.6のNKFにおける漢字変換の不具合について

Thread

In This Thread

[#45607] Rubyでのマウス・キーボード自動化 — 山根　慎治 <netti@...>

[#45608] 関西Ruby会議01のご案内 — HIGAKI Masaru (ひがきまさる) <mash@...>

[#45609] ruby 1.8.6のNKFにおける漢字変換の不具合について — 京和崇行 <kyowa_t@...>

[#45650] [ANN] オープンセミナー2008@徳島開催のお知らせ — moriq@...

[#45657] 【楽天テクノロジーカンファレンス】御礼 — 三條正裕 <masahiro.sanjo@...>