[ruby-list:48712] Re: 多言語を含むUTF-8テキストから文字種を判定する方法

From: えだ ゆきひこ <eda@...>
Date: 2012-04-25 04:42:54 UTC
List: ruby-list #48712
返信ありがとうございます。

2012/04/25 13:27 に NARUSE, Yui 曰く…
>> 同時に扱う場合に、そのStringがどの言語なのかを
> スマートな方法はありません。
> なので、いろいろな人が様々な手法を研究していまして、

なるほど。リンク先見ましたけど、難しそうです...

{
  "hoge1.jpg" => "ハングル",
  "hoge2.jpg" => "簡体字まじりの漢字",
  "hoge3.jpg" => "日本語(ひらがながあるとは限らない)",
}

みたく、1つのString自体には1つの言語だけだという想定です。
そもそも漢字だけで言語がすぐに判定できないということでしょうか...??

元のテキストはExcelのセルからWin32OLEで経由でとってくるつもりなのですが
そちらから情報を得る手段もないでしょうか?



In This Thread