[ruby-list:48711] Re: 多言語を含むUTF-8テキストから文字種を判定する方法

From: "NARUSE, Yui" <naruse@...>
Date: 2012-04-25 04:27:00 UTC
List: ruby-list #48711
2012年4月25日11:19 えだ ゆきひこ <eda@nerv.org>:
> ruby1.8.7を使っています。
> 日本語・ハングル・中文簡体字・中文繁体字・タイ語等を
> 同時に扱う場合に、そのStringがどの言語なのかを
> 判定する方法はありますか?

スマートな方法はありません。
なので、いろいろな人が様々な手法を研究していまして、
とりあえず SJIS に変換できるか試してみる的なものから、
本格的な研究だと以下のようなものがあります。
http://d.hatena.ne.jp/n_shuyo/20120201/nlp2012

-- 
NARUSE, Yui  <naruse@airemix.jp>

In This Thread