[ruby-list:48713] Re: 多言語を含むUTF-8テキストから文字種を判定する方法

From: "U.Nakamura" <usa@...>
Date: 2012-04-25 05:18:27 UTC
List: ruby-list #48713
こんにちは、なかむら(う)です。

In message "[ruby-list:48712] Re: 多言語を含むUTF-8テキストから文字種を判定する方法"
    on Apr.25,2012 13:42:54, <eda@nerv.org> wrote:
> みたく、1つのString自体には1つの言語だけだという想定です。
> そもそも漢字だけで言語がすぐに判定できないということでしょうか...??

少なくとも漢字では無理です。
Unicodeでは主要な漢字は「CJK統合漢字」というジャンルにまとめ
られており、日本、韓国、繁体字、簡体字が原則区別なく押し込ま
れています。


> 元のテキストはExcelのセルからWin32OLEで経由でとってくるつもりなのですが
> そちらから情報を得る手段もないでしょうか?

Excelも特にセル単位では言語情報を保持してはいなかったと思いま
す。
ただ、書式指定でフォントを指定してるなら、それを抜くのはどう
でしょうか?


それでは。
-- 
U.Nakamura <usa@garbagecollect.jp>


In This Thread