[#43996] ある日付の最終時刻の求め方 (秒単位) — SATOH Fumiyasu <fumiyas@...>

さとうふみやす @ OSS テクノロジです。

14 messages 2007/09/05
[#43998] Re: ある日付の最終時刻の求め方 (秒単位) — "GOTO Kentaro" <gotoken@...> 2007/09/05

07/09/05 に SATOH Fumiyasu<fumiyas@osstech.jp> さんは書きました:

[ruby-list:44028] Re: iconvの多言語対応状況に関する質問

From: MORIYAMA Masayuki <msyk@...>
Date: 2007-09-13 09:24:55 UTC
List: ruby-list #44028
森山と申します。

S_Konno(今野 滋) wrote:
> iconvによる文字コード変換に関する質問です。
> 海外のwebpageの文字コードをユニコードに変換する際、直接のコマンド
> 
> `curl http://www.xinhuanet.com/ | iconv -f GB2312 -t UTF-8`
> 
> では、変換に成功するのですが、

glibc 2.3.4 の iconv(1) ではエラーになります。

GB2312 に機種依存文字が追加されていてそれを使っているのか、GBK もしくは
GB18030 のページにも関わらず charset=gb2312 としているのではないでしょうか?

変換エラーになっている最初の文字は、"\xf1\x62" で、GBK や GB18030 から
UTF-8 への変換ではエラーになりませんでした。

$ printf "\xf1\x62" | iconv -f gb2312 -t utf-8 | od -tx1
iconv: 位置 0 で不正な入力シーケンスがありました
0000000
$ printf "\xf1\x62" | iconv -f gbk -t utf-8 | od -tx1
0000000 e9 a6 bc
0000003
$ printf "\xf1\x62" | iconv -f gb18030 -t utf-8 | od -tx1
0000000 e9 a6 bc
0000003

GBK は GB2312 の拡張
GB18030 は GBK の拡張

となっていたと思いますので、GB18030 で変換すると良いのでは?

--
森山 将之 <msyk@mtg.biglobe.ne.jp>

In This Thread