[#36069] 日本語に混じった URL を抜き出したい — keiichi matsunaga <ma2@...>

 松永です。

26 messages 2002/10/02
[#36072] Re: 日本語に混じった URL を抜き出したい — keiichi matsunaga <ma2@...> 2002/10/02

 松永です。

[#36073] Re: 日本語に混じった URL を抜き出したい — SAITO Shukaku <shukaku@...> 2002/10/02

At Wed, 2 Oct 2002 13:51:42 +0900,

[ruby-list:36087] Re: 日本語に混じった URL を抜き出したい

From: HAMAI Kyoichi <k-hamai@...>
Date: 2002-10-02 08:32:39 UTC
List: ruby-list #36087
濱井と申します。
2002/10/02 14:08:34 +0900にshukaku@j-mac.co.jpさんが送られた
メールに関する返信です。

>>  ちょっと本筋とははずれますが,自由入力されたメッセージ中から URL を
>> 抜き出そうとすると「http://」が無いケースが往々にして存在します。その
>> 場合のうまい抽出方法となると,何かあるんでしょうかね? 単なる英単語と
>> 誤認しないように「www」とかを調べて確度をあげるのかなあ。 

そもそも、自由入力された場合、それが、URLの省略形として書いたかどうか
もわからないと思いますが。
"http://xxx.yyy.zz/"の"xxx.yyy.zz"の部分は、ホストを識別するための
FQDN(fully qualified domain name)ですから、色々なところで出てきます。
# メールのReceivedヘッダにもあらわれます。

>どうやるんでしょうね?自分でもしばしば"www.google.com"だけを書いたりしま
>すし、"auction.yahoo.co.jp"のように"www"を伴わない場合もありますし。うー
>む、抜き出したURLの候補にnslookupとかpingでも実行しますかね?^^;

ネットワーク的につながっていても、HTTPサーバが動いているとは限らない
です。メールサーバとかかもしれませんし、単なるクライアント
かもしれません。

In This Thread