[#36069] 日本語に混じった URL を抜き出したい — keiichi matsunaga <ma2@...>

 松永です。

26 messages 2002/10/02
[#36072] Re: 日本語に混じった URL を抜き出したい — keiichi matsunaga <ma2@...> 2002/10/02

 松永です。

[#36073] Re: 日本語に混じった URL を抜き出したい — SAITO Shukaku <shukaku@...> 2002/10/02

At Wed, 2 Oct 2002 13:51:42 +0900,

[ruby-list:36095] Re: 日本語に混じった URL を抜き出したい

From: TAKEUCHI Hitoshi <fortress@...>
Date: 2002-10-02 14:59:39 UTC
List: ruby-list #36095
 竹内といいます。出遅れました。

On Wed, 2 Oct 2002 13:51:42 +0900
keiichi matsunaga <ma2@lifemedia.co.jp> wrote:

> 落としていました。斉藤さんに紹介していただいた本も今日さっそくチェック
> してきます。

 Ruby Magic を書かせていただいた者です。本の中では RFC2396, RFC2616 に
基いて正規表現を定義してみました。本を買わずとも(^^) スクリプトは以下か
ら落とせますので、もし正規表現で試される場合はご参考になさってください。

http://www.ohmsha.co.jp/data/link/4-274-06488-3/index.htm

> 抜き出そうとすると「http://」が無いケースが往々にして存在します。その
> 場合のうまい抽出方法となると,何かあるんでしょうかね? 単なる英単語と
> 誤認しないように「www」とかを調べて確度をあげるのかなあ。 

 スキームが省略されたケースは難しいでしょうね。URL 「っぽい」ものを抽出
するぐらいはできそうですが…

-- 
TAKEUCHI Hitoshi
http://www.namaraii.com/


In This Thread