[#36069] 日本語に混じった URL を抜き出したい — keiichi matsunaga <ma2@...>

 松永です。

26 messages 2002/10/02
[#36072] Re: 日本語に混じった URL を抜き出したい — keiichi matsunaga <ma2@...> 2002/10/02

 松永です。

[#36073] Re: 日本語に混じった URL を抜き出したい — SAITO Shukaku <shukaku@...> 2002/10/02

At Wed, 2 Oct 2002 13:51:42 +0900,

[ruby-list:36074] Re: 日本語に混じった URL を抜き出したい

From: Tatsuhiko Miyagawa <miyagawa@...>
Date: 2002-10-02 05:59:21 UTC
List: ruby-list #36074
宮川です。

At Wed, 2 Oct 2002 14:08:34 +0900,
SAITO Shukaku wrote:
> >  ちょっと本筋とははずれますが,自由入力されたメッセージ中から URL を
> > 抜き出そうとすると「http://」が無いケースが往々にして存在します。その
> > 場合のうまい抽出方法となると,何かあるんでしょうかね? 単なる英単語と
> > 誤認しないように「www」とかを調べて確度をあげるのかなあ。 
> 
> どうやるんでしょうね?自分でもしばしば"www.google.com"だけを書いたりしま
> すし、"auction.yahoo.co.jp"のように"www"を伴わない場合もありますし。うー
> む、抜き出したURLの候補にnslookupとかpingでも実行しますかね?^^;

Perl の話で恐縮ですが URI::Find というモジュールがあります。
http://search.cpan.org/author/ROSCH/URI-Find-0.13/

URI::Find::Schemeless っていうので、scheme がないURIも推測しようと苦心
してるみたいです。


-- 
Tatsuhiko Miyagawa <miyagawa@edge.co.jp>

In This Thread