ruby-list

From: "Hiromitsu Matsuura" <urax@wd6.so-net.ne.jp>
Subject: [ruby-list:44256] Rubyにおける日本語の正規表現のマッチングにつきまして
Date: Wed, 21 Nov 2007 03:21:57 +0900

るびきちです。

> Rubyで日本語の正規表現のマッチングを行おうと思っています。
> やろうとしていることは、htmlファイルを取得して、その中に指定した日本語が
> ある場合のみ特定の処理をしようというものです。

まず、漢字コードは何でしょうか？
Yahoo! Japanの漢字コードがEUC-JPなので、
スクリプトの漢字コードがEUC-JPならば、そのままできます。

正規表現にuオプションをつけているのは、UTF-8文字列の比較をするつもりですか？
nkfでUTF-8に変換するのは-uではなくて-wです。

#!/usr/bin/ruby  -Ke
require 'net/http'
host = 'yahoo.co.jp'
h = Net::HTTP.new(host, 80)
while htmlfile = DATA.gets
  htmlfile = htmlfile.chomp
  resp, data = h.get("/" + htmlfile, nil)
  data.each do |i|
    if /買う/ =~ i
      puts i
    end
  end
end
__END__
index.html
# >> <td class="spacer" nowrap valign=top><small><b>買う</b></small></td>



今なRubyに書き直してみるとこんな感じです。

#!/usr/bin/ruby  -Ke
require 'open-uri'
DATA.each do |htmlfile|
  puts URI("http://yahoo.co.jp/#{htmlfile.chomp}").read.grep(/買う/)
end
__END__
index.html
# >> <td class="spacer" nowrap valign=top><small><b>買う</b></small></td>

--
rubikitch
Blog: http://d.hatena.ne.jp/rubikitch/
Site: http://www.rubyist.net/~rubikitch/

Thread

Prev Next

In This Thread

Prev Next

[#44176] — "Masahiro Sugaya" <easylifenw@...>

[#44177] ヒアドキュメントのインデントについて — "Masahiro Sugaya" <easylifenw@...>

[#44178] [ANN] Ruby クックブック読書会#2 — cuzic <cuzic@...>

[#44179] [PATCH] optparse においてショートオプションがない && 引数が長い場合のサマリの修正 — Kobayashi Noritada <nori1@...>

[#44182] springnote開発者来日 — "ARAI Shunichi" <arai@...>

[#44186] [ANN] 【楽●天】テクノロジーカンファレンス2007のご案内 11/24(土) — SASADA Koichi <ko1@...>

[#44187] [ANN] オープンセミナー2007@徳島 開催のお知らせ — Kazuhiro Yoshida <moriq@...>

[#44188] Rails勉強会@東北第6回のお知らせ — 片平 裕市 <yuichi_katahira@...>

[#44189] [ANN] Rails勉強会@東京 第24回のお知らせ — "MOROHASHI Kyosuke" <moronatural@...>

[#44190] Ruby/KAKASIのインストールに失敗する — <boku.charhan@...>

[#44191] 式展開で正規表現を使う場合、うまく展開されない — ANAKI Kyosuke <anaki@...>

[#44192] [ANN]Ruby勉強会@新潟 第1回のお知らせ — "Masatoshi Itagaki" <masatoshi@...>

[#44195] オンラインマニュアル — 安井 健太郎 <yasui@...2.dion.ne.jp>

[#44200] 新潟で「Rubyビジネスセミナー」開催 — "Masatoshi Itagaki" <masatoshi@...>

[#44207] REXML で UTF16 のファイルが読み込めない — <rook401@...>

[#44208] はじめまして — "Ohto, Yasunori" <Yasunori.Ohto@...>

[#44215] String#to_i(n) 仕様変更？ — "T.Kitahara" <tko-k@...>

[#44217] Dir.[] メソッドの仕様について — "Hajime Hoshi" <hajimehoshi@...>

[#44221] RUBY FORUM 2008 開催のお知らせ — "TAISEI OKAZAKI" <okazaki@...>

[#44224] WinXPでのCursesプログラム — "Masao Ochi" <ochi@...>

[#44229] 広島県情報産業協会HiBiSまつもとゆきひろ氏公開セミナー開催 — yosfujii@...

[#44231] ”Award on Rails”2006 大賞受賞 大場寧子さんのセミナーの案内 — ito <ito@...>

[#44236] net/ftptls について — キューリ <curi@...>

[#44237] Float を利用するRubyプログラム — SASADA Koichi <ko1@...>

[#44242] Ruby on Rails とOpenOffice.orgの連携について — 今林 健太郎 <k-imahayashi@...>

[#44248] 共通で使う営業日ベースの日付計算 — "Yutaka Suzuki" <yu-suzuki@...>

[#44252] Rubyで3DESを使用する際に鍵を複数指定する方法 — 松風 敬 <shohu@...>

[#44256] Rubyにおける日本語の正規表現のマッチングにつきまして — "Hiromitsu Matsuura" <urax@...6.so-net.ne.jp>

[#44263] RUBY FORUM 2008のお知らせ — "TAISEI OKAZAKI" <okazaki@...>

[#44267] [ANN] Ruby Sapporo Night vol.4 — "SHIMADA Koji" <snoozer.05@...>

[#44276] [Q] cgi.rbについての質問 — "Makoto Kuwata" <kwa@...>

[#44280] [ANN]RubyCocoa 0.13.0 — kimura wataru <kimuraw@...>

[#44281] — <cruby47@...>

[#44282] String#toeuc に関して質問です — <cruby47@...>

[#44285] toRuby 9th, 10th — Masatoshi SEKI <m_seki@...>

[#44286] TmailをgemでWindowsにインストールしようとするとエラーになる — "garyo hosu" <garyohosu@...>

[ruby-list:44257] Re: Rubyにおける日本語の正規表現のマッチングにつきまして

Thread

In This Thread

[#44187] [ANN] オープンセミナー2007@徳島開催のお知らせ — Kazuhiro Yoshida <moriq@...>

[#44188] Rails勉強会@東北第6回のお知らせ — 片平裕市 <yuichi_katahira@...>

[#44189] [ANN] Rails勉強会@東京第24回のお知らせ — "MOROHASHI Kyosuke" <moronatural@...>

[#44192] [ANN]Ruby勉強会@新潟　第1回のお知らせ — "Masatoshi Itagaki" <masatoshi@...>

[#44195] オンラインマニュアル — 安井健太郎 <yasui@...2.dion.ne.jp>

[#44231] ”Award on Rails”2006　大賞受賞　大場寧子さんのセミナーの案内 — ito <ito@...>

[#44242] Ruby on Rails とOpenOffice.orgの連携について — 今林健太郎 <k-imahayashi@...>

[#44252] Rubyで3DESを使用する際に鍵を複数指定する方法 — 松風　敬 <shohu@...>