ruby-list

ご返事ありがとうございます。

今更ですが
ruby 1.8.6 (2007-09-24 patchlevel 111) [i686-linux-lp]
gem1.8 -v
1.3.5
 gem1.8 list nokogiri
*** LOCAL GEMS ***
nokogiri (1.4.0)

一つエントリを取得するのは成功しました。
--------------------
#! ruby -Ke
require 'rubygems'
require 'open-uri'
require 'nokogiri'
url = "http://www11.ocn.ne.jp/~kui168/link37.html"
doc = Nokogiri::HTML(open(url).read)
p xpath = doc.xpath("/html/body/div[@id='Layer2']/table/tbody/tr[2]/td[1]/b/font/font").text()
--------------------

Firefoxのxpather便利ですね。ビックリしました。

今度はループで全部取得したいわけですが、どうやら二ヶ所指定が必要みたいです。

'Layer#{num}'
tr[#{num}]

そして最後の　/font/font　が　/font　だけだったり…

とりあえず片方だけループしてみたんですが
--------------------
#! ruby -Ke
require 'rubygems'
require 'open-uri'
require 'nokogiri'
url = "http://www11.ocn.ne.jp/~kui168/link37.html"
vals = []
doc = Nokogiri::HTML(open(url).read)
i = 0
doc.xpath("/html/body/div[@id='Layer#{i}']/table/tbody/tr[2]/td[1]/b/font/font").each do |entry, i|
  vals << entry.text()
end

p vals
--------------------
もちろんダメです（汗）配列は空っぽです。とくにxpathの最後の部分はどう処理するか検討もつきません。

助言お願い致します。

soichi


okkez <okkez000@gmail.com> writes:

> okkez です。
>
> 2009年12月17日9:17 Soichi Ishida <zau_777_emacs@kki.biglobe.ne.jp>:
>>
>> soichi です。
>>
>> ruby 1.8.6
>> ubuntu 8.04
>> です。
>
> この情報よりも ruby -v の実行結果を貼ってもらった方が助かります。
> また使用しているライブラリのバージョンもあるとより良いです。
> gem -v
> gem list nokogiri
> など。
> # 特に Nokogiri は最近、新しいバージョンがリリースされたばかりなので。
>
>>
>> 先日は失礼しました。勉強不足でした。
>> xpathに関して質問させてください。
>>
>> http://www11.ocn.ne.jp/~kui168/link37.html
>>
>> のページから東証一部の企業データベースを作るために、企業コードと企業名、そして種類（水産、機械など）を取り出したいと思います。（CSVファイルは探せばあるんですが、自分のRuby とHTMLの勉強のためにやってます。）
>>
>> 最終的にはdo end ループでhtmlの枝先を集めていくんでしょうが、最初の一つだけを拾ってみようとこんな感じにしてみましたが、まったくダメです。
>> --------------------
>> require 'rubygems'
>> require 'open-uri'
>> require 'nokogiri'
>> require 'kconv'
>> $KCODE = "utf8"
>> url = "http://www11.ocn.ne.jp/~kui168/link37.html"
>>
>> doc = Nokogiri::HTML(open(url).read.toutf8)
>> xpath = doc.at('/TABLE/TBODY/TR')   #ここで最初の一つを取り出せるかと思ったんです
>> p doc.xpath(xpath).text()
>> --------------------
>
>
> xpath は関係ないです。
> Nokogiri は charset を見て(?)自動的に文字コードを変換してくれるので toutf8 が不要です。
> # 読み込んだ html に charset 指定があればですが。
>
> つまり今回は読もうとした文字列の文字コードと html に指定されていた charset が異なっているので
> 意図どおりにパース出来ていませんでした。(正しいオブジェクトができていなかった)
>
>>
>> まず、xpath の指定なんですが、
>> /TABLE/TBODY/TR
>>  か
>> /TABLE/TBODY/TR/TD
>> かで迷います。どちらも出来なんですが（汗）
>
> どっちも間違ってます。
> //table[1]/tbody/tr[1]/td[1] とか //div[@id='Layer2']/table/tr[1]/td[1]
> とかじゃないでしょうか。
> # xpather などの Firefox addon を使うと簡単に xpath を確認できます。
>
> Layer2 の部分を変えていけばすべての種類について情報を得ることができると思います。
>
>
>
> -- 
> okkez
> okkez000@gmail.com

Thread

Prev Next

In This Thread

Prev Next

[#46583] ActiveRecordとArrayのchoiceメソッドでエラー(1.8.7) — Gen Ito <it0gn.25@...>

[#46587] [ANN] Ruby draft specification — Shugo Maeda <shugo@...>

[#46595] nokogiriがインストールできない — Soichi Ishida <zau_777_emacs@...>

[#46602] プログラミング学習について — 清重 愛一郎 <loveone6@...>

[#46608] Ruby Shoesはどこからdownloadできますか？ — 島村竜一 <shimamura@...>

[#46612] [ANN] Ruby/SDL 2.1.1 — OHBAYASHI Ippei <ohai@...>

[#46617] 第39回 Ruby/Rails勉強会@関西にご参加いただきありがとうございました。 — よしだあつし <rudeboyjet@...>

[#46619] RubyでWindowsGUIの自動化をしたいのですが・・・ — umihaookiina <jin.mori@...>

[#46621] エラー([BUG])の追いかけ方 — "(株)ネットフォレスト 植田裕之" <ueda@...>

[#46622] [ANN] Ruby 1.9.1-p376リリース — "Yugui (Yuki Sonoda)" <yugui@...>

[#46623] [ANN] Rubyist Magazine 0028 — Masaya Konishi <mkonishi1981@...>

[#46624] ANN: Ruby-1.9.1-p376 Win32インストールパッケージ — arton <artonx@...>

[#46625] [ANN] nokogiri 1.4.1 リリース — Aaron Patterson <aaron@...>

[#46626] rcairo：はみ出しで例外 — "5.5" <5.5@...>

[#46627] ブロック付きの sort で元の配列が破壊される — "Hideo Konami" <konami@...>

[#46633] ruby-fcgiについて — 藤原 昭宏 <fujiwaraa@...>

[#46635] [ANN]『フクオカRubyフォーラム2010』開催のお知らせ — "Kenichi Nakashima" <nakashima-k8589@...>

[#46637] 【ご案内】オープンソースカンファレンス2010大分 — ehara@...

[#46638] [ANN] ActiveLdap 1.2.1 — Kouhei Sutou <kou@...>

[#46639] 動的HTMLからデータを取得 — Soichi Ishida <zau_777_emacs@...>

[#46643] [ANN] セキュリティ＆プログラミングキャンプ・キャラバン東京 — SASADA Koichi <ko1@...>

[#46646] [ANN] Sapporo.rb 2010年新春コードリーディング — Kenta Murata <muraken@...>

[#46647] RubyでWindowsの常駐サービスプログラムを作る方法 — kouichi_someya@...

[#46650] xpathについて — Soichi Ishida <zau_777_emacs@...>

[#46663] CGIでWIN32OLE.new("ADODB.Connection")が失敗する — 兼本周治＠自宅 <shujikan@...>

[#46666] TCPSocket#peeraddr に時間がかかる。 — "5.5" <5.5@...>

[#46667] Ruby/TkのTkHTMLを扱う際にsegmentation fault — 上野宏法 <ronor.u@...>

[#46672] [ANN]Miyako2.1をリリースいたしました! — cyross@...

[#46673] Ruby/GTK2でキー入力イベントをソフトウェア的に発生できません。 — Tomokiyo Nomura <tnomura@...>

[#46674] 子プロセスを kill する方法は？ — "Hideo Konami" <konami@...>

[#46682] 1.9.2におけるIOの改善について（Windows） — akuri <ak7@...>

[#46690] Float::INFINITY — "KISHIMOTO, Makoto" <ksmakoto@...4u.or.jp>

[#46694] Windowsでの起動の高速化は可能か？ — TOBY <toby_ml@...>

[#46699] requireについて — 北村寛 <kitayuta@...>

[#46704] [ANN] Ruby 1.8.7-p248 released. — Urabe Shyouhei <shyouhei@...>

[#46705] [ANN] ja font patch for pdf-writer-1.1.8 — Noritsugu Nakamura <nnakamur@...>

[#46713] 拡張ライブラリで引数の数が違うオーバーロード関数の定義の仕方に関する質問 — ueda <tueda@...>

[#46721] Rumix 1.00 リリース、および前回のメールでの誤記のお詫び — Dice <rubyist@...>

[#46723] 「Rubyリファレンスマニュアル刷新計画」2009-12分のスナップショットリリース — okkez <okkez000@...>

[ruby-list:46659] Re: xpathについて

Thread

In This Thread

[#46602] プログラミング学習について — 清重愛一郎 <loveone6@...>

[#46617] 第39回　Ruby/Rails勉強会@関西にご参加いただきありがとうございました。 — よしだあつし <rudeboyjet@...>

[#46621] エラー([BUG])の追いかけ方 — "(株)ネットフォレスト植田裕之" <ueda@...>

[#46633] ruby-fcgiについて — 藤原昭宏 <fujiwaraa@...>