[#41251] mswin32(もしくはActiveScriptRuby)でRuby/Tkを使うには? — "conundrum /" <conundrum@...>

conundrumです。

12 messages 2005/10/11

[#41284] 条件に合う見出しの内容だけを抽出 — isawa_kz <isawa_kz@...>

井沢と申します。

32 messages 2005/10/14
[#41299] Re: 条件に合う見出しの内容だけを抽出 — Kousuke Honda <kousuke4@...> 2005/10/14

本田です。はじめましてです。

[#41300] Re: 条件に合う見出しの内容だけを抽出 — isawa_kz <isawa_kz@...> 2005/10/14

井沢です

[#41301] Re: 条件に合う見出しの内容だけを抽出 — しん <dezawa@...> 2005/10/14

出沢です

[#41340] Date へのメソッド追加要望 — MATSUNO Tokuhiro <tokuhirom@...>

tokuhirom@Inamode6:897 です。

19 messages 2005/10/22

[#41371] 北九州市の rubyist へ — Akimichi Tatsukawa <akimichi_tatsukawa@...>

こんにちは。立川察理と申します。

13 messages 2005/10/25

[#41400] 全角スペースを区切りとした文字列分解で — 中村 英夫 <cxn03651@...>

中村と申します。

10 messages 2005/10/27

[#41416] Rubyでこういうの作れますか?(中央銀行編) — Omoti <omoti@...24.net>

Rubyで中央銀行システムを作りたいんですが、できますか?

14 messages 2005/10/29
[#41418] Re: Ruby でこういうの作れますか?(中央銀行編) — Sako Hiroshi <sakoh@...2.so-net.ne.jp> 2005/10/29

[#41420] Re: Ruby でこういうの作れますか?(中央銀行編) — Omoti <omoti@...24.net> 2005/10/29

そんな大規模じゃないですよ!

[#41425] "Programming Ruby 2nd edtion"の邦訳について — "higashi ryota" <ryochin_hgs@...>

始めまして。既出だったらすいません、過去ログで検索したのですが見つけられませ

10 messages 2005/10/30
[#41428] Re: "Programming Ruby 2nd edtion"の邦訳について — Yukihiro Matsumoto <matz@...> 2005/10/30

まつもと ゆきひろです

[ruby-list:41310] Re: 条件に合う見出しの内容だけを抽出

From: nakamura <BXQ04723@...>
Date: 2005-10-15 03:54:48 UTC
List: ruby-list #41310
お世話になっております。 A.中村です。

On Sat, 15 Oct 2005 00:49:37 +0900
isawa_kz様 isawa_kz@yahoo.co.jp wrote:

> data.txt から統計を取るためにデータを収集するのですが、
> 統計対象のデータにより、その都度必要となるデータが変わるためです。

データの元ネタを出してる人(か会社?)に、
「今回のデータ」あるいは「このファイル」の
見出し行(の法則性)は
これこれこーなっているよ、
というような情報を
データごとに出してもらうわけには
いかないんでしょうか?

多次元データベース(とかいうんでしたっけ?)の
カラム(っていうのかな)が
今回はどんな名前だとかどんな法則性だとか、
そういった情報を
一次ソースから貰うのが一番理想的ではあります。
交渉の余地とかは無いですか?



> 1ファイルではないです。500ファイルぐらいあります。
> 見出しに規則性はないのですが、見出しの作りは皆同じで、
> 内容だけがことなります。

(機械で抽出できるような)規則性が本当に「無い」ならば
お手上げでしょうね。

とりあえず俺が思いつく「機械で抽出可能な規則性」といえば、
正規表現エンジンとか
構文パーサーとかで
捉えることが可能な範囲の「規則性」
だったりします。
#俺が知らんだけで、もっと他の手も有るのかな?
#まあ何れにせよ何らかの法則性ってことで。
その範囲で収まっていればいいのですが…

もし、収まらないなら…
500個「も」あるファイルを人力でどうにかしようと
していた、という状況自体に、問題を感じますね。
そういう、「わざわざジャンク化させたデータ」を寄越す、
という発想に。

きっと元々は「どれが見出しであるか」というメタデータは
存在していたのじゃないかと想います。
問題はそれがデータから切り捨てられてしまった状態で渡されている
という点なのじゃないかと。


In This Thread