5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

Data Mining (データマイニング) part 1

1 :名無しさん@3周年:04/11/24 20:47:23


ちょっくら語ってみろや



2 :名無しさん@3周年:04/11/24 21:03:16
おい、誰か2 ゲットしろよ!

3 :名無しさん@3周年:04/11/25 01:07:37
誰も書き込みしてくれないなんて。。。
             /ヽ       /ヽ
            / ヽ      / ヽ
  ______ /U ヽ___/   ヽ
  | ____ /   U    :::::::::::U:\
  | |?/// /Vヽ // ___   \  ::::::::::::::|  何このスレ…?
  | |?ll l lノノノ))〉|  |   |     U :::::::::::::|
  | |ヽl ´∀`ノ|||U |   |      ::::::U::::|
  | ||/ヽ!トv^ リ?| ├―-┤ U.....:::::::::::::::::::/
  | |____ ヽ     .....:::::::::::::::::::::::<
  └___/ ̄ ̄      :::::::::::::::::::::::::|
  |\?   |           :::::::::::::::::::::::|
  ?\ \?  \___     ?::::::::::::::::::::::::|


4 :名無しさん@3周年:04/12/20 01:09:12
あげ

5 :名無しさん@3周年:04/12/20 19:37:39
「part 1」の文字が寂しく輝いてますね。

6 :名無しさん@3周年:04/12/24 01:50:04
21世紀はデータマイニングの時代だ。
とかは思わないので、地味に重回帰分析と多変量解析の勉強だけします。

7 :名無しさん@3周年:05/01/12 20:42:35
http://japanese.chosun.com/site/data/html_dir/2005/01/12/20050112000001.html

米紙「韓国テレビスターが日本の寄付文化を変えた」

8 :名無しさん@3周年:05/01/15 13:58:26
実務の世界でデータマイニングとはただの集計技術を言います。
クロス表でいっぱいいっぱいです。馬鹿ばっかりですから。

9 :名無しさん@3周年:05/01/30 03:42:29
変数選択の極意とは?教えてくれや

10 :べべ:05/02/01 00:45:56
やっぱニューロだろ。

貧乏人は、重回帰と赤池AICの組合せでがまんしな。
数学音痴の文系はSOMがいいかな。

11 :名無しさん@3周年:05/02/02 22:49:11
>>10
だってさ、レコードが100万くらいで、フィールドがさぁ、7千くらいかな。
ニューロなんかしたら、、、いつ終わるか、、。5千くらいでランダムで拾ってもさ、
意味があるのかなぁ。ふあんだぁ。

12 :名無しさん@3周年:05/02/04 23:52:13
決定木のboostingが最強!
>>10 “赤池AIC”じゃ“頭痛が痛い”にならないか?

13 :名無しさん@3周年:05/02/15 23:26:52
盛り上がってないな!

14 :名無しさん@3周年:05/02/17 02:58:39
データマイニングが研究できる大学で有名なところってどこですか?

15 :名無しさん@3周年:05/02/17 20:22:04
カーネギーメロン、ペンシルバニア大学とかだよ。でもさ、商業系のデータマイニングと
機械系とか分野がわかれるよ。

16 :名無しさん@3周年:05/02/18 00:42:18
すみません。今高校2年なのですが、本を読んでデータマイングに興味を
持ちました。商売に使う印象を受けたのですが、日本の大学で研究しているところはありますか。


17 :ぼるじょあ ◆yBEncckFOU :05/02/20 08:58:36
                                         
     ∧_∧  ∧_∧                             
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕                             
  = ◎――――――◎                      山崎渉&ぼるじょあ
                                          

18 :名無しさん@3周年:05/02/20 19:53:26
>>16
学ぶより、WEKAで遊べ!
これが使いこなせれば、様々な応用分野における分析者として一人前になれるはず
その気になればJAVAのソースを読む事だってできるから、下手な講義を聴講するより
身につくはず
もしも、上記を試し学者としてデータサイエンス理論や分析手法を極める気があるなら、
最低でも博士過程(xx先端技術大とか統数研(?)あたり)に進む必要がある。
学問としては未だ二流扱いなので、やはりKDDで論文発表をするのが王道だ

19 :山.崎 渉:05/02/22 19:16:51
...これからも僕を応援して下さいね(^^)。   
  
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―
         
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。                         
  =〔~∪ ̄ ̄〕                                            
  = ◎――◎                      山崎渉                       
                                
 __∧_∧_                                                 
 |(  ^^ )| <寝るぽ(^^)      
 |\⌒⌒⌒\                                
 \ |⌒⌒⌒~|         山崎渉             
   ~ ̄ ̄ ̄ ̄                            
                            
   ∧_∧                                       
  (  ^^ )< ぬるぽ(^^)      
                                                       
    (⌒V⌒)                    
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。   
  ⊂|    |つ                                
   (_)(_)                      山崎パン 
                                         
     ∧_∧  ∧_∧
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕                          
  = ◎――――――◎                      山崎渉&ぼるじょあ

20 :名無しさん@3周年:05/02/26 21:22:17
WEKAは確かによいソフトだし、アメリカでソースの説明が本ででてますな。

21 :名無しさん@3周年:2005/05/04(水) 21:24:47
話題求む

22 :名無しさん@3周年:2005/05/04(水) 21:30:26
WEKAが良いソフトぉ?
教育用の駄作としか思えない。
そもそもDMでJavaはきっついな。

23 :名無しさん@3周年:2005/05/10(火) 21:06:13
wekaの日本語の説明書ない?

24 :名無しさん@3周年:2005/05/15(日) 23:34:57
研究でデータマイニングをやりたいと思っています。
今考えているのはマルチメディア・マイニングです。
その中でも動画を扱って何かしらのマイニングをしたいと思っています。
なんかいいネタないですかね?
動画にこだわらなくてもいいんで、こうゆうことをデータマイニングしたら
面白いとか、そんなのがあったら教えていただきたいです。

25 :名無しさん@3周年:2005/05/21(土) 14:25:16
WEKAとTanagraぐらいかな、フリーで使えるのは。
てか、WEKA日本語化してくれ・・・

26 :名無しさん@3周年:2005/05/28(土) 13:05:06
wekaって決定木以外にどの手法があるの?

27 :名無しさん@3周年:2005/06/01(水) 14:09:31
sasとspssはどう違うの?

28 :名無しさん@3周年:2005/06/11(土) 14:33:45
>>25
MUSASHI

29 :名無しさん@3周年:2005/06/11(土) 14:53:24
MUSASHIはただのデータクレンジングソフトでしょ。
分析なんてできね

30 :べべ:2005/06/12(日) 09:56:47
>>26
決定木以外で使えそうなclassifierは

SOMreg
     サポートベクターマシンを重回帰ライクに変身させたもの。
     多重共線性にめっちゃ強い重回帰って思い込めばいい。

LinearRegression
     重回帰分析だけれど二つ機能が強化されている。
     1.赤池AICを使って意味の無い項を自動的に消してくれる。
     2.リッジ回帰 ・・・ 多重共線性を回避するためのくふう。


31 :名無しさん@3周年:2005/06/12(日) 10:56:58
予測に専念するならマルチコなんて気にすることないし、
同じく、予測に専念するなら意味のない項を消す必要もない。
リッジ回帰もなんかあれだし。

wekaは決定木だけだね。

32 :べべ:2005/06/14(火) 02:18:10
>>31
マルチコが重要では無い分野もあるんですね。
この話を棚上げすれば、「WEKAは決定木」だけ
といわれるとほぼ否定はできない。

そうすると使えるのは、J48とDecisionStumpく
らいかな。

グラフ機能も気に入ってますが。
でもバグが。


33 :名無しさん@3周年:2005/06/14(火) 21:47:43
> マルチコが重要では無い分野もあるんですね。

狭義のデータマイニングではマルチコなんて一切問題にしないと思うんだけど?


34 :名無しさん@3周年:2005/06/15(水) 04:25:47
ニューラルネットはどうよ
但しオプションメニュでGUIを有効にしてから動かしてくれよ



35 :名無しさん@3周年:2005/06/15(水) 22:28:40
wekaのNNは何層でも可能?

36 :名無しさん@3周年:2005/06/16(木) 23:46:40
>>35
Hidden Layerの追加・削除はマウス操作でできる
ちなみに自動設定ではデフォルトで、
(入力変数の数+出力のカテゴリ数)÷2 の数の
1層のHidden Layerになる (Hidden Layerがaの場合)
入力変数の数+出力のカテゴリ数 のHidden Layerにしたければ、
Hidden Layer設定にbを指定する
Hidden Layer設定に0を入れた場合は、Hidden Layer無しになる
GUIによる操作だけではなく、Hidden Layer設定でいろいろな設定が可能
だと思われる



37 :名無しさん@3周年:2005/06/18(土) 23:04:18
>>31
汎化能力あげるために、いらない特徴を消したり、
損失関数に正則化項加えたりってのは意味あるんじゃないの?

38 :名無しさん@3周年:2005/06/19(日) 09:25:14
>>37
実務ではない。

39 :名無しさん@3周年:2005/06/19(日) 10:52:06
>>38
オーバーフィッティングとかどうするの?
経験とカンでうまく特徴選択してるの?

40 :名無しさん@3周年:2005/06/19(日) 11:58:24
AIC!AIC!

41 :名無しさん@3周年:2005/06/19(日) 14:32:05
>>37
線形モデル限定の話題はそろそろヤメレ、視野狭すぎ
清く正しいマイナーは、検証データを使う



42 :名無しさん@3周年:2005/06/19(日) 15:23:57
まぁ純粋マイナーは数学的に検証するだけの数学力がないから。

43 :37:2005/06/19(日) 15:36:30
>>42
ごめん。でも一応線形モデルに限った話をしてるつもりはなかったんだ。
特徴選択しないみたいにかいてあったから、ちょっと疑問に思っただけ。
結局、クロスバリデーションかなんかで色々試したりして特徴選んだり、
正則化項の係数とか決めるんでしょ?

44 :37:2005/06/19(日) 15:39:14
間違えた >>41

45 :名無しさん@3周年:2005/06/19(日) 15:40:34
ツールはどれも高いよな。200万とか個人じゃだせない。

46 :名無しさん@3周年:2005/06/19(日) 23:19:03
>>45
個人使用なら、さんざん既出のWEKAだね。
使い勝手、動作の安定性はいまいちだが、主だったマイニング手法は
揃っているし、最近じゃ市販のツールが備えているプロセスフローを
アイコンと矢印によって図式化して実行する環境まで揃えている。
WEKAが決定木だけのツールだなんていうのは、どこぞの頭悪い工作員
の発言としか思えない。
市販ツールには200万円以上の価値があると認めている一人だが、
手法の数や機能の比較だけでその価値を語ることはできないのさ。

47 :名無しさん@3周年:2005/06/20(月) 22:23:30
WEKAはJave製ってだけでアウト


48 :名無しさん@3周年:2005/06/20(月) 23:00:04
アイコンのドラッグドロップは素人だけに必須の機能。


49 :べべ:2005/06/27(月) 21:49:35
複数の目的変数があるときいっぺんにマイニングしてくれるソフトはありますか?
たとえば説明変数x1, x2, x3に値を与えたとき、目的変数y1, y2を一度に
出力してくれるソフトです。
y1, y2は量的尺度でも名義尺度でも。


50 :名無しさん@3周年:2005/07/02(土) 17:50:22
wekaってどらくらいの件数のデータ読み込めますか?
2000万件くらいのCSVデータ読ませてるんですが1時間してもロードが終わりません・・・

51 :名無しさん@3周年:2005/07/15(金) 00:02:47
>>50
2000万件はすごいですね。実務では普通ですか?
クレメンタインだったらどれくらいの時間で読み込んでくれるでしょうかね?
まあ、PCの性能によるんでしょうね。

52 :名無しさん@3周年:2005/07/15(金) 21:42:15
age

53 :べべ:2005/07/22(金) 00:42:05
WEKAのバージョンが 3-4-5 にアップしました。
3-4-4 で発生していた visualize のバグが無くなってます。つまり、
プロットをクリックするとインスタンスの情報が表示されるようになり
ました。
 きちんとメンテをしていることがわかりましたので本格的に使ってみ
ます。


54 :名無しさん@3周年:2005/07/26(火) 21:59:09
>>47
言語はよく知らないのですが、JAVAってバグでも多いんですか?

55 :名無しさん@3周年:2005/08/07(日) 02:52:03
いまいち盛り上がらんね


56 :名無しさん@3周年:2005/08/16(火) 05:54:20
>>47
何製ならおまえは満足なんだ?

57 :名無しさん@3周年:2005/08/17(水) 00:10:25
C or C++が望ましい。

理由はjapaより速いのと、個人の好み。
japa

58 :名無しさん@3周年:2005/08/22(月) 19:18:45
>>31-33
教科書見たら「マルチコの回帰式は問答無用で破棄すること」とか書いてあって、
素直にそれを信じてたんだけど、実務だとマルチコになっても全然OKってことなんですかね?
すごい・・・目から鱗です!

できればその辺詳しく教えていただきたいです。

59 :名無しさん@3周年:2005/08/23(火) 00:32:24
>>58
目的が予測(Prediction)か推定(Estimate)かということかと
一般的なデータマイニングはモデルの構造より予測精度が重要なのです。
線形回帰で精緻にモデル構造を同定するようなケースでは、
マルチコには気をつける必要がある
マルチコ発生状態ではモデルの予測値は安定していたとしても
パラメータ推定結果はふらついていて、たまたまモデルがそういう
構造になっただけかもしれないからね
リッジは荒っぽい言い方をすると、分母が0付近になる様なクリチカル
ポイント(Rank落ち)を意図的にちょいとずらしてパラメータ推定結果を
安定させるテク

60 :58:2005/08/23(火) 19:34:48
>>59
THXです。
データマイニングの基本から分かってないもんで、勉強になりました。

15 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)