More Related Content
PDF
PDF
Randomforestで高次元の変数重要度を見る #japanr LT PDF
機械学習チュートリアル@Jubatus Casual Talks PDF
PDF
PDF
PDF
ロジスティック回帰の考え方・使い方 - TokyoR #33 PDF
What's hot
PDF
PDF
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム PPTX
PDF
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17 PDF
TensorFlowとは? ディープラーニング (深層学習) とは? PDF
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会 PDF
PPTX
Pythonとdeep learningで手書き文字認識 PPTX
人工知能の概論の概論とセキュリティへの応用(的な~(改) PDF
Jubatusにおける大規模分散オンライン機械学習 PDF
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9 PPTX
PDF
PDF
PDF
PDF
(道具としての)データサイエンティストのつかい方 PDF
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました― PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る PDF
Viewers also liked
PPT
machine learning & apache mahout PDF
Introduction to Mahout Clustering - #TokyoWebmining #6 PDF
PDF
"Mahout Recommendation" - #TokyoWebmining 14th PDF
KEY
PPTX
PDF
ComplementaryNaiveBayesClassifier PDF
Hadoop/Mahout/HBaseで テキスト分類器を作ったよ PDF
ソーシャルウェブ と レコメンデーション -第4回データマイニング+WEB勉強会@東京 PDF
Introduction to fuzzy kmeans on mahout PDF
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model PPTX
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906 PDF
PDF
Apache Mahout - Random Forests - #TokyoWebmining #8 PDF
Mahout Canopy Clustering - #TokyoWebmining 9 PDF
PDF
Azure Machine Learning getting started PPT
Data Mining: Concepts and Techniques chapter 07 : Advanced Frequent Pattern M... PDF
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ... Similar to 協調フィルタリング with Mahout
PDF
PPT
PDF
JAWSDAYS 2014 ACEに聞け! EMR編 PDF
MapReduceによる大規模データを利用した機械学習 PDF
PDF
PPTX
20140711 evf2014 hadoop_recommendmachinelearning PPT
Hadoop ~Yahoo! JAPANの活用について~ PDF
PDF
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~ PPTX
DataEngConf NYC’18 セッションサマリー #2 PDF
マイニング探検会#09 情報レコメンデーションとは PDF
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021) PPTX
Hadoop scr第7回 hw2011フィードバック PDF
PDF
Hadoopによるリクルートでの技術調査とその活用 PDF
PPT
Hadoop~Yahoo! JAPANの活用について~ PDF
協調フィルタリング with Mahout
- 1.
- 2.
自己紹介
● Karubi Namuru
● 博士(理学),情報科学
● Kauli, inc. http://kau.li
● Twitter: @karubi
● Facebook: http://facebook.com/karubi
● 出身:広島 , 居住:東京 , Seongnam
- 3.
学生時代の話
● 在学中の研究
● 統計的手法による日常行動分析
– 実世界:ライフログ
– ウェブ:閲覧, clicks
200 200
180 180
160 160
140 140
120 120
100 100
80 80
60 60
40 40
20 20
0 0
- 4.
現在使っている知識
● 膨大な情報の処理
● 疎な分散処理
● 時系列情報を参照する情報推薦
● コンテクスト抽出
● 状況変化型の情報推薦
– いつも一緒ではない,時間は刻々と進む
- 5.
会社
● 広告の会社,情報推薦を応用した配信最適化
● Mahout を利用した商用システムも稼働中
● 2009 年 09 月から,(自称)世界初の商用利用
● 規模
● 2010 年 02 月 2200 万 UBs (ユニークブラウザ)
● 2010 年 03 月 2840 万 UBs
● 2010 月 04 月 3208 万 UBs
● 2010 月 05 月 3816 万 UBs
- 6.
今日の内容
● ネット上の資源で遊ぶ
● 前回のおさらい
● ネット上の情報源
– 映画の推薦情報
● ネット上のライブラリ
– Mahout
● 動かしてみる
– 本日はアイテムベース
● 検証
- 7.
推薦(レコメンデーション)
● 概要
● 潜在的な顧客にその人が欲しい商品を勧める
● ウェブ閲覧者のサイト閲覧履歴やクリック履歴など
をもとにユーザの嗜好パターンを学習する
● アプローチ
● コンテンツベース
● ルールベース
● 協調フィルタリング
- 8.
協調フィルタリング
● 似た人が与えた評価を利用して,アイテムの評
価を予測する
● 多くの利用者の嗜好情報を蓄積すること
● ある人と嗜好の類似する他の人の情報
● クチコミの原理と例えられる
– 趣味の似た人からの意見を参考にする
- 9.
考え方
● ユーザ A がアイテム X を好む
● アイテム X を好む別のユーザ B が好むアイテム
Y が存在する
● ユーザ A もアイテム Y を好むのではないか
● 実装で利用するのはユーザ同士の類似度
– たとえば,同じアイテムにつけた評価の相関係数
- 10.
対象する情報
● 明示的な情報源
● ユーザの評価がついているもの
– レビュー
● 明示的に選択したもの
– 評価ポイント
● 暗示的な情報源
● システムの操作履歴
– ブラウザの閲覧履歴
- 11.
明示的な情報の具体例
● 評価の内容
● 例えば映画の場合
– この映画は面白かった,つまらなかった
– ◯◯ 点 や ☆の数
– 評価を与えた映画の組み合わせ
● レビューリスト
- 12.
ネット上の情報源
● 公開されている明示的な情報源(一部)
●
The Netflix prize datasets
– Netflix :アメリカのオンライン DVD レンタルサービス
– 1 億レコード以上
– 480,189 人が 17,770 タイトルについて評価
●
Grouplens Research
– ミネソタ大の研究チーム, MovieLens プロジェクト
– 10 万, 100 万, 1000 万レコードの 3 つのデータ
– 71,567 人が 10,681 タイトルについて評価( 1000 万)
- 13.
無料のライブラリで作ってみる
● STEP 1. Java の開発環境の設定をします
● 今回は JRE 6 と Eclipse を使います
● 実際にやってみたいという方は,以下のページでも
見てやってみてください
● Javaの道,Eclipse -1.インストール
– この記事はわかりやすいのですが,ソフトウェアのバー
ジョンが古いままです.最新版をダウンロードしても多
分大丈夫だと思います.
- 14.
動作環境を整える
● STEP 2. Mahout ライブラリをダウンロード
●
Apache Mahout - Downloads and Releases
– 最新版は 0.3 ( 2010 年 6 月現在)
● 解凍する
- 15.
動作環境を整える
● STEP 3. 開発環境に登録する
● ライブラリを Eclipse に登録する
– Mahout-**-0.3.jar を使う
– Javaの道, Eclipse-3.便利な機能(環境設定)
– 「クラスパスの設定」の「4」参照
● 依存するライブラリも登録しておく
– 「 lib 」から, commons-logging-1.1.1.jar , slf4j-api-
1.5.8.jar , slf4j-jcl-1.5.8.jar , commons-cli-2.0-
mahout.jar , uncommons-maths-1.2.jar
– 「 lib 」全部登録しておいて問題ない
- 16.
データダウンロード
● Step 4. 情報源をダウンロードする
http://www.grouplens.org/node/73
● 今回は 100 万レコードのデータを使う
- 17.
データの中身
● 映画情報
● 1270::Back to the Future (1985)::
Comedy|Sci-Fi
● MovieID::Title::Genres
● それぞれ 1 本づつ
● 評価情報
● 1::1270::5::978300055
● UserID::MovieID::Rating::Timestamp
● 一人あたり 20 本分の評価
- 18.
データを整形する(1)
● Step 5. Mahout で扱えるように整形
● 解凍する
● 評価情報のみ切り抜く
– テキストエディタなどでもなんとかできる量なので,切
り取っちゃう
– タイトル情報を出力したいときは,タイトル情報やユー
ザ情報部分も切り取る
- 19.
データを整形する(2)
● Mahout 用に整形
– Mahout で使うデータ形式は「 UserId, MovieId,
Rating 」
– Perl や Python や Excel などで「,」と TimeStamp
の列を消す.
- 20.
- 21.
実行
● Step 7. 推薦を動かす
● UserID: 1 について 5 タイトルが出力できた
557::Mamma Roma (1962)::Drama
53::Lamerica (1994)::Drama
1149::JLG/JLG - autoportrait de d 馗 embre
(1994)::Documentary|Drama
1039::Synthetic Pleasures (1995)::Documentary
572::Foreign Student (1994)::Drama
● 自分のデータを登録しても推薦できる
– 「 java.lang.OutOfMemoryError: Java heap space Exception
in thread "main" 」が出た場合は以下のリンク.
● 以下のプログラムで出るエラーの意味がわかりません
- 22.
まとめ
● 手軽に本格的なアイテムベースの推薦機能がつ
くれた
● ネット上のリソースを使ってみた
● 無料のライブラリを使ってみた
● おもしろさを味わってみ
● ご質問ございましたらメールください
[email protected] まで