R语言在电子商务中的运用

1、建模环境简述
1)数据情况:a、客户维度:亿级-> 千万级
b、商品维度:千万级->百万级
c、数据量:M-G级
2)分析场景:
a、探索分析:均值、方差、分位数、列联表
b、基础分析:假设检验、相关分析、主成分(因子)分析
c、挖掘模型:回归、Kmeans聚类、决策树、关联规则、时序等
d、可视化图形:条图、直方图、概率密度图、定制化图形
e、重复性分析:
R相关的包:ff:大数据,biglars:回归分析,bigrf:随机森林
包或支持 运行环境 优势 劣势
BLASA 单机 直接并行化 只针对于数学计算有效
parallel 单机 轻量级 fork方式
snow,snowfall 集群 易部署 socket
Rmpi 集群 较成熟 未采用
Rhadoop 集群 同现有环境匹配 依然有一定开发量
还有一种方式:使用R生成规则,在hadoop平台做并行
2、一般工作流程
1)通过Hive集群获取目标数据
2)在R环境下进行数据探索、清洗、转换工作
3)R环境下分析建模(Feature Selection,Benchmark)
4)评估(离线评估和分流量测试)
5)线上集成(R、Hive QL,Java,C++,Python..)
3、涉及数据挖掘、分析技术的相关R包
1)数据传递集服务(RHive、RServe、rJava、RJDBC)
2)清洗及预处理(sqldf、stringr、XML、data.table)
3)抽样、预测、分类、关联规则、特征选择、稀疏矩阵计算、矩阵分解、社交网络、分词、模型评估等
4)高性能计算(rhdfs、rmr2、Rcpp、snow)
5)自动化报告(knitr、slidify)
6)其他
4、相关案例
1)如何评价一款商品的好坏
a、可选的数据解决方案:客户投诉数据(数据量有限)、
商品评论的文本数据(所有的不满意客户都会在网站上留言,但事实并非如此)、
基于用户购买行为(用户对于商品挑剔程度不同:有的用户所有的评论都呈现攻击性态度,但这些差评并不影响未来的购物)
b、按品类,造成用户流失的原因分析略…
识别过程更加规整化、流程化。为日常运营中干预”不良”商品提供了一个有效、快速、便捷的方式。
有效减少不良商品对于客户的负面影响。阻止这些客户流失或流向竞争对手,对其他(潜在)顾客的负面影响降低至最低。
对于使用以天为记录单位的不良识别方法的应用,每天大约记录5-10种不良商品,平均覆盖100-150个客户。保守地,按照美味客户一年再购买一次商品,客单价250计算,未来一年累计额外带来900-1350万的销售额

未经允许不得转载:哈勃私语 » R语言在电子商务中的运用

本文共1034个字 创建时间:2015年10月9日23:05   
上一篇:

分享到:更多 ()