一个拼多多数据分析笔试题分享给大家,附上参考答案,如有更好解法,欢迎交流学习~
表1:订单表 orders,大概字段有(user_id‘用户编号’, order_pay‘订单金额’ , order_time‘下单时间’)
表2:活动报名表 act_apply,大概字段有(act_id‘活动编号’, user_id‘报名用户’,act_time‘报名时间’)
说明:Over函数可以和其它聚集函数、分析函数搭配,起到不同的作用。例如这里的SUM,max,min,avg,还有诸如Rank,Dense_rank等。(mysql支持,hive也支持)
表1——用户行为表 tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’)
在第一问的基础上添加了限制:A操作之后是B操作,AB操作必须相邻。
lead() over() 可以轻易的实现!
表1——用户登陆表user_log,大概字段有(user_id‘用户编号’,log_time‘登陆时间’)
每天新增用户数,以及他们第2天、30天的回访比例
如何定义新增用户:用户登陆表中最早的登陆时间所在的用户数为当天新增用户数;
第2天回访用户数:第一天登陆的用户中,第二天依旧登陆的用户;(次日留存率)
第30天的回访用户数:第一天登陆用户中,第30天依旧登陆的用户;
已知A,B厂生产的产品的次品率分别是1%和2%,现在由A,B产品分别占60%、40%的样品中随机抽一件,若取到的是次品,求此次品是B厂生产的概率。
已知:P(A)=0.6,P(B)=0.4,P(次/A)=0.01,P(次/B)=0.02 求:P(B/次)
某网站优化了商品详情页,现在新旧两个版本同时运行,新版页面覆盖了10%的用户,旧版覆盖90%的用户。现在需要了解,新版页面是否能够提高商品详情页到支付页的转化率,并决定是否要覆盖旧版,你能为决策提供哪些信息,需要收集哪些指标,给出统计方法及过程。
使用A/B测试模型,分析两个版本在一段时间期限内,详情页面到支付页面的转化率变化,并计算转化率变化后引起的的GMV变化。
支付金额=从某详情页到支付页到支付成功路径用户的本次支付金额(取日平均)
采用决策①的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。并且收益提升率达到预期水平。
采用决策②的情况:本次页面改进在显著性水平内,无法证明‘转化率提升的假设’。分析原因可能是新版本样本空间不足。
采用决策③的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。但是收益提升率没有达到预期水平。