请选择 进入手机版 | 继续访问电脑版

2020年“泰迪杯”数据分析职业技能大赛A 题优秀报告:教育平台的

[复制链接]
小甜心 发表于 2020-12-31 18:07:58 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
摘要
比年来,随着互联网与通信技术的高速发展,学习资源共享与建立呈现出新的发展趋势,多样化的线上教育平台如雨后春笋般争相涌入大众视野。尤其是在本年年初,受新冠肺炎疫情的打击下,学生返校举行线下授课收到严重阻碍,由此,网络线上平台由此成为“互联网+教育”结果的重要发展领地,如何根据教育平台把握用户信息,掌握用户课程偏好并提供精准的远程课程推荐服务成为了线上教育的热点话题。因此,使用数据分析技术对教育平台的线上信息和用户学习信息举行研究具有重大意义。
针对任务一,对所给数据集举行缺失值、异常值、重复值等 方面的处理惩罚。首先使用 python 对数据举行开端的形貌性统计分析,使用 pandas 中的 info 函数举行缺失值计数,对差别的数据缺失情况接纳差别的处理惩罚方式。其次,在填补缺失值的根本上对 数据集举行异常值处理惩罚,对于重要性较高的数据,团结上下数据 大概别的数据举行填补处理惩罚。进一步地,对于重要性相对较低, 大概对实际分析过程产生的影响较小的数据举行删除处理惩罚。最后, 使用 pandas 中的 drop_duplicates 函数,对于每一行中完全相同的数据举行删除处理惩罚,删除重复项。
针对任务二,首先,对该教育平台用户举行海外和国内使用情况分布分析,重点对中国内所有省市地域举行数量统计,并使用 python 对全国各个省份的用户数量分布绘制热力图,进一步对重点省份用户分布情况举行分析。其次,根据日期信息和国务院各年份法定节沐日文件,对工作日和非工作日举行区分处理惩罚, 统计 24 小时各个时段的用户活泼度并举行详细整体分析,绘制相应的柱形图实现对该教育平台用户举行活泼度分析。最后,通过查询相关文献给出用户流失概念,盘算用户流失率并对未流失客户流失风险品级举行分类。最终团结上述用户分布、用户活泼度以及用户流失率分析,为该教育平台提供线上管理决定发起。
针对任务三,首先根据用户到场学习的记录,对每门课程的到场人数举行统计并盘算出每门课程的受接待程度。其次根据相关数据,选出用户 ID 和课程列,举行用户-课程关系表的排布, 并基于物品的协同过滤算法盘算课程间相似情况,并对总学习进度最高的五名用户推荐相似的课程。最后对课程收费差异与用户学习进度举行相关性分析,并在此根本上给出线上课程的综合推荐策略。
目次
1、问题分析
2、任务一
2.1缺失值处理惩罚
2.1.1缺失情况说明
2.1.2缺失数据处理惩罚过程形貌
2.2异常值处理惩罚
2.2.1异常情况说明
2.2.2异常数据处理惩罚过程形貌
2.3重复值处理惩罚
2.3.1重复情况说明
2.3.2重复数据处理惩罚过程形貌
3、任务二
3.1用户分布分析
3.1.1海表里用户分布分析
3.1.2省份用户平台登岸次数分析
3.1.3省份用户分布情况分析——基于热力图
3.1.4重点省份用户平台登岸次数分析
3.1.5重点省份用户分布情况分析——基于玫瑰饼图
3.2用户活泼度分析
3.2.1日期数据预处理惩罚
3.2.2用户活泼度整体情况分析
3.2.3工作日用户活泼时间段分析
3.2.4非工作日日用户活泼时间段分析
3.3用户流失率分析
3.3.1流失情况说明
3.3.2用户总体情况分析
3.3.3流失天数及流失率分析
3.3.4未流失客户流失风险品级分类分析
3.4线上管理决定发起
3.4.1宣传方面
3.4.2活泼度方面
3.4.3流失方面
4、任务三
4.1用户到场课程情况分析
4.1.1用户课程选择分析
4.1.2课程受接待程度分析
4.2用户选择课程情况
4.2.1用户-课程关系表
4.2.2协同过滤算法概述
4.2.3课程间相似度情况——基于协同过滤法
4.2.4重点用户课程推荐结果
4.3课程收费差异与用户学习进度相关性分析
4.3.1课程代价与学习进度关系
4.3.2相关性分析结果
4.4线上课程综合推荐策略制定
4.4.1课程角度
4.4.2用户角度
5、参考文献
1、问题分析

1.分析平台用户的活泼情况,盘算用户的流失率。
2.分析线上课程的受接待程度,构建课程智能推荐模子,为教育平台的线上推荐服务提供策略
2、任务一

2.1缺失值处理惩罚

2.1.1缺失情况说明

在本次数据分析过程中,缺失数据将被进一步划分成为三个部门,一类数据是数据为 0 的情况,一类是数据为空值的情况,一类是数据为特殊符号,比方“–”的数据。
针对差别的数据缺失情况,本次分析将会接纳差别的处理惩罚方式:
1、针对数值为 0 的情况,需要举行实际的分析,回归到原始数据中去,判定该数据为 0 时是否具有实际意义。如果没有就将其作为缺失值做删除处理惩罚。
2、针对数据为空值的情况,如果该特征数据缺失情况低于 10%,则团结该特征的重要性举行综合判定。如果字段重要性较低,则思量直接删除,如果字段重要性较高,则举行插值法大概接纳数据均值举行填补。
3、针对数据为特殊符号的情况,需要团结原始数据判定该数据为缺失值照旧异常值。如果是缺失值则如 1 操纵举行处理惩罚。如果为异常值,则举行异常值处理惩罚,详细异常值处理惩罚过程将在下文中举行阐述。
2.1.2缺失数据处理惩罚过程形貌

思量到数据的体量较大,因此使用 python 中的 pandas 对数据举行开端的形貌性统计分析。使用 pandas 中的 info 函数举行缺失值计数。对详细的缺失数据删除使用 dropna 函数。
如图所示,login 数据表不存在数据缺失值问题。Study_information 数据表中user_id 字段和 school 字段存在一定的缺失情况。思量到该字段数据缺失情况不明显,因此对 user_id 举行删除处理惩罚。而 school 字段数据缺失明显,且为非重要字段,因此对该字段接纳生存措施,不举行任何的相关操纵。Users 数据表中 price 字段存在一定的数据缺失情况。此中对于数据为 0 的字段本次分析判定为免费课程,数值有效。而针对空值部门的数据则思量接纳以下措施:对于别的用户出现过程的课程,则接纳均值取代,对于之前从未出现过程的课程而言,则做删除处理惩罚。最终删除后数据如表所示。
图 1 login 数据表信息形貌
图 2 study_information 数据表信息形貌
图 3 users 数据表信息形貌
表 1 缺失值处理惩罚情况形貌表

2.2异常值处理惩罚

2.2.1异常情况说明

在本次数据分析过程中,针对已经举行完数据缺失值处理惩罚之后的数据举行异常值处理惩罚。异常值数据只是在数据表中存在特殊符号的数据。
对于已经被判定成为异常值的数据,将根据数据的重要程度举行以下操纵:
1、针对重要性较高的数据,团结上下数据大概别的数据举行填补处理惩罚。
2、针对重要性相对较低,大概对实际分析过程产生的影响较小的数据举行删除处理惩罚。
2.2.2异常数据处理惩罚过程形貌

在实际数据处理惩罚过程中,发现 users 数据中 recently_logged 字段存在异常符号“–”(共计 5376 条),详细分析来看。该数据大概为缺失值,大概为用户注册后为登录的正常数据。团结后续分析与别的表格的可关联性,对“–”举行分类处理惩罚。对于在 study_information 中出现的选课信息的用户,接纳其选课的最后时间来替换“–”。与此同时,思量到后续分析中流失值的盘算,以及实际过程中确实存在注册后不再举行登录的大概性存在,因此剩余的“–”异常值将接纳注册时间替换,也可以明白为将用户注册的时间视为用户最后一次使用该软件的时间。
表 2 异常值处理惩罚情况形貌表

2.3重复值处理惩罚

2.3.1重复情况说明

在完成缺失数据和异常数据处理惩罚之后,对数据举行重复值的删除处理惩罚。此处的重复值是指在数据表中用于分析的各个字段均一致。
2.3.2重复数据处理惩罚过程形貌

使用 pandas 中的 drop_duplicates 函数,对于每一行中完全相同的数据举行删除处理惩罚。此中对于 study_information 中的 school 做忽略处理惩罚。
表 3 重复值处理惩罚情况形貌表

3、任务二

3.1用户分布分析

3.1.1海表里用户分布分析

由数据可以得出,该线上教育平台海外分布相对较少,大部门业务会合在中国地域。此中,在海外部门地域,英国占比相对较高,占比海外用户量的 66%。详细分布情况如下图表所示。
表 4 海表里用户数量分布表


3.1.2省份用户平台登岸次数分析


海表里用户分布条形图
进一步的,对中国内所有省市地域举行数量统计,详细结果如全国省份用户分布图表所示。
由地理分布来看,该平台主要的服务人群是在华中和华南地域为主,代表的都会为广东,浙江,上海等省市,而相对比较偏远的西部地域分布较少,比方内蒙古、西藏、云南等地。当前重点地域的分布与我国现在互联网发展的情况大体一致,这与线上平台依托于互联网发展密切相关。
表 5 全国省份用户登录人数分布占比统计表


全国省份用户分布条形图
3.1.3省份用户分布情况分析——基于热力图

根据全国各个省份的用户分布绘制热力图,有图可以清晰的感知到,该线上平台地域分布较为广泛,覆盖了我国所有的省市。

全国省份用户分布热力图
3.1.4重点省份用户平台登岸次数分析

此中,分布最为广泛的省市为广东、湖北、贵州、河南三地。其用户登录量分别为 120887,33149,18786,18550。四个所在累计的用户登录数量高出全国数量半数以上,累计占比 50.44%。
图 7 分布前十省份占比情况明细图
3.1.5重点省份用户分布情况分析——基于玫瑰饼图

对于排名前 4 的重点省份地域,本研究将进一步挖掘出省份内各个地域的分布情况。通过对于各个地域的研究,为后续找出线上平台的用户画像提供参考。
由各个重点省市地域的分布情况来看,可以看出各个省市中都存在一个或两个重点地域,如武汉、贵阳、广州、周口和郑州等地。该地域的存在使得省份的占比数据大幅提升。因此,后续在进一步的细分研究中,可以对以上地域举行重点观察。比方举行问卷分析,面对面访谈等方式。
图 8 湖北省各地域用户分布占比图
图 9 贵州各地域用户分布占比图
图 10 广东各地域用户分布占比图
图 11 河南各地域用户分布占比图
3.2用户活泼度分析

3.2.1日期数据预处理惩罚

在任务 2.2 中,工作日与非工作日需根据日期举行预先的区分,本文中将星期一到星期五界说为工作日,星期六和星期天界说为非工作日。进一步地,全面思量到国家法定节沐日的调休日期,在日期处理惩罚过程中本文使用国务院发布的2018-2020 年法定节沐日通知对工作日和非工作日日举行调解,以确保工作日日期的准确性。综上所述,任务 2.2 主要步调如下所示。
步调 1.使用 login 数据集,将 login_time 举行日期和详细时间的分列处理惩罚, 以此区别日期和各天的时间段,如“2020/3/20 0:00:00”分为“2020/3/20”,“0:00:00”。分别将其定名为“login_data”和“login_time”;
步调 2.根据分割得到的日期和时间点,对应相应年份的日期设置相对应的星期,如“2020/3/20”对应“星期五”;
步调 3.基于步调 2,将星期一到星期五统一编码为工作日,星期六和星期天编码为休息日,该列定名为login_workingday1;
步调 4.针对国家法定节沐日,本文从国务院官网确定法定节沐日日期和相应工作日日期,举行统一识别,更正该时间段的工作日和休息日编码,调解后该列定名为 login_workingday2,详细节沐日信息如表所示。
表 6 2018 年 9 月-2019 年 6 月节沐日分布表


步调 5.在工作日与非工作日编码竣事后,本文将一天的时间按照每小时举行时间分段,共分为 24 个时间段,并对其举行编码。详细时间段分布表如表所示。
表 7 时间段编码表

步调 6.统计工作日与非工作日各个时间段用户登录总频次,分别定名为workday_fre 和 holidayday_time,进一步盘算各个时间段每分钟用户登录的次数workday_fre_min 和 holidayday_fre_min。
基于上述六个步调,最终得出用户活泼度统计表与用户登录频次统计图,详细变量形貌如下表所示。
表 8 变量形貌

3.2.2用户活泼度整体情况分析

本任务中的工作日主要为星期一到星期五,以及国务院公布公布的调休工作日。非工作日主要包括星期六和星期日,以及国务院发布的法定节沐日。颠末数据预处理惩罚,本文已经对工作日和非工作日举行了科学地域分,进一步地,将时间段根据 24 小时分为 24 个时间段,为了更科学地形貌登岸频次,在本任务中不光展示了各个时间段的登录总频次,也统计了各时间段单位时间的登岸频次。工作日和非工作日的分布图详细如图所示(绿色柱形体现工作日计数,折线体现非工作日计数)。
整体来看,工作日和非工作日的登岸频次基本一致,均在上午 9:00-11:00, 下午 14:00-17:00,晚上 20:00-21:00 出现三个高峰,颠簸趋势基本一致。对比来看,各个时间段的登岸频次远高于非工作日的登岸频次,夜间的登岸频次基本一致。详细频次分布表分析在下面部门展开。

图 12 工作日和非工作日各时间段总频次分布图

图 13 工作日和非工作日各时间段单位时间频次分布图
3.2.3工作日用户活泼时间段分析

根据分析图表来看,工作日各时间段的总登岸频次在[217,23066]区间内上下浮动,同时,各时间段单位时间登岸频次区间为[4,353]。整体来看,一天内呈现波浪式的颠簸分布,。从早上七点开始,用户登岸频次开始逐渐攀升,在 7: 00 到 9:00 期间呈现“陡坡式”攀升,上升幅度到达一天中地最大值。此中,用户登录高峰时间段在上午 8:00 到晚上 23:00,在 10:00-11:00 期间到达最高峰值,登录总频次到达23066 次,相应地在该时间段内每分钟登岸频次到达384 次。另一个小高峰主要出现在下午 15:00-16:00,登录总频次到达 21191 次,每分钟登岸频次为 353 次。总体来看,正常上班时间(8:00-17:00)的登录总频次均高于 14000 次,每分钟登岸频次高于 240 次。夜间 1:00-早上 7:00 为登岸的低谷期,各时间段总频次在 300 次上下浮动,单位时间登岸次数不高于 30 次。
一天中有登录频次有三次明显下降的时间,一是,在中午午休时间段(11: 00-13:00)有所用户登录频次有所下降;第二次主要在下午 17:00 之后,该时间段为工作人员的下班时间;第三次出现在晚上 21:00 之后,该时间段大部门人竣事一天的工作,进入休息时间。上述结果表明各个时间段登录频次的分布符合正常工作日的时间分布。详细分布频次表如表所示,各时间段总频次分布和单位时间频次分布统计图分别如图所示。
表 9 工作日各时间段登岸总频次分布表

图 14 工作日各时间段登岸总频次分布图

图 15 工作日各时间段单位时间登岸频次分布图
3.2.4非工作日日用户活泼时间段分析

根据分析图表来看,非工作日各时间段的总登岸频次在[95,8110]区间内上下浮动,同时,各时间段单位时间登岸频次区间为[2,127],显然非工作日的整体登岸频次远远低于工作日的登岸频次。和工作日相同,从早上七点开始,用户登岸频次开始逐渐攀升,在 7:00 到 9:00 期间逐步攀升,上升幅度亦为一天中的最大幅度,在 10:00-11:00 期间到达第一个峰值,登录总频次到达 7520 次, 相应地在该时间段内每分钟登岸频次到达 125 次。另一个小高峰主要出现在下午15:00-16:00,登录总频次到达 7641 次,每分钟登岸频次为 127 次。差别于工作日的是,在非工作日登岸频次最高峰出现在 20:00-21:00,登录总频次最高到达 8110 次,单位时间登岸频次到达 135 次。一天中有登录频次有明显大幅度下降的时间段主要会合在晚上 21:00-越日 1:00。总体来看,非工作日中,登录总频次明显低于工作日,且登岸的最高峰峰值出现时间点不尽相同。详细分布频次表如表所示,各时间段总频次分布和单位时间频次分布统计图分别如图所示。
表 10 非工作日各时间段登岸总频次分布表



图 16 非工作日各时间段登岸总频次分布图

3.3用户流失率分析

随着互联网与通信技术不绝完善,社会化媒体得到了迅猛的发展。尤其是在本年“疫情”的大配景下,各类教育平台如雨后春笋般纷纷涌现,层出不穷。但迅猛发展的背后,许多教育平台也逐渐进入发展瓶颈期,短时间内用户流失严重。而用户流失是社会化媒体范畴的一个重要现象,尤其是大规模用户流失。因此本文通过盘算教育平台用户的流失率,从用户流失角度分析平台用户活泼度。
3.3.1流失情况说明

针对一个发展较为成熟的教育平台而言,实际上乐成发展一位新用户的本钱大概率上是维护老用户使用该平台本钱的数倍,因此一个平台的用户流失率对于该平台的收益起着决定性的作用,意味着低用户流失率高利润营收。因此在分析用户流失率的过程中,如何理清“流失用户”和“流失率”显得尤为重要。
为了精准的盘算教育平台的流失率,而且相对准确的识别出大概流失的用户。本文团结教育平台用户的行为特征,将该平台用户细分为活泼用户、潜水用户和 流失用户。此中,活泼用户是指相对于“流失用户”而言的一类用户群体,实际上 是指那些现阶段依旧会登上教育平台举行学习,大概时不时的登上平台欣赏页面, 并会为平台带来一定收益价值的用户;潜水用户则是指某一类用户群体对该平台 暂时性大概永久性的沉默沉静使用,将该群体视为潜在用户,其倘佯在流失边缘;流 失用户是针对那些曾经访问使用过平台或是注册过的用户,但由于某些原因对该 教育平台失去了兴趣,不被平台上的课程所吸引,逐渐远离平台最终放弃从该平 台上获得知识,成为流失用户。这三类用户行为并不是严格意义上的划分,二是 处于临界及相互转换的状态。
因此本文使用所收集到的数据,盘算每位用户最近访问平台的时间与该样本数据收罗停止时间(2020 年 6 月 18 日)的差值,即                                       σ                         i                              =                               T                                   e                            n                            d                                       −                               T                         i                                  \sigma_i =T_{end}-T_i               σi​=Tend​−Ti​,此中                                       T                                   e                            n                            d                                           T_{end}               Tend​ 为数据观察窗口停止时间(2020 年 6 月 18 日),                                       T                         i                                  T_i               Ti​为用户i 最近的访问时间,并以此为依据对这三类用户举行划分。若                                       σ                         i                                  \sigma_i               σi​大于 90 天,则将该用户视为流失用户;若                                       σ                         i                                  \sigma_i               σi​小于 90 天且大于 60 天,则将该用户视为潜水用户;若                                       σ                         i                                  \sigma_i               σi​小于 60 天,则将该用户视为活泼用户。进一步的,可以盘算得到该平台的流失率为:
3.3.2用户总体情况分析

本文使用SPSS 软件对该平台上所有用户最近访问平台时间与数据观察窗口停止时间的差值举行形貌性统计分析,其结果如下表所示:
表 11 时间差值形貌性统计分析表格

由上表可以发现,该教育平台的用户中有最长时间达 646 天没有登上教育平台,约有 0.3%的平台用户有 600 天没有登上该平台,约有 41.9%的平台用户在90 天内登上平台举行学习。从上表可以看出该平台用户登上平台时间差值的均匀值为 191 天,此中隔断数据观察窗口停止时间 7 天前(2020 年 6 月 11 日)登上网站的人数越多,高达 2562 人,约有 5.6%的用户在 2020 年 6 月 11 日登上该平台,有 10.6 的用户在 6 月 11 号之后登上平台举行学习。

图 18 各类时间差值人数折线图
由上图可知大多数用户的时间差值大多聚集在 0-144 天之间,该期间人数占所有用户的 56.5%。
3.3.3流失天数及流失率分析

本文将                                       σ                         i                                  \sigma_i               σi​大于 90 天的用户视为流失用户,本节对教育平台上流失用户的流失天数以及流失率举行分析。
图 19 流失用户的流失天数
从上图可以发现流失用户的流失天数存在三个峰值,分别在 115 天、242 天和 452 天到达极高值点,分别有 300 名用户、229 名用户和 261 名用户流失,且646 天前就有一位用户流失,均匀该平台每天约有 40 名用户流失,对该网站是去兴趣放弃在该平台上举行学习。
通过流失率盘算公式,我们可以盘算得到两年的客户流失率为 58.09%,有25505 位用户流失,表明自 2018 年 11 月 4 日起,该平台的用户开始流失,停止2020 年 6 月 18 日,有超两万名用户从平台上流失,高出一半平台用户数量。只管每年平台用户数量在逐渐递增,但是平台用户流失量也在不绝增加,且吸引新用户的本钱远高于维护老用户的本钱。这暗示了,该教育平台应尽快寻找影响用户流失的因素,深入研究分析用户对该教育平台的满意度以及感知有用性。该教育平台制定防止老用户流失的策略亟待解决。
3.3.4未流失客户流失风险品级分类分析

本文将                                       σ                         i                                  \sigma_i               σi​小于 90 天且大于 60 天,则将该用户视为潜水用户;若                                       σ                         i                                  \sigma_i               σi​小于 60 天,则将该用户视为活泼用户,并将活泼用户进一步划分为高活泼用户和低活泼用户,即                                       σ                         i                                  \sigma_i               σi​小于 60 天且大于 30 天,则将该用户视为低活泼用户;                                       σ                         i                                  \sigma_i               σi​小于 30 天,则将该用户视为高活泼用户。其结果如下图所示:
表 12 未流失用户分类表

此中,潜水用户有 4936 人,占未流失用户的 26.82%;低活泼用户有 6917 人,占未流失用户的 37.58%;高活泼用户有 6551 人,占未流失用户的 35.39%。潜水用户处于低活泼和流失边缘,该类用户有着高流失风险,教育平台应多关注该类用户,接纳一定的措施唤醒沉默沉静用户,将其转变为活泼用户。而低活泼用户在未流失用户中占比最高,表明随着时间的推移,该用户对该平台的兴趣逐渐低沉,由之前的频仍登录平台转变为登录次数逐渐淘汰,平台运营者着重关注这类用户,增强社群运营使其提高对网站的兴趣。高活泼用户在未流失用户中的人数排名第二,表明该类用户对网站的热情度较高,是平台创造价值收益的主要来群体,属于重要价值客户群体。
3.4线上管理决定发起

3.4.1宣传方面

有地域用户的分布情况来看,该线上平台的用户分布总体来说较为会合,且存在明显地域差异。因此针对差别地域的用户,我们需要接纳差别的方式来举行处理惩罚。首先,对于用户数相对较为巨大的地域而言,该线上平台可以在此处加大宣传力度,进一步打开市场,增加顾客黏性。更为重要的是,对于这些重点地域增加观察,摸清该地域用户的特点和与其他地域的焦点差异所在,为以后指定营销方案提供根本。其次,对于现在仍未重点开放的省市而言,不可盲目夸大范围, 投入资本。需要在包管重点地域人员稳定的情况下,再举行逐一攻破。
与此同时,在观察中不难发现,线上教育平台用户的数量与相应地域的经济发展水平和互联网发展水平存在高度的相关关系,因此这些客观的因素也应该被纳入到相应的思量范围中去
3.4.2活泼度方面

根据分析可以知道,工作日和非工作日的登岸频次基本一致,均在上午 9: 00-11:00,下午 14:00-17:00,晚上 20:00-21:00 出现三个高峰,颠簸趋势基本一致。而且工作日登岸最高峰值在上午 10:00-11:00 出现最高峰值,非工作日在夜间出现峰值,所以根据出现峰度的区间,在线教育平台可以在该时间段增强系统维护,包管课程流通度,并在该时间段多植入相关课程广告以及相关课程销售运动,以此留住更多客户,提高课程的吸引力和销售额。
3.4.3流失方面

教育平台可以充分使用大数据分析软件为自身提供服务,进一步低沉教育平台用户的流失率。通过相关分析软件对平台用户举行实时动态分析,把未流失的用户分为忠实用户、一般用户、潜水用户。首先,对于经常到教育平台上课的长期忠实客户,可以赋予他们在该教育平台上的 VIP 资格,给予忠实客户长期的优惠得到他们对该平台的信任,用以确保他们对该教育平台的忠诚度。其次,针对一般用户,由于该部门用户尚未与教育平台创建长期的信赖,倘若教育平台不举行良好的策略性营销,很容易使其转化为潜水用户并最终成为流失用户。因此, 教育平台可以根据这部门用户的行为特征,自身的偏好和需求,在平台上投放相关优质产物的信息,引发用户的活泼度,进而引导他们成为忠实永不。针对潜水用户,教育平台可认为该部门客户已经具备很高的流失风险,教育平台应着重增强对这部门用户的投放力度,比方低沉代价等促销手段来挽留潜水用户,重新激活流失客户。
针对教育平台方面,其应增强自身实力,提高课程的风致,博得广大用户的喜爱,提高该平台的服务质量,极大的提升平台用户的满意度以及对该教育平台的依赖度。同时教育平台针对差别用户的兴趣爱好和偏好,根据平台用户经常欣赏和购买课程记录来推断用户的购买意向,制定个性化推荐,进而向差别的用户推荐他们最有大概喜欢的课程,获得用户的满意。
4、任务三

4.1用户到场课程情况分析

4.1.1用户课程选择分析

根据用户到场学习的记录,对每门课程的到场人数举行统计,其统计结果如课程到场人数分布图所示:

图 20 课程到场人数分布图
由课程到场人数分布图来看,该教育平台上有 41.84%的课程到场人数低于100 人,有 33.89%的课程到场人数在 100-500 人,即该教育平台上约有 75.73%的课程到场人数低于 500 人,仅有 24.27%的课程到场认出高出 500 人。此中,不难发现课程 76 是唯一一个选的课程人数最多的课程且有 13265 名用户选择该课程,这表明经心设计,内容丰富的课程 76 可以大概引发用户的学习兴趣,吸引更多的平台用户。
4.1.2课程受接待程度分析

进一步的,对该平台上所有的课程以及每门课程的到场人数举行统计,并按照受接待程度公式盘算每门课的受接待程度,即:                                       γ                         i                              =                                                    Q                               i                                      −                                       Q                                           m                                  i                                  n                                                                            Q                                           m                                  a                                  x                                                 −                                       Q                                           m                                  i                                  n                                                                \gamma_i=\frac{Q_i-Q_{min}}{Q_{max}-Q_{min}}               γi​=Qmax​−Qmin​Qi​−Qmin​​
此中,                                       γ                         i                                  \gamma_i               γi​为第                              i                          i               i 门课程的受接待程度,                                        Q                         i                                  Q_i               Qi​ 为到场第i 门课程学习的人数,                                       Q                                   m                            a                            x                                           Q_{max}               Qmax​ 和                                       Q                                   m                            i                            n                                           Q_{min}               Qmin​分别是该平台上所有课程中到场人数最多的课程所多应的人数和到场人数最少的课程所对应的人数。其详细盘算结果如受接待程度排名前十门课程图表所示:
表 13 受接待程度排名前十门课程表


图 21 受接待程度排名前十门课程图
由上述图表来看,受接待程度排名前十门的课程分别是课程 76、课程 31、课程 17、课程 191、课程 180、课程 52、课程 34、课程 171、课程 50 和课程 12, 与其相对应的受接待指数分别是 1.0000、0.7177、0.6411、0.5372、0.4691、0.4602、0.4303、0.4098、0.4027、0.3639。此中受接待指数的最大值和最小值相差 0.6369, 到场课程 76 的用户人数高出一万名,而到场课程 12 的用户人数仅有 4826 名未到达课程 76 到场人数的一半,差距较为悬殊。这表明该教育平台上的优质课程呈现出较为明显的南北极分化,相关人员在安排课程时应强调均衡发展,在保持特色优质课的同时,提高课程到场人数少的课程质量。
4.2用户选择课程情况

4.2.1用户-课程关系表

根据 study_information 数据,选出用户 ID 和课程列,举行用户-课程关系表的排布。若用户选择了相关课程,则对应显示为 1;反之,若用户没有选择该课程,则对应显示为 0,详细的用户课程关系表呈现在 stu.xsxl 文件中。

图 22 用户-课程关系图
4.2.2协同过滤算法概述

基于物品的协同过滤算法就是给用户推荐那些和他们之前喜欢的物品相似的物品。在盘算邻居时接纳物品自己,是基于用户对物品的偏好找到相似的物品, 然后根据用户的汗青偏好,推荐相似的物品给用户。从盘算的角度看,就是将所有用户对某个物品的偏好作为一个向量来盘算物品之间的相似度,得到物品的相似物品后,根据用户汗青的偏好预测当前用户还没有体现偏好的物品,盘算得到一个排序的物品列表作为推荐。如下图所示,对于物品 A,根据所有用户的汗青偏好,喜欢物品 A 的用户都喜欢物品 C,得出物品 A 和物品 C 比较相似,而用户 C 喜欢物品 A,那么可以推断出用户 C 大概也喜欢物品 C。
图 23 基于物品的协同过滤算法示意图

本文中基于物品的协同过滤算法主要步调如下:
步调 1:形成用户-课程关系表。过滤出课程 i 和 j,形成用户对应相关课程计数的表
来源:https://blog.csdn.net/weixin_47922824/article/details/111881846
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


专注素材教程免费分享
全国免费热线电话

18768367769

周一至周日9:00-23:00

反馈建议

27428564@qq.com 在线QQ咨询

扫描二维码关注我们

Powered by Discuz! X3.4© 2001-2013 Comsenz Inc.( 蜀ICP备2021001884号-1 )