spark 音乐推荐余弦相似度余弦相似度算法优缺点

转载

bingfeng 2023-12-08 15:28:05

文章标签 spark 音乐推荐余弦相似度 java c++ 数据结构反爬虫 文章分类 Spark 大数据

K-Means聚类推荐算法：

聚类属于是非监督学习的应用，选择一些类/组来使用并随机地初始化它们各自的中心点，每个组中心之间的距离进行分类，通过取组中所有向量的均值来重新计算中心；
作用： kmeans，用于数据集内种类属性不明晰，希望能够通过数据挖掘出或自动归类出有相似特点的对象的场景。其商业界的应用场景一般为挖掘出具有相似特点的潜在客户群体；

余弦相似度方法：

用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。

Top-N方法推荐招聘岗位：
Top-N推荐的一类主要方法为协同过滤，

协同过滤一般分为两大类：neighborhood-based 基于临近关系的和 model-based 基于模型的。
neighborhood-based算法就像我们找同学给我们推荐资料。就是先帮我们找到兴趣相似的人，然后把这些人喜欢的东西推荐给我们。因为
只分析用户对用户的关系或者物品对物品的关系，所以运算非常快。
Model-based算法是指对用户行为矩阵进行矩阵分解再用模型来学习已有的用户物品隐变量，用学习到的低rank的用户矩阵、物品矩阵相乘来预测结果，典型算法有SVD, SVD++,
ALS算法。因为采用了模型的方法预测了完整的用户物品矩阵，推荐的效果相对neighborhood-based较好。但是由于算法需要训练，运算时间大幅上涨。

并行爬取多数据源招聘网站招聘信息以解决招聘职位信息分布散且杂的问题，个人信息、求职意愿进行分类汇总，针对不同的用户个性化推荐职位信息；SpringBoot+Mybatis框架；信息存储采用Redis存储技术；

常见的反爬虫策略一般是通过后端技术实现，如 UserAgent 和 Referer 检测，Cookie 登陆检测，IP 访问频率监测、Ajax 异步加载以及验证码等方式。其中，常见的验证码包括图片验证码、知识问题型验证码、动作型验证码（勾选、滑块等）、短信验证码和用户信息型验证码等。
随着反爬虫和反反爬虫较量的不断升级，单一的后端反爬虫策略难以抵御反反爬虫的攻击，因此，产生了一些通过前端技术实现反爬虫的策略，如：
（1）自定义字体。
自定义字体，并通过 unicode 创建映射，正常用户访问时，浏览器加载 CSS 文件对 @font-face 自定义字体进行渲染，显示为正常信息，但源码中显示 unicode 码。如 58 同城、猫眼电影、实习僧等。
（2）元素定位覆盖。 以去哪儿网机票价格为例，页面显示价格为 1278，而网页源码中为 1248 以及 7，然后定位控制标签覆盖源代码中的数字 4；或者页面显示价格为 356，而网页源码为 635，然后通过定位控制显示顺序。
（3）css sprite(图片精灵)、雪碧图。就是一种网页图片应用处理方式，它允许将一个页面涉及到的所有零星图片都包含到一张大图中
将类似 0-9 十个数字等常用的、较小的字符拼凑成一张图片。当前端页面需显示数字时，服务器返回一张图片，浏览器解析 CSS 中图片的 background 属性，并根据 background设置的偏移量显示不同的字符。