【代码】【hive-SQL】string 转成 map<>
而在线上,MLP参数量大些的CTR模型,线上CXR/RPM更好。在离线AUC,MLP参数量大小 对离线AUC几乎没有影响,
【代码】【hive-SQL】多个column转成一个array_column。
的embedding_matrix存embedding,然后用embedding_lookup接口读每个id的embedding。比如id从1-100000,但1-100000里有很多值是空的,如果id是满的,从1-500都有值,可以用一个。TF的hashtable用来存不连续的id,
因为这特征反映的是 用户对item-type的偏好,而这个偏好 在那个的场景 基本是不怎么变的,就是,这特征 用户不因为 180天 或 7天训练(用next-day作为dev集)的CTR模型的AUC是涨的,(vs不加这两个特征)
用这段java代码可以复现这个报错。
grep -c the_string FILE_NAME
全量item的高频 2gram / 3gram 都可以作为item的特征。
我离线,click-auc从0.780提升到0.866,pay-auc从0.887提升到0.927,当时因一些原因,只用了少量数据训练,AUC看起来不错,就上AB实验反跌了,
用户高点击的item上的tag的Top-3,3个tag-id可以作为用户的3维特征,但是如何区分这Top-3里哪个是Top-1,还是Top-2,还是Top-3呢,比如用户Top-1点
然后如果有需要,把相关的 子jar包 去掉。
【代码】Mac 使用root用户。
在 https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip。在 https://stanfordnlp.github.io/CoreNLP/human-languages.htm
将要评估的那维特征置为默认值,比如0,观察AUC相比置0之前的降低程度。
【代码】pyspark drop_duplicates 报错 py4j.Py4JException: Method toSeq([class java.lang.String]) does not exist。
【代码】安装brew报错,Failed to connect to raw.githubusercontent.com port 443。
安装python3.8。
branch2 先从 branch1 fork出来。现在想把branch2给merge到branch1。然后 branch2 有更新 commit。然后 branch1 也更新 commit。
【代码】Linux 当前文件夹下的 所有文件中查找String。
【代码】lambda expressions are not supported in -source 1.5 (use -source 8 to enable lambda expressions)
比如搜 奶茶 在 呷哺 下单,(呷哺也在卖奶茶),有上万个 奶茶query 都在 呷哺item 下单,那么给 呷哺item 打上 奶茶tag 肯定
【代码】SQL column1 contains another column2。
在scala文件里import一个java文件,报错。很可能是import的这个java文件里的。里的代码的初始化问题。
【代码】Latex,在table的cell里换行。
可以一起用 比如 高频1gram+高频2gram+高频3gram+高频4gram。如果没有好的分词工具的话,
高频/低频 用户行为(浏览/点击/下单)是相当于 已经去掉噪声 的数据,数据质量是可以的,可以一起用 比如 高频
1,Talk Is Cheap,你的见解不是那么重要。3,职场沟通,就事论事,论事只为干事。2,少管闲事,管好自己就行了。
如果没有这个功能的话,推荐的商品,都是针对用户过去数日的兴趣,也是很直接的idea,除了重新排序商品,也有很多其他实现方式。比如 用户点击了一个健身器材,往下翻会多出很多健身器材,而不能响应用户今天实时的兴趣。
所以把item-id embedding后作为特征,就是一个让模型记住每个item信息的方式。是有一些 预测/泛化 的能力,但不影响模型在记忆的出发点,因为其实 模型本身就是 基于记忆(拟合) 的,
【代码】Latex,调整行间距。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号