线性回归的假设是什么?

答:线性性/可加性,误差项(

如何对回归关系做假设测验 回归分析的假设_数据

)之间应相互独立,自变量之间应相互独立,误差项的方差应为常数,误差项应呈正态分布。

回归分析是一种参数化方法,即为了达到分析目的,需要设定一些“自然的”假设。如果目标数据集不满足这些假设,回归分析的结果就会出现偏差。因此想要进行成功的回归分析,我们就必须先证实这些假设。

极大似然估计与最小二乘法的异同?

最大似然估计(MLE),就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

极大似然估计中采样需满足一个重要的假设,就是所有的采样都是独立同分布的。

OLS 是把所有变量扔到线性空间中,求线性投影的系数:它并不需要什么信息。而MLE 是需要我们知道一个完整的理论模型 (否则P(observation|model) 根本就不知道是什么)。

当模型无法变成线性状态时(比如censored data, logit/probit 之类的),此时OLS此时报告的仍然是线性投影,我们却没有用到这些“非线性”的信息,因此MLE的选项就好很多。

L1 L2范数。

如何对回归关系做假设测验 回归分析的假设_数据_02

L1范数是指向量中各个元素绝对值之和

L2范数是指向量各元素的平方和然后求平方根

L1范数可以进行特征选择,即让特征的系数变为0.

L2范数可以防止过拟合,提升模型的泛化能力,有助于处理 condition number不好下的矩阵(数据变化很小矩阵求解后结果变化很大)

(核心:L2对大数,对outlier离群点更敏感!)

下降速度:最小化权值参数L1比L2变化的快

模型空间的限制:L1会产生稀疏 L2不会。

L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。

如何避免过拟合?

1. 简化模型,降低模型复杂度;

2. early stopping(早停);

3. 数据增强(翻转、平移、旋转、缩放、改变亮度、添加噪声等等);

4. 使用正则化(通过在损失函数中添加一个惩罚项来实现正则化,最常见的技术是L1和L2正则化)

如何对回归关系做假设测验 回归分析的假设_数据分析_03

 5. Dropouts (在训练的每一次迭代过程中随机地丢弃神经网络中的神经元。当我们丢弃不同神经元集合的时候,就等同于训练不同的神经网络)

一道sql题(提取每一科成绩>80分的总分top10同学)?

讲一下LSTM的原理。

LSTM:Long short-term memory

指标筛选的方法,如何快速地定位特征?用数据挖掘的方法。

(字节跳动 | 数据分析工程师 | 社招)
平时经常使用什么产品(我回答了instgram),可不可以把它介绍给我
(1)产品的目标
(2)产品的受众
(3)产品的设计如何满足产品的目标
(4)产品其他突出的功能
(5)未来发展的方向
4.你想怎么改善这个产品,多提出几个改善的方向,怎么验证改善的好坏呢
5. 职业规划

(大华 | 数据分析)

Tuple list 的区别,占用空间,执行速度?

  • 列表(list)是动态的,长度并不是固定的,在代码中可以随意的增加,删除或者修改列表中的元素
  • 元组(tuple)的长度是固定的,一旦生成,无法对其进行增加,删除或修改操作
  • 存储相同的元素时,列表的大小比元组要大。这是因为list是动态的,它需要存储指针来指向对应的元素。另外,因为列表是可变的,为了保存插入的高效,一般会预留额外的存储空间,因此就需要记录实时的空间使用情况,当空间不足时,额外再分配空间. 列表增加/删除元素的平均时间复杂度为O(1).
  • 由于python的垃圾回收机制,对于没有引用的变量占用的内存,python会将这些内存回收,交还给操作系统。但是对于元组这样的静态变量,在占用空间不是特别大的情况下,python并不会回收,而是保留等到下一次如果需要使用差不多大的内存时,直接复用,这样就减少了向操作系统去重新申请内存的开销,效率也会更高.
  • Tuple 比 list 操作速度快。如果您定义了一个值的常量集,并且唯一要用它做的是不断地遍历它,请使用 tuple 代替 list。

Pip install ,conda安装包,路径是啥,装到哪儿了?

Import multiprocessing的一些问题

sql中Having where 的区别
Join on 条件,where条件有什么区别?

怎么取出A-B?

(B站 | 数据分析工程师 | 校招)

编程题: 最长公共子序列 : https://www.nowcoder.com/practice/6d29638c85bb4ffd80c020fe244baf11?tpId=117

In exists 的区别

给出4个1-10的数字,通过加减乘除,得到数字24就算胜利。

线性可分,线性不可分的区别

线性可分指的是可以用一个线性函数将两类样本分开(注意这里是线性函数),比如在二维空间中的直线,三位空间中的平面以及高维空间中的线性函数。这里指的可分是没有一丝误差的分开

线性不可分指的就是部分样本用线性分类面划分时会产生分类错误的现象。

在这种情况下,SVM就通过一个非线性映射函数把样本映射到一个线性可分高维空间,在此高维空间建立线性分类面,而此高维空间的现行分类面对应的就是输入空间中的非线性分类面。
hadoop的原理,工作过程

如何判断一个链表是环形的

如何判断一个链表是否有环,若有环,找出环的入口? 设置两个链表指针fast, slow,初始值都指向链表头结点,然后两个指针都往后走,不同的slow每次前进一步,即前进一个节点。 fast每次前进两步,如果存在环,两个指针必定相遇。 因为只有存在环的情况,我们才可能出现走的快的指针能再次遇到慢的指针。

Hadoop数据倾斜及解决办法
数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况

(拼多多 | 数据分析师)

你说你不是统计专业出身,那你应聘数据分析师的优势在哪儿?

100个人每人有100块钱,每次随机给别人1块钱,最后财富分布如何?
答:正态分布。可以用程序仿真一下。

追问:如果考虑特殊情况,我说就是有一个人钱没了,他说这种情况下如果允许贷款,别人无息借钱给他,最后会成什么分布。不会,他说之后你可以仿真试试。

针对用户手机里装的app,你会设计哪些指标?
答:各个app的点击频次,可以用于对比,比如微信就会打开的比较高频;针对各个app的,比如拼多多的购物车大小,付款金额,视频类的观看时长等。
他说负向的指标呢,我补充了卸载。

AB测试了解嘛?
如果AB测试结果不好,但业务人员还是执意要上线怎么办?

AB Test 实验一般有 2 个目的:

  1. 判断哪个更好:例如,有 2 个 UI 设计,究竟是 A 更好一些,还是 B 更好一些,我们需要实验判定
  2. 计算收益:例如,最近新上线了一个直播功能,那么直播功能究竟给平台带了来多少额外的 DAU,多少额外的使用时长,多少直播以外的视频观看时长等

写sql(comment_id,uid,to_id,time),弹幕回复率,每日新增用户数,每日日活。
答:每日新增用min(time) group by uid 再按天count

概率题:6黑球+1红球,有放回抽抽到红球赢,你先手,你赢的概率(4/7)。(按照这个解法应该是无放回抽才对)
答:1/7 + 6/75/61/5+6/75/64/53/41/3 + 6/75/64/53/42/31/21 = 4/7

分析题:如何识别主播的小号?
答:分析在该主播直播间的表现(观看时长完美的长,送礼大额,评论活跃等),分析除了该主播之外的表现是否异常(几乎没有其他观看及互动习惯)。

 python:字符串连续最长的长度,如abbbdeec

DBSCAN的原理,和kmeans的区别?答了高维不适用,为什么说DBSCAN不适合高维数据。

 ab测试,主播端怎么保证,选择进行,竞猜,主播侧也有,因为ab测试不可能屏蔽,主播的实验样本不好取,差异性太大,那怎么去评估开启竞猜的效果

MCN对平台的优缺点
答:优 专业化管理运营,减少主播运营成本;缺 大主播的挟持,平台缺乏话语权、主动权
游戏直播对游戏(自研)生态的影响、作用
答:1)宣传作用,宣传新的皮肤或者活动等,吸引新用户 2)提高留存:学习玩的技能,提高用户的上手
网上补充:用户互动聚集,同质化,提高粘性;送礼提高收入;轮播图广告;除此之外,还有评论私信等便于用户与主播进行交流沟通的功能,甚至现在又出了短视频功能,进一步增加用户粘性,增强用户使用体验。

 如何提升直播观看用户的次日留存?

https://www.pmcaff.com/discuss/411202496634944?from=related&pmc_param%5Bentry_id%5D=534916902590528

sql题:需要将逗号分隔的一行数据变成多行