数据科学家分析面试问题
成功的数据科学家那管理者和分析师Excel从组织生成的数据中导出可操作的见解。他们对他们需要收集的数据有什么良好的感受,并具有用于执行有效数据分析和构建预测模型的实心过程。
这专注于数据分析的数据科学家角色要求候选人在统计数据库中具有非常强大的基础,例如统计,运营研究和机器学习,以及SQL等数据库技能,以便从各种来源中检索,清洁和处理数据。几个途径可以导致这种作用,因此候选人可以从数学或统计背景中接近数据分析面试问题,尽管许多人将来自计算机科学或工程。
这种类型的数据科学家经常将以R,Python或Matlab等脚本语言编程,并且该角色通常不会强调使用生产质量软件所需的编程语言,实践和一般软件工程技能。可能需要修改一些问题,以更加定量,统计分析面试问题。这种类型的角色通常包含呈现分析结果的需要。因此,信息可视化技能,例如Tableau或D3.js的知识,以及良好的通信者可能是非常有价值的。
运营问题
数据分析面试问题
- 描述在设计数据驱动模型时关注的步骤以解决业务问题。一个例子可能是通过主题或情绪自动对客户支持电子邮件进行分类。另一个人可能是预测公司的员工潮流。
- 在使用它们之前,请在将数据和状态下培训模型和状态在可能应用的情况下培训模型和状态,描述不同的预处理步骤。
- 您将描述哪种型号,作为简单的模型,哪些型号是复杂的?在更简单的一个方面选择更复杂模型的相对优势和弱点是什么?
- 在哪些方面可以组合模型以形成模型集合以及这样做的一些优点是什么?
- 什么是减少维数?有什么方法可以执行此操作?什么时候,为什么我们想这样做?
特定角色问题
(统计,概率和机器学习中的基本思想)
- 什么是置信区间,为什么它有用?
- 统计独立性和相关性有什么区别?
- 有条件概率是多少?什么是贝叶斯定理?为什么它在实践中有用?
- 假设我们使用特定优化过程培训模型,例如随机梯度下降。我们如何知道我们是否正在融合到解决方案?如果培训程序会聚它总是会导致最好的解决方案?
- 我们如何知道我们是否收集了足够的数据来训练模型?
- 解释为什么我们有培训,测试和验证数据集以及如何有效使用它们?
- 什么是聚类?提供执行群集的示例算法。我们怎样才能知道我们是否获得了体面的群集?我们如何估计与我们的数据一起使用的良好数量的群集?
- 我们经常说相关性并不意味着因果关系。这是什么意思?
- 无监督和监督学习有什么区别?
- 回归和分类之间有什么区别?
- 当我们谈论统计模型中的偏差方差权衡时,我们的意思是什么?
- 什么是过度配合?这种情况如何与偏差方差折衷相关?什么是正规化?在模型中提供一些正则化的例子。
- 假设我们想要培训二进制分类器,一个课程非常罕见。给出这样一个问题的例子。我们应该如何训练这个模型?我们应该使用哪些指标来衡量性能?
- 我们可以制作多少个不同对象的独特子集?
- 您如何构建数据驱动的推荐系统?这种方法有什么限制?
(工具,可视化和演示)
- 您通常在哪些环境中运行您的分析?
- 描述您使用数据库中数据的经验。你熟悉SQL吗?
- 你用过什么可视化工具(Tableau,D3.js,r等)?
- 你有一个你可以向我们展示的演示文稿,如幻灯片?
- 您是否在以前的角色中直接向高级管理层提供报告和调查结果?
- 你在公共场合觉得很舒服吗?您有没有向大型受众展示技术话题?
对于更多数据科学问题,强调编程技能和在现实世界中部署模型,请查看面试问题数据科学家(编码)角色。