威廉希尔williamhill|新闻和更新|

我们是如何开发Auto-Suggest的:我们新的自动化人才资源工具背后的数据科学

作为一名可工作的数据科学家，我从事一些具有挑战性的项目。最近，我一直与采购团队密切合作，并领导数据科学团队，开发我们的新的自动化人才资源工具，Auto-Suggest．

自动建议是一种人才获取技术，它为可操作的任何角色生成一个最多200个建议候选人的长名单。在名单处理好之后，你可以在职位批准后的几分钟内联系合适的候选人。

在其他步骤中，创建候选长列表的自动化工作流涉及对工作描述和候选人的信息。这是我们团队已经研究了一段时间的东西。在这篇博文中，我描述了我们在每个步骤中使用的数据科学技术，以及它们如何结合起来使Auto-Suggest成为如此强大的自动化人才资源工具。

理解关键字提取

关键字或关键短语提取服务负责生成招聘广告的摘要。它通过捕获工作发布文本字段(例如，标题、描述和需求摘要)中最具描述性的单词或短语来做到这一点。

招聘广告通常的描述要素是技能或认证职位要求;经过消毒的版本职称，关键任务职位等等。

我们使用监督学习方法来解决关键字抽取问题。更具体地说，我们训练一个二元分类器(目前是一个极端梯度助推分类器)来评估一个特定的单词或短语是否是一个候选关键字或关键短语。这意味着我们评估短语的“关键字”。训练该分类器后，我们通过评估工作招聘中的所有单词/短语来提取关键字，并选择“关键字”得分最高的单词/短语。

为了决定一个短语或单词是否相关，分类器利用以下信息，包括:

术语和文件中单词或短语的使用频率
这个词或短语在有关已知技能、工作头衔、教育领域的地名辞典中出现
单词或短语在特定HTML元素中的出现
单词或短语出现在特定领域的趋势(领域描述性短语)
单词或短语的形态(例如，大写)

查询术语(QuTe)和数据的语义解释

Query Terms (QuTe)模块的目的是为数据库中的数据提供语义解释。遵循著名的嵌入技术的范例[1] [2]，我们用实值向量表示每一项，并训练这些向量以获得有意义的值。

我们的基本假设是，绑定到单个实体(候选人或作业)的数据彼此相关，因此它们的表示应该相似。从随机初始向量开始，我们迭代优化这些表示，以最大限度地提高相关项的共现概率。语义上相似的术语簇在经过训练数据(时代)几次之后就开始出现。

我们关注的四个语义类别是职位名称、研究领域、候选人技能和职位关键字。我们支持多词嵌入揭示了类似于Word2Vec原始论文的关系［１］．例如，技能' scikit-learn '与其他类似的Python库如' scipy '和' matplotlib '聚在一起。类似地，“机器学习工程师”的职位头衔与“数据科学工程师”、“数据科学家”或“机器学习科学家”等语义相关的职位头衔相近。

使用查询生成器(QuBe)制作复杂的布尔查询

Query Builder (QuBe)模块使用来自管道中以前组件的信息生成一个适当的布尔搜索查询。该查询用于直接从web检索候选人。简而言之，为了提高召回率，我们使用QuTe的类似术语列表扩展了原来的职位描述(头衔和关键字)。然后我们使用QuBe在大量的数据提供者和搜索引擎中搜索候选档案。这个组件处理响应的大小(返回的概要文件的数量)和与作业相关的质量之间的权衡。

使用Matcher识别相关候选人

Auto-Suggest是一个多步骤的过程，它积累了来自所有独立组件的噪声。为了缓解这种情况，我们建立了匹配器——一种在管道的最后一步起作用的分类机制。匹配者的职责是预测候选人是否适合某项工作。Matcher利用来自候选人简介和职位描述的信号来识别一个职位的相关候选人。

首先，我们将作业/候选对转换为它们对应的向量表示。对于每位候选人，我们只保留他们的技能、工作经验和教育背景。向量表示是对应元素的串联:

一个候选人的技能向量是根据候选人技能的嵌入计算出来的。
一个候选人的工作经验向量来自职位头衔的嵌入，考虑到工作持续时间和最近。
一个候选人的教育向量来自于候选人研究领域的嵌入。

类似地，为了计算职位描述向量，我们将职位名称的嵌入与关键字的嵌入相结合。然后，作业和候选向量都作为输入输入到匹配器。

我们把匹配过程看作一个二元分类问题，我们使用消极的抽样[1] [3]构建训练/评估数据集的技术。如果一个候选人申请了这个职位，招聘人员在可操作的内部将该申请标记为可接受，那么这个职位/候选人对就被认为是积极的。另一方面，通过从数据库中随机选择候选配置文件，人工构建负样本。我们目前的实现遵循堆叠分类器架构，其中基本估计器是神经网络和梯度增强决策树的集合。

这篇博客是由Vasilis Vassalos以及数据科学团队。

Vasilis是可操作公司的首席数据科学家。他拥有斯坦福大学计算机科学博士学位，是雅典经济和商业大学的信息学教授。

搜索表单

威廉希尔能预测赛果人力资源工具概述

威廉希尔能预测赛果人力资源工具概述

人力资源模板

人力资源模板

教程

教程

人力资源方面

人力资源方面

搜索表单

立博体系与威廉希尔体系内部人力资源概述

立博体系与威廉希尔体系内部人力资源概述

故事和见解

故事和见解

招聘与可行的

在线研讨会&事件

在线研讨会&事件

搜索表单

我们是如何开发Auto-Suggest的:我们新的自动化人才资源工具背后的数据科学

理解关键字提取

查询术语(QuTe)和数据的语义解释

使用查询生成器(QuBe)制作复杂的布尔查询

使用Matcher识别相关候选人

参考文献

[1]“向量空间词汇表示的有效估计”Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean。https://arxiv.org/abs/1301.3781

[2] Pennington, J.， Socher, R. & Manning, C. D.(2014)。手套:单词表示的全局向量。EMNLP (p / pp。1532 - 1543),

[3] Goldberg, Y. & Levy, O.(2014)。word2vec Explained:推导出Mikolov等人的负采样词嵌入方法。, abs / 1402.3722。

相关的话题

《可操作》中的可访问性功能:幕后情况

宣布我们的多样性、公平和包容调查报告

招聘策略:小型企业的全面指南

如何传达公司文化的改变:招聘营销技巧

受欢迎的话题

保持动态!

让我们一起成长

威廉希尔能预测赛果人力资源工具概述

威廉希尔能预测赛果人力资源工具概述

人力资源模板

人力资源模板

教程

教程

人力资源方面

人力资源方面

搜索表单

立博体系与威廉希尔体系内部人力资源概述

立博体系与威廉希尔体系内部人力资源概述

故事和见解

故事和见解

招聘与可行的

在线研讨会&事件

在线研讨会&事件

搜索表单

威廉希尔williamhill|新闻和更新|

我们是如何开发Auto-Suggest的:我们新的自动化人才资源工具背后的数据科学

理解关键字提取

查询术语(QuTe)和数据的语义解释

使用查询生成器(QuBe)制作复杂的布尔查询

使用Matcher识别相关候选人

参考文献

[1]“向量空间词汇表示的有效估计”Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean。https://arxiv.org/abs/1301.3781

[2] Pennington, J.， Socher, R. & Manning, C. D.(2014)。手套:单词表示的全局向量。EMNLP (p / pp。1532 - 1543),

[3] Goldberg, Y. & Levy, O.(2014)。word2vec Explained:推导出Mikolov等人的负采样词嵌入方法。, abs / 1402.3722。

相关的话题

威廉希尔williamhill|生活和文化|

《可操作》中的可访问性功能:幕后情况

威廉希尔williamhill|新闻和更新|

宣布我们的多样性、公平和包容调查报告

williamhill中国版 |立博威廉初盘规律 |

招聘策略:小型企业的全面指南

williamhill中国版 |立博威廉初盘规律 |

如何传达公司文化的改变:招聘营销技巧

是什么阻止你吗?

受欢迎的话题

保持动态!

让我们一起成长