慕尼黑大学:双语任务中两种领域适应方法:简单易行、广泛适用( 五 )

本文研究了两个高度依赖双语嵌入的双语任务 , 并提出了专门的领域适应方法 。 实验证明 , 只涉及未标记文本的简单适应过程是非常有效的 , 且计算机视觉的半监督分类方法可以进一步促进跨语言分类任务的发展 。

BWE适应方法非常简单 , 首先对源语言和目标语言的目标域采用单语词嵌入 , 只需使用通用和目标域未标记的数据来构建它们 。 然后使用post-hoc映射 , 即 , 使用种子词汇将两种语言的单词嵌入转换为相同的向量空间 。 我们首次通过实验证明 , 使用这种非常简单的技术制作的适应领域的双语单词嵌入是非常有效的 。 我们研究了两个完全不同的任务和领域 , 跨语言的twitter情感分类和医学双语词典构建 , 其中缺乏资源 , 但我们的简单技术都表现得很好 。

其次 , 我们首次针对NLP问题采用了半监督图像分类系统 。 这种方法广泛适用于许多非标记数据可用的NLP分类任务 。 我们根据两个跨语言任务定制它 。 该系统在分类器训练过程中利用未标记的数据 , 通过学习相似标记和未标记训练示例的相似特征 , 从而从未标记的示例中提取信息 。 正如我们在实验中所展示的那样 , 该系统进一步改善了我们两项任务的跨语言知识转移 。

推荐阅读