作者:杰少

长文本处理上分策略

简 介

【数据竞赛】长文本竞赛上分的三种策略。_深度学习

在诸多文本相关的问题中,我们不可避免的会遇到很多长短不一的文本,有的文本很短就是一句话,但有的文本则很长,有上好几千的文字甚至上万多文字,

  • 如果我们设置截取的文本长度较长,会浪费非常多的资源,这些长文本往往是长尾分布,出现的不多;
  • 如果我们不考虑这些长文本,依然默认截取长度300的文本,则这些长文本的预测效果可能会较差一些,

那么怎么办呢?本文提供三种长文本的上分技巧。

三种长文本截取策略

【数据竞赛】长文本竞赛上分的三种策略。_机器学习_02

01


随机采样

该策略很简单,因为长度很长,那么我们可以从较长的文本中随机采样一定长度的文本来表示我们的当前文本。但是优点和缺点都比较明显。

  • 简单,能近似全局文本的信息,效果有的时候还不错,但也会有波动

02


截取heads & tails的文本

该策略基于下面的假设:

  • 文本的开头和结尾的信息量是非常大的,往往是一些总结性的语句;

所以直接摘取开头或者末尾的文本效果在诸多类的策略中能带来很不错的效果。

03


组合策略

该策略则更为粗暴和高效,既然上面的策略都有一定的缺陷,那么我们干脆直接全部采用,类似于对数据进行扩充,然后预测的时候直接将三者策略的预测结果求均值作为最终的预测结果。

【数据竞赛】长文本竞赛上分的三种策略。_机器学习_03

代码

【数据竞赛】长文本竞赛上分的三种策略。_机器学习_04

摘取Heads & Tails

'''
摘自:https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/discussion/97443
'''

def convert_lines(example, max_seq_length, tokenizer, heads = True):
max_seq_length -= 2
all_tokens = []
longer = 0
for text in tqdm_notebook(example):
tokens_a = tokenizer.tokenize(text)
if len(tokens_a) > max_seq_length:
if heads:
tokens_a = tokens_a[:max_seq_length]
else:
tokens_a = tokens_a[-1*max_seq_length:]
longer += 1
one_token = tokenizer.convert_tokens_to_ids(["[CLS]"] + tokens_a + ["[SEP]"]) + [0] * \
(max_seq_length - len(tokens_a))
all_tokens.append(one_token)
return np.array(all_tokens)

适用问题

【数据竞赛】长文本竞赛上分的三种策略。_深度学习_05

适用于所有长短文本不一的问题中,经常可以带来较大的提升。

参考文献

【数据竞赛】长文本竞赛上分的三种策略。_机器学习_06

  1. 29th LB And LB 0.94376 for single Bert-Base