算法能力的建设。。。。
ner
crf++:
1.生成实体标注数据(人工标注或者挖掘,cp数据);
2.query根据实体自动标注或者人工打标;
3.配置模板或根据query生产模板;
5.生产训练数据。
排序
模型汇总:lightGBM 、xgb、ranknet、lambdarank、lambdamart、pointwise、pairwise、listwise
特征工程
单边特征:
1.user意图id,ner、纠错,语言模型
2.doc是否有ner特征,意图特征;
双边特征:
1.语言模型相似度
2.编辑距离,cqr,ctr,BM25,距离比例
3.共现session数,共现query session数,共现query PV UV,共现次数排名,共现拼音数,共现字符数
4.是否品牌,型号,系列,产品,意图匹配
评估标准:
1.正逆序
2.正确顺序比值
3.ngcd
分析问题能力
对于badcase分类:
1.应该有结果,却没有结果
2.应该没有结果,却有结果
3.有结果但是结果不相关
4.有结果排序不是最优
分析:
1.对于第一种,首先判断有无资源,如果有判断是切词,改写,纠错,意图无召回还是ner错误导致的没有结果;如果没有资源直接跳过;
2.对于第二种,是意图判断错误;
3.对于第三种,看是是否需要改写,纠错。ner,切词导致的拼串有错误;
4.类似第三种分析思路。