Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

org.apache.lucene.analysis.baiducn.BaiduAnalyzer这个好像不能使用同义词和停用词 #230

Open
xiaoyichao opened this issue Apr 16, 2020 · 10 comments

Comments

@xiaoyichao
Copy link

No description provided.

@houboowen
Copy link

请问您有做区分不同语料吗

@xiaoyichao
Copy link
Author

请问您有做区分不同语料吗

按照我对你这个问题的理解,AnyQ不具备区分语料的功能。

@xiaoyichao
Copy link
Author

请问您有做区分不同语料吗

我没有做区分不用语料,因为我也没见到这个功能和配置

@houboowen
Copy link

那这样的话,可能就是所有不同领域(医疗,教育,科技,知识等不同领域)的问答都混在一起,很容易出问题吧

@xiaoyichao
Copy link
Author

那这样的话,可能就是所有不同领域(医疗,教育,科技,知识等不同领域)的问答都混在一起,很容易出问题吧

是的,所以现在我自己写了一个FAQ的框架,解决了这个问题,召回阶段使用了ES,相似度的计算使用BERT的句向量。框架的思路跟AnyQ一样。在我自己的数据集上效果还可以。正在往线上部署。

@xiaoyichao
Copy link
Author

那这样的话,可能就是所有不同领域(医疗,教育,科技,知识等不同领域)的问答都混在一起,很容易出问题吧

改AnyQ的源码代价比较大,主要是我不熟悉C++,所以干脆用python写了一个。

@houboowen
Copy link

houboowen commented Jun 23, 2020 via email

@xiaoyichao
Copy link
Author

方便加个联系方式聊吗?

------------------ 原始邮件 ------------------ 发件人: "notifications"<[email protected]>; 发送时间: 2020年6月23日(星期二) 上午10:37 收件人: "baidu/AnyQ"<[email protected]>; 抄送: "侯博文。"<[email protected]>;"Comment"<[email protected]>; 主题: Re: [baidu/AnyQ] org.apache.lucene.analysis.baiducn.BaiduAnalyzer这个好像不能使用同义词和停用词 (#230) 那这样的话,可能就是所有不同领域(医疗,教育,科技,知识等不同领域)的问答都混在一起,很容易出问题吧 改AnyQ的源码代价比较大,主要是我不熟悉C++,所以干脆用python写了一个。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

微信:woaichilizi9693

@lullaby-afa
Copy link

请问你之前做的这个项目可以发出来做个参考吗?我也是想做一个FAQ的问答,但是一个小白--

@xiaoyichao
Copy link
Author

xiaoyichao commented Jul 27, 2021

请问你之前做的这个项目可以发出来做个参考吗?我也是想做一个FAQ的问答,但是一个小白--

这个项目https://github.com/hhzrd/BERT-Embedding-Frequently-Asked-Question
参考文献中也写了AnyQ项目。再次感谢百度的AnyQ项目。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants