FAQ(常见问题解答)

更新时间:2020-10-09 10:44
 

反恐精英CSGO竞猜_CSGO竞猜平台『JJB竞技宝』 在网络营销中FAQ被认为是一种常用的在线顾客服务手段一个好的FAQ系统应该至少可以回答用户80%的一般问题以及常见问题。这样不仅方便了用户也大大减轻了网站工作人员的压力节省了

  在网络营销中FAQ被认为是一种常用的在线顾客服务手段一个好的FAQ系统应该至少可以回答用户80%的一般问题以及常见问题。这样不仅方便了用户也大大减轻了网站工作人员的压力节省了大量的顾客服务成本并且增加了顾客的满意度。因此一个优秀的网站应该重视FAQ的设计。

  一般是指产品的说明或者使用帮助如社区软件PHPWind帮助中心专门介绍phpwind的使用教程和技术分析使用说明百度的帮助中心有的直接当百科全书。其实像和就是一个很庞大的FAQspacebuilder用户社区中的FAQ就采用了类似的社会化问答模式。

  FAQ是客户常见的问题设计的问题和解答都必须是客户经常问到和遇到的。为保证FAQ的有效性首先要经常更新问题回答客户提出的一些热点问题其次是问题要短小精悍对于提问频率高的常见的简单问题不宜用很长的文本文件这样会浪费客户在线时间。而对于一些重要问题应在保证精准的前提下尽可能简短。为保证方便客户使用首先FAQ应该提供搜索功能客户通过输入关键字可以直接找到有关问题其次是问题较多时可以采用分层目录式的结构组织问题的解答但目录层次不能太多最好不要超过四层第三是将客户最经常提问的问题放到前面对于其他问题可以按照一定规律排列常用方法是按字典顺序排列第四对于一些复杂问题可以在问题之间设计链接便于方便地找到相关问题的答案。

  Introduce日趋增多的网络信息使用户很难迅速从搜索引擎返回的大量信息中找到所需内容。自动问答系统为人们提供了以自然语言提问的交流方式为用户直接返回所需的答案而不是相关的网页具有方便、快捷、高效等特点。

  2然后计算用户提问的问题和语料库中各个问题的相似度-------计算相似度-------余弦定理

  3最后把相似度较高的问题所对应的答案返回给用户。-------返回结果

  core:本文的核心是句子相似度的计算分别使用了TF-IDF和word2vec两种方法对问句进行向量化并在此基础上使用进行句子相似度的计算。

  Improve为了提高整个系统的运行速度本文对算法的计算进行了相应的优化。

  基于常问问题集的问答系统是在已有的问题答案对的集合中找到与用户提问相匹配的问题并将其对应的答案直接返回给用户。

  2为用户返回一个简洁、准确的答案而不是一些相关的网页。

  与传统的依靠关键字匹配的搜索引擎相比能够更好地满足用户的检索需求更准确地找出用户所需的答案具有方便、快捷、高效等特点。如果用户的提问与以往的记录相符可直接将对应的答案提交给用户免去了重新组织答案的过程可以提高系统的效率。

  常问问题集(FAQ)可以作为自动问答系统中的一个组成部分。它把用户经常提问的问题和相关答案保存起来。对于用户输入的问题可以首先在常问问题库中查找答案。

  如果能够找到相应的问题就可以直接将问题所对应的答案返回给用户而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程提高了效率。我们提出的FAQ(Frequently Asked Questions)系统在根据用户问题建立候选问题集的基础上建立常问问题集的倒排索引提高了系统的检索效率同时与传统的基于关键词的方法相比用基于语义的方法计算相似度提高了问题的匹配精度。

  问答式检索系统允许用户用自然语言提问从大量异构数据中准确而快速查找出提问的答案是集自然语言处理技术和信息检索技术与一体的新一代搜索引擎。这种提供准确、简洁的信息的方式更接近于人的思维和习惯是下一代搜索引擎的发展方向。

  FAQ问答系统是一种已有的“问题-答案”对集合中找到与用户提问相匹配的问句并将其对应的答案返回给用户的问答式检索系统。由于FAQ问答系统免去了重新组织答案的过程可以提高系统的效率还可以提高答案的准确性。这其中要解决的一个关键问题是用户问句与“问题-答案”对集合中问句的相似度比较并把最佳结果返回给用户。

  FAQ问答系统需要一个“问题-答案”库的支撑库的好坏直接影响问答系统的效果。本设计所用的“问题-答案”库来源于的问题和对应的答案共有10000条。用户输入问题然后从库中匹配相似度符合设计阈值的问题并显示其答案。

  思想把语料库的问题和用户所提问题预处理然后向量化最后通过计算两向量之间的余弦夹角值作为衡量相似度的值。只有该余弦值大于程序设定中的阈值才会将这些问题作为候选问题返回给用户。本设计的阈值设置为0.5同时并选择相似度最高的前5个问题Top5所对应的答案返回给用户。若没有大于阈值的样本则提示用户当前的提问没有相似的答案。系统的设计框图如图3-1所示。

  预处理是对问句进行初步处理的过程。本文对评论文本依次进行了去空去重、切词分词和停用词过滤操作。

  原始网络评论会存在一些空或重复的问句须过滤掉这些无价值且影响效率的问句。使用计算机自动地对中文文本进行词语切分的过程称为中文分词(Chinese Word Segmentation)即使中文句子中的词之间有空格标识。若要对一个句子进行分析就需要将其切分成词的序列然后以词为单位进行句子的分析故中文分词是中文自然语言处理中最基本的一个环节。

  分词之后需要对每个词进行词性标注为接下来的停用词过滤提供便利。停用词(Stop Word)指通常在评论文本中出现的频率较高但对确定评论的情感类别没有作用的词。停用词过滤指去掉评论文本中停用词的过程。本文使用中科院的“计算所汉语词性标记集”以及哈工大停用词表对评论文本进行停用词过滤。根据“计算所汉语词性标记集”确定出要过滤掉的词性有标点符号、介词和代词等这些词性的词信息量低无类别区分作用。本文先对评论文本进行词性过滤再根据哈工大停用词表进一步过滤。

  在进行相似度计算之前需要将每条问句都转换成向量的形式即将每条问句都映射到一个向量空间分别使用了两种方法TF-IDF(词频-反向文档频率)和word2vec对问句文本进行向量化。

  从FAQ中所有预处理后的问句中提取特征后形成一个词汇表则FAQ 中的每一个问句都可以用一个n 维的向量来表示。的计算方法为设为在当前问句中出现的次数为FAQ中含词汇的问句个数为FAQ中问句的总数那么

  可以看出一个问句中出现次数多的词将被赋予较高的值但这样的词并不一定具有较高的值。

  eg:汉语中“的”出现的频率非常高TF值(k值)很大但“的”在很多问句中都出现它对于分辨各个问句并没有太大的帮助它的IDF值是一个很小的数。因此这种方法综合地考虑了一个词的出现频率和这个词对不同问句的分辨能力。

  在计算用户提问问句的n 维向量时用户提问问句和FQA库中的问句b不是同时向量化的故在对FQA库中的问句向量化时需要保存每个特征的ID F值便于用户提问问句中特征词TFIDF值的计算。

  word2vec是用来产生词向量的一组相关模型。它利用输入的语料来产生一个向量空间在这个向量空间中每个词对应一个点语义上相近的词在向量空间上对应的点也相近。

  CBOW模型的思想是用上下文来预测当前词的概率而Skip-gram模型的思想是用当前词来预测其上下文词的概率。它们的目标函数分别为和。

  本文使用sougou大语料并基于CBOW模型训练得到词向量然后使用问句中每个特征词对应词向量的算术平均作为问句的句向量。

  问句之间的相似度可以转换为向量之间的距离来进行度量。距离越小问句之间的相似性越大反之亦然。

  本文采用余弦夹角来计算向量之间的相似度相似问题一般包含更多相同的特征词两个问句的主题是否接近取决于它们的特征向量“长得像不像”。是用户提问的问句向量得到和后它们所对应的两个问句之间的相似度就可以利用和这两个向量之间夹角的余弦值来表示。相似度的计算公式如下所示

  由上述公式可知的值越大说明两者的相似度越高反之则越低。

  余弦相似度的定义虽然简单但是在利用上述公式计算两个向量的夹角时计算量为当用户提出一个问题时需计算次(为语料库中问句的数量本文的语料库中的问句数为10000条)如果语料库很大则将答案返回给用户需要很长的时间。

  我们这个方案解答需要大概30秒的时间这个时间对于用户来说过于长用户体验效果不佳。为了降低计算量本文在计算相似度时进行了一些简化

  2其次分子部分即在计算两个向量的内积时只需考虑向量中的非零元素计算复杂度取决于两个向量中非零元素个数的最小值。这两个简化方法在使用TF-IDF向量化时效果比较明显因为TF-IDF得到的向量极其高维和稀疏而word2vec得到的向量则是低维和稠密效果不是很明显。

  基于TF-IDF算法的句子相似度计算方法基本可以回答表4-1中“具有相似性的问题”而对于表4-1中“基本无相似度的问题”则会提示用户该问题基于当前的FAQ问答库无法回答这说明基于相似度的FAQ问答系统完全依赖于语料库。

  而对于与语料库中问题基本无相似度的问题系统则会提示用户系统回答不了当前问题。

  本文的TF-IDF算法的问答系统设置了相应的阈值即当用户提问的问句与问答库中的问句相似度大于阈值时才输出相应的问句所对应的答案这里阈值是0.5。除此之外本文对于阈值过滤后的答案进行排序先出阈值最高的前5个(Top5)反馈给用户。

  基于word2vec的句子相似度计算方法在计算速度上比基于TF-IDF的方法速度快因为word2vec训练出来的向量要更低维和稠密。但是由于在进行词向量训练的时候使用的是sougou大语料该语料与本文的问句没有太大的关系故训练出来的词向量不能很好的代表问答领域问句的一些语义信息故在最终进行测试的时候计算出来的结果无法达到预期的效果。

  本文使用了两种句子向量化算法对句子进行向量化即TF-IDF和word2vec。

  对于TF-IDF算法其训练出来的句子向量具有高维、稀疏的缺点故在计算的时候比较慢本文针对这个问题对其进行了优化在一定程度上降低了时间复杂度。

  相反对于word2vec算法其训练出来的向量具有低维、稠密的优点计算速度快但词向量的训练需要大量的语料才能达到好的效果。这次训练语料比较不匹配得到的向量不能很好地表示句子之间的相似性效果较差。

  由此可见在进行word2vec词向量的训练时需要根据具体的问题使用合适的语料这样才能更好的表示句子之间的相似度。

  文章目录1. 关于 LightGBM的问题 1. 关于 LightGBM的问题 Q: 在一个有百万个特征的数据集中,(要在很长一段时间后才开始训练或者)训练根本没有开始。 解决方法: 对 bin_construct_sample_cnt 用一个较小的值和对 min_data 用一个较大的值。 Q: 当在一个很大的数据集上使用LightGBM,我的电脑会耗尽内存。 解决方法: 很多方法啊:将 histogram_pool_size 参数设置成你想为 LightGBM 分配的MB (histogram_

  1 、什么类型的网站最需要 CDN ? 答: 我们请第三方公司对我们的 CDN 做了性能测试, 测试结果表明, 从 ISP 分类 来看, 教育网的用户使用 CDN 后提速最为明显, 访问速度可以提高 5 倍以上, 客 户对教育网的访问效果非常满意; 从地区分来看来, 边缘省份, 二级城市和多数 欠发达地区的访客访问速度提高明显, 面对这样客户

  总结一波我的项目之一,历史久远,要把它理清一下。 Introduce:日趋增多的网络信息使用户很难迅速从搜索引擎返回的大量信息中找到所需内容。自动问答系统为人们提供了以自然语言提问的交流方式,为用户直接返回所需的答案而不是相关的网页,具有方便、快捷、高效等特点。 Process:本文的问答系统采用了一个

  (Frequently Asked Questions)问答库,并基于句子相似度...

  最近尝试学着做了一个简易的搜索平台,下面一起回顾一下搭建过程。 文章目录技术栈:搭建思路分析MySQL建表具体实现开启springboot,mybatis和druid实体类前端页面Controller层 技术栈: springboot,MySQL5.1.73,mybatis 搭建思路分析 MySQL建表 对于问题进行分类,这里有

  集 原著:Steve Summit 翻译:朱群英, 孙 云 修订版 0.9.4, 2005年6月23日 版权所有 © 2005 *

  (六) RabbitMQ实战教程(面向Java开发人员)之RabbitMQ消息的可靠性

  消息可靠性在项目中使用RabbitMQ时,我们可能会遇到这样的问题:如一个订单系统当用户付款成功时我们往消息中间件添加一条记录期望消息消费者修改订单状态,但是最终实际订单状态并没有被修改成功。遇到这种问题我们排查的思路如下:1.消息是否已经成功发送到消息中间件 2.消息是否有丢失的情况 消息是否已经被消费成功在生产环境下是不容许出现消息投递/消费错误的情况的,因为这可能会对企业产生巨大的损失,本博客

  如何引用 Keras? 如何在 GPU 上运行 Keras? 如何在多 GPU 上运行 Keras 模型? sample, batch, epoch 分别是什么? 如何保存 Keras 模型? 为什么训练集误差比测试集的误差高很多? 如何获取中间层的输出? 如何用 Keras 处理超过内存的数据集? 在验证集的误差不再下降时,如何中...

  职场和学校最大的不同就是:你在学校,老师给一本书,然后你考试。如果没有通过,就要补考。你在职场,领导给你一个问题,然后你来解决。如果解决不了,就要滚蛋走人。为此,你需要每半年更新一次简历...

  我不知道我的数据库的字符集信息怎么办? 你可以通过ORACLE告警日志alert.log来大致了解你的数据库字符集信息,例如: [e]$ grep -i character alert_Parnassus.log Database Characterset is U

  pandas中DataFrame 数据合并,连接(merge,join,concat)

  戴明威:楼主,可以给我一份代码和数据集吗?正在学习这方面内容,感激不尽。邮箱: