解密搜索引擎技术实战 Lucene & Java精华版(第3版)+源码 PDF下载

解密搜索引擎技术实战:Lucene&Java精华版(第3版)是猎兔搜索开发团队的软件研发和教学实践的经验汇总。本书总结搜索引擎相关理论与实际解决方案,并给出了Java实现,其中利用了流行的开源项目Lucene和Solr,而且还包括原创的实现。本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。

爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。

自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍,并总结了实现方法。

在全文检索部分,结合Lucene介绍了搜索引擎的原理与进展。用简单的例子介绍了Lucene的应用方法,包括完整的搜索实现过程:从完成索引到搜索用户界面的实现。

下载地址

https://pan.baidu.com/s/12v1tLUIZ9YrhBG5ZCyK2MQ

  • 如需提取码:[打开微信]->[扫描下方二维码]->[关注数据与人] 回复”4680″ 获取提取码 
区块链原理、设计与应用 PDF下载插图
  • 坚持电子书籍资源共享,感谢认同!

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注