飞道的博客

项目实战 01:将唐诗三百首写入 Elasticsearch 会发生什么?

500人阅读  评论(0)

1、实战项目

将唐诗三百首写入Elasticsearch会发生什么?

2、项目说明

此项目是根据实战项目浓缩的一个小项目,几乎涵盖之前讲解的所有知识点。

通过这个项目的实战,能让你串联起之前的知识点应用于实战,并建立起需求分析、整体设计、数据建模、ingest管道使用、检索/聚合选型、kibana可视化分析等的全局认知。

3、 需求

数据来源:https://github.com/xuchunyang/300

注意数据源bug: 第1753行种的"id":178 需要手动改成  "id": 252。

3.1 数据需求

注意:

  • 1)词典选择

  • 2)分词器选型

  • 3)mapping设置

  • 4)支持的目标维度考量

  • 5)设定插入时间(自定义动态添加,非人工)

3.2 写入需求

注意:

  • 1)特殊字符清洗

  • 2)新增插入时间

3.3 分析需求

检索分析DSL实战

  • 1)飞花令环节:包含铭 毅 天下(分别包含)诗句有哪些?各有多少首?

  • 2)李白的诗有几首?按照诗长短排序,由短到长

  • 3)取TOP10最长、最短的诗的作者列表

聚合分析实战及可视化实战

  • 1)三百首谁的作品最多?取TOP10排行

  • 2)五言绝句和七言律诗占比,以及对应作者占比统计

  • 3)同名诗排行统计

  • 4)三百首诗分词形成什么样的词云

4、 需求解读与设计

4.1 需求解读

本着:编码之前,设计先行的原则。

开发人员的通病——新的项目拿到需求以后,不论其简单还是复杂,都要先梳理需求,整理出其逻辑架构,优先设计,以便建立全局认知,而不是上来就动手敲代码。

本项目的核心知识点涵盖如下几块内容

  • Elasticsearch 数据建模

  • Elasticsearch bulk批量写入

  • Elasticsearch 预处理

  • Elasticsearch检索

  • Elasticsearch聚合

  • kibana Visualize 使用

  • kibana Dashboard 使用

4.2 逻辑架构梳理

有图有真相。

根据需求梳理出如下的逻辑架构,实际开发中要谨记如下的数据流向。

4.3 建模梳理

之前也有讲述,这里再强调一下数据建模的重要性。

数据模型支撑了系统和数据,系统和数据支撑了业务系统。

一个好的数据模型:

  • 能让系统更好的集成、能简化接口。

  • 能简化数据冗余、减少磁盘空间、提升传输效率。

  • 兼容更多的数据,不会因为数据类型的新增而导致实现逻辑更改。

  • 能帮助更多的业务机会,提高业务效率。

  • 能减少业务风险、降低业务成本。

对于Elasticsearch的数据建模的核心是Mapping的构建。

对于原始json数据:


   
  1. "id": 251,
  2. "contents": "打起黄莺儿,莫教枝上啼。啼时惊妾梦,不得到辽西。",
  3. "type": "五言绝句",
  4. "author": "金昌绪",
  5. "title": "春怨"

我们的建模逻辑如下:

字段名称 字段类型 备注说明
_id
对应自增id
contents text & keyword 涉及分词,注意开启:fielddata:true
type text & keyword
author text & keyword
title text & keyword
timestamp date 代表插入时间
cont_length long contents长度, 排序用

由于涉及中文分词,选型分词器很重要。

这里依然推荐:选择ik分词。

ik词典的选择建议:自带词典不完备,网上搜索互联网的一些常用语词典、行业词典如(诗词相关词典)作为补充完善。

4.4 概要设计

  • 原始文档json的批量读取和写入通过 elasticsearch python低版本 api 和 高版本 api elasticsearch-dsl 结合实现。

  • 数据的预处理环节通过 ingest pipeline实现。设计数据预处理地方:每一篇诗的json写入时候,插入timestamp时间戳字段。

  • template和mapping的构建通过kibana实现。

  • 分词选型:ik_max_word 细粒度分词,以查看更细粒度的词云。

5、项目实战

5.1 数据预处理ingest

创建:indexed_at 的管道,目的:

  • 新增document时候指定插入时间戳字段。

  • 新增长度字段,以便于后续排序。


   
  1. PUT _ingest/pipeline/ indexed_at
  2. {
  3. "description": "Adds timestamp to documents",
  4. "processors": [
  5. {
  6. "set": {
  7. "field": "_source.timestamp",
  8. "value": "{{_ingest.timestamp}}"
  9. }
  10. },
  11. {
  12. "script": {
  13. "source": "ctx.cont_length = ctx.contents.length();"
  14. }
  15. }
  16. ]
  17. }

5.2 Mapping和template构建

如下DSL,分别构建了模板:my_template。

指定了settings、别名、mapping的基础设置。

模板的好处和便捷性,在之前的章节中有过详细讲解。


   
  1. PUT _template/my_template
  2. {
  3. "index_patterns": [
  4. "some_index*"
  5. ],
  6. "aliases": {
  7. "some_index": {}
  8. },
  9. "settings": {
  10. "index.default_pipeline": "indexed_at",
  11. "number_of_replicas": 1,
  12. "refresh_interval": "30s"
  13. },
  14. "mappings": {
  15. "properties": {
  16. "cont_length" :{
  17. "type" :"long"
  18. },
  19. "author": {
  20. "type": "text",
  21. "fields": {
  22. "field": {
  23. "type": "keyword"
  24. }
  25. },
  26. "analyzer": "ik_max_word"
  27. },
  28. "contents": {
  29. "type": "text",
  30. "fields": {
  31. "field": {
  32. "type": "keyword"
  33. }
  34. },
  35. "analyzer": "ik_max_word",
  36. "fielddata": true
  37. },
  38. "timestamp": {
  39. "type": "date"
  40. },
  41. "title": {
  42. "type": "text",
  43. "fields": {
  44. "field": {
  45. "type": "keyword"
  46. }
  47. },
  48. "analyzer": "ik_max_word"
  49. },
  50. "type": {
  51. "type": "text",
  52. "fields": {
  53. "field": {
  54. "type": "keyword"
  55. }
  56. },
  57. "analyzer": "ik_max_word"
  58. }
  59. }
  60. }
  61. }
  62. PUT some_index_01

5.3 数据读取与写入

通过如下的python代码实现。注意:

  • bulk批量写入比单条写入性能要高很多。

  • 尤其对于大文件的写入优先考虑bulk批量处理实现。


   
  1. def read_and_write_index():
  2. # define an empty list for the Elasticsearch docs
  3. doc_list = []
  4. # use Python's enumerate() function to iterate over list of doc strings
  5. input_file = open( '300.json', encoding= "utf8", errors= 'ignore')
  6. json_array = json.load(input_file)
  7. for item in json_array:
  8. try:
  9. # convert the string to a dict object
  10. # add a new field to the Elasticsearch doc
  11. dict_doc = {}
  12. # add a dict key called "_id" if you'd like to specify an ID for the doc
  13. dict_doc[ "_id"] = item[ 'id']
  14. dict_doc[ "contents"] = item[ 'contents']
  15. dict_doc[ "type"] = item[ 'type']
  16. dict_doc[ "author"] = item[ 'author']
  17. dict_doc[ "title"] = item[ 'title']
  18. # append the dict object to the list []
  19. doc_list += [dict_doc]
  20. except json.decoder.JSONDecodeError as err:
  21. # print the errors
  22. print( "ERROR for num:", item[ 'id'], "-- JSONDecodeError:", err, "for doc:", dict_doc)
  23. print( "Dict docs length:", len(doc_list))
  24. try:
  25. print ( "\nAttempting to index the list of docs using helpers.bulk()")
  26. # use the helpers library's Bulk API to index list of Elasticsearch docs
  27. resp = helpers.bulk(
  28. client,
  29. doc_list,
  30. index = "some_index",
  31. doc_type = "_doc"
  32. )
  33. # print the response returned by Elasticsearch
  34. print ( "helpers.bulk() RESPONSE:", resp)
  35. print ( "helpers.bulk() RESPONSE:", json.dumps(resp, indent= 4))
  36. except Exception as err:
  37. # print any errors returned w
  38. ## Prerequisiteshile making the helpers.bulk() API call
  39. print( "Elasticsearch helpers.bulk() ERROR:", err)
  40. quit()

5.4 数据分析

5.5 检索分析

5.5.1 飞花令环节:包含铭 毅 天下(分别包含)诗句有哪些?各有多少首?


   
  1. GET some_index/_search
  2. {
  3. "query": {
  4. "match": {
  5. "contents": "铭"
  6. }
  7. }
  8. }
  9. GET some_index/_search
  10. {
  11. "query": {
  12. "match": {
  13. "contents": "毅"
  14. }
  15. }
  16. }
  17. GET some_index/_search
  18. {
  19. "query": {
  20. "match": {
  21. "contents": "天下"
  22. }
  23. }
  24. }

实践表明:

  • 铭:0首

  • 毅:1首

  • 天下:114 首

不禁感叹:唐诗先贤们也是心怀天下,忧国忧民啊!

5.5.2 李白的诗有几首?按照诗长短排序,由短到长


   
  1. POST some_index/_ search
  2. {
  3. "query": {
  4. "match_phrase": {
  5. "author": "李白"
  6. }
  7. },
  8. "sort": [
  9. {
  10. "cont_length": {
  11. "order": "desc"
  12. }
  13. }
  14. ]
  15. }
  16. POST some_index/_ search
  17. {
  18. "aggs": {
  19. "genres": {
  20. "terms": {
  21. "field": "author.keyword"
  22. }
  23. }
  24. }
  25. }

唐诗三百首中,李白共33首诗(仅次于杜甫39首),最长的是“蜀道难”,共:353 个字符。

李白、杜甫不愧为:诗仙和诗圣啊!也都是高产诗人!

5.5.3 取TOP10最长、最短的诗的作者列表


   
  1. POST some_index/_ search
  2. {
  3. "sort": [
  4. {
  5. "cont_length": {
  6. "order": "desc"
  7. }
  8. }
  9. ]
  10. }
  11. POST some_index/_ search
  12. {
  13. "sort": [
  14. {
  15. "cont_length": {
  16. "order": "asc"
  17. }
  18. }
  19. ]
  20. }

最长的诗:白居易-长恨歌-960个字符。

最短的诗:王维-鹿柴- 24个字符(并列的非常多)。

5.6 聚合分析

以下的截图通过kibana实现。细节在之前的kibana可视化中都有过讲解。

5.6.1 三百首谁的作品最多?取TOP10排行

5.6.2 五言绝句和七言律诗占比,以及对应作者占比统计

5.6.3 同名诗排行统计

5.6.4 三百首诗分词形成什么样的词云

5.6.5 全局视图

6、小结

结合唐诗300首的业务场景,结合本小项目的需求、设计、实现三个阶段,建立起对Elasticsearch、kibana核心知识点的全局认识。

核心目的:通过小项目练手,促进公司实际项目能力、产品研发能力的提升

思考:本文词云效果不好,为什么?


推荐:

干货 | Elasticsearch 索引设计实战指南

Elasticsearch性能优化实战指南

开干!Elasticsearch官方文档离线访问实操指南

干货 | Elasticsearch开发人员最佳实战指南

干货 | Elasticsearch多表关联设计指南


短时间快习得多干货!

中国40%+Elastic认证工程师出自于此!


转载:https://blog.csdn.net/wojiushiwo987/article/details/108373311
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场