博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Solr4:设计数据结构,就是配置schema.xml
阅读量:5248 次
发布时间:2019-06-14

本文共 2150 字,大约阅读时间需要 7 分钟。

1. 概述

正常数据结构一个是需要考虑中文分词,二个是考虑是否索引,是否分词,是否存储等等。

下面的示范用到了三种类型的数据:

1). 字段需要分词、需要索引、需要存储,如:网页中的标题、内容等字段。

2). 字段需要索引,但不需要分词,需要存储,如:网页的发布时间等内容。

3). 字段不需要索引,不需要分词,但需要存储,如:引用的图片位置。

不存在不需要索引、也不需要分词,也不需要存储的字段,因为这样的字段在Lucene中无意义。

2. 示范配置

objectId
text

注意:schema.xml文件中的主键,最好是string类型的,而不是int类型的(哪怕数据库中是int类型);否则在启动tomcat时有可能报错(Error initializing QueryElevationComponent?)。

3. 备注

termVectors="true" termPositions="true" termOffsets="true"

这几项参数是在项目中使用到FastVectorHighlighter时需要配置的,如果没有使用FastVectorHighlighter的话,可以忽略这些参数。

multiValued="true"

此项参数为是否允许多值,主键不允许多值。但图片等允许多值,另拷贝字段(如:text字段)默认也是多值。

type="string"

string类型的字段默认不分词,当作整体来看。

type="text_mm4j"

text_mm4j类型的即是中文分词组件,参考types下面关于name="text_mm4j"的具体配置。本项目中标题、内容等字段需要使用此类型。

转载于:https://www.cnblogs.com/nayitian/archive/2013/02/20/2918841.html

你可能感兴趣的文章
WinDbg调试C#技巧,解决CPU过高、死锁、内存爆满
查看>>
linux脚本中有source相关命令时的注意事项
查看>>
css样式表中的样式覆盖顺序
查看>>
湖南多校对抗赛(2015.03.28) H SG Value
查看>>
REST Web 服务(二)----JAX-RS 介绍
查看>>
hdu1255扫描线计算覆盖两次面积
查看>>
hdu1565 用搜索代替枚举找可能状态或者轮廓线解(较优),参考poj2411
查看>>
bzoj3224 splay板子
查看>>
程序存储问题
查看>>
Mac版OBS设置详解
查看>>
优雅地书写回调——Promise
查看>>
第一次作业
查看>>
android主流开源库
查看>>
AX 2009 Grid控件下多选行
查看>>
PHP的配置
查看>>
Linux系列:Ubuntu虚拟机设置固定IP上网(配置IP、网关、DNS、防止resolv.conf被重写)...
查看>>
LANDR:在线母带处理
查看>>
简单的聊天脑思路
查看>>
java web项目修改favicon.ico图标的方式
查看>>
【读博笔记】 如何招聘程序员,四步法则助你成功
查看>>