RediSearch是一個快速且高效的Redis模塊,用于實現文檔的全文索引。與Elasticsearch相比,RediSearch構建索引的時間少58%,并且只用了201秒就構建了索引。
來源:zhuanlan.zhihu.com/p/687400704
RediSearch是一個Redis模塊,為Redis提供查詢、二次索引和全文搜索。要使用RediSearch,首先要在Redis數據上聲明索引。然后可以使用重新搜索查詢語言來查詢該數據。
RedSearch使用壓縮的反向索引進行快速索引,占用內存少。RedSearch索引通過提供精確的短語匹配、模糊搜索和數字過濾等功能增強了
# 實現特性
基于文檔的多個字段全文索引
高性能增量索引
文檔排序(由用戶在索引時手動提供)
在子查詢之間使用 AND 或 NOT 操作符的復雜布爾查詢
可選的查詢子句
基于前綴的搜索
支持字段權重設置
自動完成建議(帶有模糊前綴建議)
精確的短語搜索
在許多語言中基于詞干分析的查詢擴展
支持用于查詢擴展和評分的自定義函數
將搜索限制到特定的文檔字段
數字過濾器和范圍
使用 Redis 自己的地理命令進行地理過濾
Unicode 支持(需要 UTF-8 字符集)
檢索完整的文檔內容或只是ID 的檢索
支持文檔刪除和更新與索引垃圾收集
支持部分更新和條件文檔更新
# 對比 Elasticsearch
如下圖所示,RediSearch 構建索引的時間為 221 秒,而 Elasticsearch 為 349 秒,快了 58%。
# 索引構建測試
我們模擬了一個多租戶電子商務應用程序,其中每個租戶代表一個產品類別并維護自己的索引。對于此基準測試,我們構建了 50K 個索引(或產品),每個索引最多存儲 500 個文檔(或項目),總共 2500 萬個文檔。
RediSearch 僅用了 201 秒就構建了索引,平均每秒運行 125K 個索引。然而,Elasticsearch 在 921 個索引后崩潰了,顯然它不是為應對這種負載而設計的。
# 查詢性能測試
一旦數據集被索引,我們就使用在專用負載生成器服務器上運行的 32 個客戶端啟動兩個單詞的搜索查詢。如下圖所示,RediSearch 吞吐量達到了 12.5K 操作/秒,而 Elasticsearch 為 3.1K 操作/秒,速度提高了 4 倍。
此外,RediSearch 延遲稍好一些,平均為 8 毫秒,而 Elasticsearch 為 10 毫秒。
# 安裝
安裝目前分為源碼和docker安裝兩種方式。
源碼安裝
git clone https://github.com/RediSearch/RediSearch.git
cd RediSearch # 進入模塊目錄
make setup
make install
docker安裝
note: RediSearch的安裝比較復雜原包無法進行編譯操作所以我們使用docker安裝
docker run -p 6379:6379 redislabs/redisearch:latest
判斷是否安裝成功
127.0.0.1:0>module list
1) 1) "name"
2) "ReJSON"
3) "ver"
4) "20007"
2) 1) "name"
2) "search"
3) "ver"
4) "20209"
返回數組存在“ft”或 “search”(不同版本),表明 RediSearch 模塊已經成功加載。
# 命令行操作
1、創建
1.1 創建索引
創建索引不妨想象成創建表結構,表一般基本屬性有表名、字段和字段類別等,所以我們可以考慮將索引名代表表名,字段代表字段,屬性即表示屬性。
xxx.xxx.xxx.xxx:0>ft.create "student" schema "name" text weight 5.0 "sex" text "desc" text "class" tag
"OK"
student 表示索引名,name、sex、desc表示字段,text表示類型(這樣表示只是為了便于理解)
“weight”為權重,默認值為 1.0
type student
"none"
我們創建的索引redis是不認識的,這證明使用的是插件。
1.2 創建文檔
創建文檔上下文的過程不妨想想成向表中插入數據,這里請注意字段名可以使用雙引號但切記一定要用英文,這里之所以著重提出是因為有些編譯器中文雙引號和英文雙引號用肉眼實在難以辨認否則會出現 “Fields must be specified in FIELD VALUE pairs”(其實是將“ 當作內容處理了以至于缺少了字段)
ft.add student 001 1.0 language "chinese" fields name "張三" sex "男" desc "這是一個學生" class "一班"
"OK"
其中001為文檔ID,"1.0"為評分缺少此值會報"Could not parse document score"異常,language 指明使用的語言默認是英文編碼 如果沒有此標記存儲是沒有問題的但不可以通過中文字符查詢
1.3 查詢
1.3.1 基本查詢
1.3.1.1 全量查詢
xxx.xxx.xxx.xxx:0>FT.SEARCH student * SORTBY sex desc RETURN 3 name sex desc
1) "2"
2) "001"
3) 1) "name"
2) "張三"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
4) "002"
5) 1) "name"
2) "張三"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
1.3.1.2 匹配查詢
xxx.xxx.xxx.xxx:0>ft.search student "張三" limit 0 10 RETURN 3 name sex desc
1) "2"
2) "001"
3) 1) "name"
2) "張三"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
4) "002"
5) 1) "name"
2) "張三"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
limit 與mysql相識主要用于分頁,此處是全量匹配,如果沒有設置language “chinese” 此處查詢為0,
1.3.2 模糊匹配
1.3.2.1 后置匹配
ft.search student "李*" SORTBY sex desc RETURN 3 name sex desc
1) "1"
2) "003"
3) 1) "name"
2) "李四"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
1.3.2.2 模糊搜索
xxx.xxx.xxx.xxx:0>FT.SEARCH beers "%%張店%%"
1) "1"
2) "beer:1"
3) 1) "name"
2) "集團本部已發布【文明就餐公約】,2號樓辦公人員午餐的就餐時間是11:45~13:00,現經行政服務部進行抽查,發現我們部門有員工違規就餐現象。請大家務必遵守,相互轉告,對于外地回到集團辦公的同事,亦請遵守,謝謝!"
3) "org"
4) "山東省淄博市張店區"
5) "school"
6) "山東理工大學"
別高興太早全量模糊匹配是由很大限制的,他基于Levenshtein距離(LD)進行模糊匹配。術語的模糊匹配是通過在術語周圍加“%”來實現的,模糊匹配的最大LD為3,確切的說這只是一種相識度查詢,并非一般意義上的模糊搜索,但是如果仔細觀察會發現通過精確匹配時不僅能夠將完整value值查詢出來而且還查詢出其他處于文檔某個位置的key請看官方提供的一個例子:
FT.CREATE idx SCHEMA txt TEXT
FT.ADD idx docCn 1.0 LANGUAGE chinese FIELDS txt
Redis支持主從同步。數據可以從主服務器向任意數量的從服務器上同步,從服務器可以是關聯其他從服務器的主服務器。這使得Redis可執行單層樹復制。從盤可以有意無意的對數據進行寫操作。
由于完全實現了發布/訂閱機制,使得從數據庫在任何地方同步樹時,可訂閱一個頻道并接收主服務器完整的消息發布記錄。同步對讀取操作的可擴展性和數據冗余很有幫助。
FT.CREATE idx SCHEMA txt TEXT
FT.ADD idx docCn 1.0 LANGUAGE chinese FIELDS txt "Redis支持主從同步。數據可以從主服務器向任意數量的從服務器上同步,從服務器可以是關聯其他從服務器的主服務器。這使得Redis可執行單層樹復制。從盤可以有意無意的對數據進行寫操作。由于完全實現了發布/訂閱機制,使得從數據庫在任何地方同步樹時,可訂閱一個頻道并接收主服務器完整的消息發布記錄。同步對讀取操作的可擴展性和數據冗余很有幫助。[8]"
FT.SEARCH idx "數據" LANGUAGE chinese HIGHLIGHT SUMMARIZE
# Outputs:
# 數據?... 數據進行寫操作。由于完全實現了發布... 數據冗余很有幫助。[8...
之所以會出現這樣的效果是因為redisearch對文本進行了分詞,其使用的工具是friso相比es的ik還是弱一些前者主要是對中文分詞,體積小可移植性強。
從而我們可以結合后后置匹配算法
xxx.xxx.xxx.xxx:0>FT.SEARCH idx "數*" LANGUAGE chinese HIGHLIGHT
1) "1"
2) "docCn"
3) 1) "txt"
2) "Redis支持主從同步。數據可以從主服務器向任意數量的從服務器上同步,從服務器可以是關聯其他從服務器的主服務器。這使得Redis可執行單層樹復制。從盤可以有意無意的對數據進行寫操作。由于完全實現了發布/訂閱機制,使得從數據庫在任何地方同步樹時,可訂閱一個頻道并接收主服務器完整的消息發布記錄。同步對讀取操作的可擴展性和數據冗余很有幫助。[8]"
或者結合Levenshtein算法這樣基本上能夠滿足業務查詢需求
xxx.xxx.xxx.xxx:0>FT.SEARCH idx "%%單的樹%%" LANGUAGE chinese HIGHLIGHT
1) "1"
2) "docCn"
3) 1) "txt"
2) "Redis支持主從同步。數據可以從主服務器向任意數量的從服務器上同步,從服務器可以是關聯其他從服務器的主服務器。這使得Redis可執行單層樹復制。從盤可以有意無意的對數據進行寫操作。由于完全實現了發布/訂閱機制,使得從數據庫在任何地方同步樹時,可訂閱一個頻道并接收主服務器完整的消息發布記錄。同步對讀取操作的可擴展性和數據冗余很有幫助。[8]"
1.3.2.3 字段查詢
通過字段查詢也可以實現模糊搜索,直接給例子,后面跟著官網上給的sql 和 redisearch的對照表
ft.search student *
1) "2"
2) "doudou"
3) 1) "name"
2) "豆豆"
3) "jtzz"
4) "“檢索”是很多產品中"
5) "phone"
6) "18563717107"
4) "ttao"
5) 1) "name"
2) "姚元濤"
3) "jtzz"
4) "一個生病的人只"
5) "phone"
6) "18563717107"
ft.search student '@phone:185* @name:豆豆'
1) "1"
2) "doudou"
3) 1) "name"
2) "豆豆"
3) "jtzz"
4) "“檢索”是很多產品中"
5) "phone"
6) "18563717107"
1.4 刪除
1.4.1 刪除文檔
xxx.xxx.xxx.xxx:0>ft.del student 002
"1"
1.4.3 刪除索引
xxx.xxx.xxx.xxx:0>ft.drop student
"OK"
1.5 查看
1.5.1 查看所有索引
xxx.xxx.xxx.xxx:0>FT._LIST
1) "student1"
2) "ttao"
3) "idx"
4) "student"
5) "myidx"
6) "123"
7) "myIndex"
8) "testung"
9) "student2"
1.5.2 查看索引文檔中的數據
1.5.2.1 獲取單條數據
xxx.xxx.xxx.xxx:0>ft.get student 001
1) "name"
2) "張三"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
7) "class"
8) "一班"
1.5.2.2 獲取多條數據
xxx.xxx.xxx.xxx:0>ft.mget student 001 002
1) 1) "name"
2) "張三"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
7) "class"
8) "一班"
2) 1) "name"
2) "張三"
3) "sex"
4) "男"
5) "desc"
6) "這是一個學生"
7) "class"
8) "一班"
1.6 索引別名操作
1.6.1 添加別名
123.232.112.84:0>FT.ALIASADD xs student
"OK"
給索引student起個xs的別名,一個索引可以起多個別名
1.6.2 修改別名
1.6.3 刪除別名
123.232.112.84:0>FT.ALIASDEL xs
"OK"
原文來源:https://mp.weixin.qq.com/s/NXCwciuPob3aG0cDRV5FZA
來源:本文內容搜集或轉自各大網絡平臺,并已注明來源、出處,如果轉載侵犯您的版權或非授權發布,請聯系小編,我們會及時審核處理。
聲明:江蘇教育黃頁對文中觀點保持中立,對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責,僅作分享之用,文章版權及插圖屬于原作者。
Copyright?2013-2024 JSedu114 All Rights Reserved. 江蘇教育信息綜合發布查詢平臺保留所有權利
蘇公網安備32010402000125
蘇ICP備14051488號-3技術支持:南京博盛藍睿網絡科技有限公司
南京思必達教育科技有限公司版權所有 百度統計