0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

評價Python字符串相似度的六種度量方法

汽車玩家 ? 來源:今日頭條 ? 作者:我愛學Python ? 2020-01-18 17:33 ? 次閱讀

字符串的相似性比較應用場合很多,像拼寫糾錯、文本去重、上下文相似性等。

評價字符串相似度最常見的辦法就是:把一個字符串通過插入、刪除或替換這樣的編輯操作,變成另外一個字符串,所需要的最少編輯次數,這種就是編輯距離(edit distance)度量方法,也稱為Levenshtein距離。海明距離是編輯距離的一種特殊情況,只計算等長情況下替換操作的編輯次數,只能應用于兩個等長字符串間的距離度量。

其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro–Winkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安裝 Levenshtein

1. difflib

2. hamming距離,str1和str2長度必須一致,描述兩個等長字串之間對應位置上不同字符的個數

3. 編輯距離,描述由一個字串轉化成另一個字串最少的操作次數,在其中的操作包括 插入、刪除、替換

4.計算萊文斯坦比

5.計算jaro距離

6. Jaro–Winkler距離

輸出:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 字符串
    +關注

    關注

    1

    文章

    585

    瀏覽量

    20563
  • python
    +關注

    關注

    56

    文章

    4801

    瀏覽量

    84885
收藏 人收藏

    評論

    相關推薦

    字符串在數據庫中的存儲方式

    數據庫是現(xiàn)代信息技術中存儲和管理數據的核心組件。字符串作為最常見的數據類型之一,在數據庫中的存儲方式對其性能和可擴展性有著重要影響。 數據類型 固定長度字符串 :如CHAR類型,它為每個字符串分配
    的頭像 發(fā)表于 01-07 15:41 ?149次閱讀

    字符串在編程中的應用實例

    字符串在編程中有著廣泛的應用,它們被用于表示文本數據、處理用戶輸入、構建動態(tài)內容等。以下是一些字符串在編程中的應用實例: 1. 用戶輸入與輸出 用戶輸入 :程序通常需要從用戶那里獲取輸入,這些輸入通
    的頭像 發(fā)表于 01-07 15:33 ?116次閱讀

    字符串字符數組的區(qū)別

    在編程語言中,字符串字符數組是兩基本的數據結構,它們都用于存儲和處理文本數據。盡管它們在功能上有一定的重疊,但在內部表示、操作方式和使用場景上存在顯著差異。 1. 內部表示 字符串
    的頭像 發(fā)表于 01-07 15:29 ?217次閱讀

    字符串反轉的實現(xiàn)方式

    在編程中,字符串反轉是一個基礎而重要的操作,它涉及到將一個字符串中的字符順序顛倒過來。這個操作在多種編程語言中都有不同的實現(xiàn)方式,本文將探討幾種常見的字符串反轉
    的頭像 發(fā)表于 01-07 15:27 ?168次閱讀

    字符串處理方法 字符串轉數字的實現(xiàn)

    在編程中,將字符串轉換為數字是一個常見的需求。不同的編程語言有不同的方法來實現(xiàn)這一功能。以下是一些常見編程語言中的字符串轉數字的實現(xiàn)方法Pyth
    的頭像 發(fā)表于 01-07 15:26 ?145次閱讀

    base64字符串轉換為二進制文件

    Base64是一編碼方法,用于將二進制數據轉換為ASCII字符串。這種編碼通常用于在不支持二進制數據的系統(tǒng)中傳輸數據,例如電子郵件或網頁。將Base64字符串轉換為二進制文件的過程相
    的頭像 發(fā)表于 11-10 10:55 ?1493次閱讀

    MATLAB(5)--字符串處理

    :兩個字符串里的每個字符依次按ASCII值大小逐個進行比較,比較的結果是一個數值向量,向量中的元素為1或者0。 字符串比較函數用于判斷字符串是否相等,有4
    發(fā)表于 09-06 10:22

    labview字符串數組轉化為數值數組

    在LabVIEW中,將字符串數組轉換為數值數組是一項常見的任務,尤其是在處理數據采集、信號處理或用戶輸入時。 1. 理解LabVIEW的數據類型 在開始之前,了解LabVIEW中的數據類型是非
    的頭像 發(fā)表于 09-04 17:47 ?2652次閱讀

    labview字符串如何轉換為16進制字符串

    在LabVIEW中,將字符串轉換為16進制字符串是一個常見的需求,尤其是在處理數據通信和硬件接口時。LabVIEW提供了多種方法來實現(xiàn)這一轉換,包括使用內置函數、編寫VI(Virtual
    的頭像 發(fā)表于 09-04 15:54 ?2817次閱讀

    labview中如何實現(xiàn)字符串換行

    1. 字符串換行的基本概念 在LabVIEW中,字符串換行通常指的是在字符串中插入換行符,使得字符串在顯示或輸出時能夠自動換行。這在創(chuàng)建用戶界面或處理文本數據時非常有用。 2.
    的頭像 發(fā)表于 09-04 15:47 ?1898次閱讀

    labview中如何實現(xiàn)字符串選擇輸出

    在LabVIEW中實現(xiàn)字符串選擇輸出是一項常見的任務,它涉及到字符串處理、條件判斷和用戶界面設計等多個方面。由于LabVIEW是一圖形化編程語言,其編程方式與傳統(tǒng)的文本編程語言有所不同,因此實現(xiàn)
    的頭像 發(fā)表于 09-04 15:44 ?1023次閱讀

    labview中常用的字符串函數有哪些?

    在LabVIEW中,常用的字符串函數廣泛覆蓋了對字符串的各種操作,包括但不限于格式化、搜索、替換、連接、計算長度等。以下是一些常用的字符串函數及其簡要說明: 字符串長度(String
    的頭像 發(fā)表于 09-04 15:43 ?887次閱讀

    labview字符串的四表示各有什么特點

    。在LabVIEW中,字符串是一基本的數據類型,用于表示文本信息。字符串在LabVIEW中有多種表示方式,每種方式都有其特定的應用場景和特點。以下是對LabVIEW中四
    的頭像 發(fā)表于 09-04 15:40 ?642次閱讀

    鴻蒙TypeScript學習第10天:【String(字符串)】

    String 對象用于處理文本(字符串)。
    的頭像 發(fā)表于 04-08 14:32 ?865次閱讀
    鴻蒙TypeScript學習第10天:【String(<b class='flag-5'>字符串</b>)】

    C語言字符串編譯函數介紹

    在C語言中,字符串實際上是使用null字符O'終止的一維字符數組。因此,一個以null結尾的字符串,包含了組成字符串
    的頭像 發(fā)表于 03-07 16:18 ?528次閱讀
    C語言<b class='flag-5'>字符串</b>編譯函數介紹