Removed py_stringmatching

Teris45 · Teris45 · commit b21bebd8b7d1 · 2025-09-11T15:17:21.000+03:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -6,11 +6,11 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "pyjedai"
-version = "0.3.3"
+version = "0.3.4"
 description = "An open-source library that builds powerful end-to-end Entity Resolution workflows."
 readme = "README.md"
 authors = [
-    { name = "Lefteris Stetsikas", email = "skantzoxoiros45@gmail.com" },
+    { name = "Lefteris Stetsikas", email = "lstetsikas3@gmail.com" },
     { name = "Konstantinos Nikoletos", email = "nikoletos.kon@gmail.com" },
     { name = "George Papadakis", email = "gpapadis84@gmail.com" },
     { name = "Jakub Maciejewski", email = "jacobb.maciejewski@gmail.com"},
@@ -51,11 +51,11 @@ dependencies = [
     "transformers",
     "sentence-transformers",
     "faiss-cpu",
-    "py-stringmatching",
     "valentine; python_version > '3.7'",
     "ordered-set",
     "shapely",
-    "ollama"
+    "ollama",
+    "StringCompare @ git+https://github.com/OlivierBinette/StringCompare.git@release"
 ]
 
 
diff --git a/src/pyjedai/matching.py b/src/pyjedai/matching.py
@@ -7,18 +7,9 @@
 import matplotlib.pyplot as plt
 import numpy as np
 from networkx import Graph
-from py_stringmatching.similarity_measure.cosine import Cosine
-from py_stringmatching.similarity_measure.dice import Dice
-from py_stringmatching.similarity_measure.generalized_jaccard import \
-    GeneralizedJaccard
-from py_stringmatching.similarity_measure.jaccard import Jaccard
-from py_stringmatching.similarity_measure.jaro import Jaro
-from py_stringmatching.similarity_measure.levenshtein import Levenshtein
-from py_stringmatching.similarity_measure.overlap_coefficient import \
-    OverlapCoefficient
-from py_stringmatching.tokenizer.qgram_tokenizer import QgramTokenizer
-from py_stringmatching.tokenizer.whitespace_tokenizer import \
-    WhitespaceTokenizer
+from .string_matchers import WhitespaceTokenizer, Cosine, Jaccard, GeneralizedJaccard, Dice, OverlapCoefficient
+from stringcompare import Levenshtein, Jaro
+from stringcompare.preprocessing import NGramTokenizer
 from tqdm.autonotebook import tqdm
 
 from .datamodel import Data, PYJEDAIFeature
@@ -389,12 +380,12 @@ def __init__(
                         vectorizer, available_vectorizers
                     )
                 )
+                
         elif(tokenizer is not None):
             if tokenizer == 'white_space_tokenizer':
-                self._tokenizer = WhitespaceTokenizer(return_set=self.tokenizer_return_set)
+                self._tokenizer = WhitespaceTokenizer()
             elif tokenizer == 'char_tokenizer':
-                self._tokenizer = QgramTokenizer(qval=self.qgram,
-                                                return_set=self.tokenizer_return_set)
+                self._tokenizer = NGramTokenizer(n=self.qgram)
             elif tokenizer == 'word_tokenizer':
                 self._tokenizer = WordQgramTokenizer(q=self.qgram)
             elif tokenizer not in available_tokenizers:
@@ -508,27 +499,41 @@ def _similarity(self, entity_id1: int, entity_id2: int) -> float:
             for attribute, weight in self.attributes.items():
                 e1 = self.data.entities.iloc[entity_id1][attribute].lower()
                 e2 = self.data.entities.iloc[entity_id2][attribute].lower()
-
-                similarity += weight*metrics_mapping[self._metric].get_sim_score(
-                    self._tokenizer.tokenize(e1) if self._metric in set_metrics else e1,
-                    self._tokenizer.tokenize(e2) if self._metric in set_metrics else e2
-                )
+                if self.tokenizer_return_set: 
+                    similarity += weight*metrics_mapping[self._metric].compare(
+                        set(self._tokenizer.tokenize(e1)) if self._metric in set_metrics else e1,
+                        set(self._tokenizer.tokenize(e2)) if self._metric in set_metrics else e2
+                    )
+                else:     
+                    similarity += weight*metrics_mapping[self._metric].compare(
+                        self._tokenizer.tokenize(e1) if self._metric in set_metrics else e1,
+                        self._tokenizer.tokenize(e2) if self._metric in set_metrics else e2
+                    )
         elif isinstance(self.attributes, list):
             for attribute in self.attributes:
                 e1 = self.data.entities.iloc[entity_id1][attribute].lower()
                 e2 = self.data.entities.iloc[entity_id2][attribute].lower()
-                similarity += metrics_mapping[self._metric].get_sim_score(
-                    self._tokenizer.tokenize(e1) if self._metric in set_metrics else e1,
-                    self._tokenizer.tokenize(e2) if self._metric in set_metrics else e2
-                )
+                if self.tokenizer_return_set: 
+                    similarity += metrics_mapping[self._metric].compare(
+                        set(self._tokenizer.tokenize(e1)) if self._metric in set_metrics else e1,
+                        set(self._tokenizer.tokenize(e2)) if self._metric in set_metrics else e2
+                    )
+                else:
+                    similarity += metrics_mapping[self._metric].compare(
+                        self._tokenizer.tokenize(e1) if self._metric in set_metrics else e1,
+                        self._tokenizer.tokenize(e2) if self._metric in set_metrics else e2
+                    )
             similarity /= len(self.attributes)
         else:
-            # concatenated row string
             e1 = self.data.entities.iloc[entity_id1].str.cat(sep=' ').lower()
             e2 = self.data.entities.iloc[entity_id2].str.cat(sep=' ').lower()
-            te1 = self._tokenizer.tokenize(e1) if self._metric in set_metrics else e1
-            te2 = self._tokenizer.tokenize(e2) if self._metric in set_metrics else e2
-            similarity = metrics_mapping[self._metric].get_sim_score(te1, te2)
+            if self.tokenizer_return_set: 
+                te1 = set(self._tokenizer.tokenize(e1)) if self._metric in set_metrics else e1
+                te2 = set(self._tokenizer.tokenize(e2)) if self._metric in set_metrics else e2
+            else:
+                te1 = self._tokenizer.tokenize(e1) if self._metric in set_metrics else e1
+                te2 = self._tokenizer.tokenize(e2) if self._metric in set_metrics else e2
+            similarity = metrics_mapping[self._metric].compare(te1, te2)
         return similarity
 
     def _configuration(self) -> dict:
diff --git a/src/pyjedai/prioritization.py b/src/pyjedai/prioritization.py
@@ -15,18 +15,9 @@
 from .vector_based_blocking import EmbeddingsNNBlockBuilding
 
 from networkx import Graph
-from py_stringmatching.similarity_measure.cosine import Cosine
-from py_stringmatching.similarity_measure.dice import Dice
-from py_stringmatching.similarity_measure.generalized_jaccard import \
-    GeneralizedJaccard
-from py_stringmatching.similarity_measure.jaccard import Jaccard
-from py_stringmatching.similarity_measure.jaro import Jaro
-from py_stringmatching.similarity_measure.levenshtein import Levenshtein
-from py_stringmatching.similarity_measure.overlap_coefficient import \
-    OverlapCoefficient
-from py_stringmatching.tokenizer.qgram_tokenizer import QgramTokenizer
-from py_stringmatching.tokenizer.whitespace_tokenizer import \
-    WhitespaceTokenizer
+from .string_matchers import WhitespaceTokenizer, Cosine, Jaccard, GeneralizedJaccard, Dice, OverlapCoefficient
+from stringcompare import Levenshtein, Jaro
+from stringcompare.preprocessing import NGramTokenizer
 from sklearn.metrics.pairwise import pairwise_distances
 from tqdm.autonotebook import tqdm
 
diff --git a/src/pyjedai/string_matchers.py b/src/pyjedai/string_matchers.py
@@ -0,0 +1,158 @@
+"""
+This code was based on py_stringmatching: https://github.com/anhaidgroup/py_stringmatching
+"""
+from abc import ABC, abstractmethod
+from stringcompare import Jaro
+import re
+
+
+class WhitespaceTokenizer(ABC):
+    def tokenize(self, sentence):
+        whitespace_pattern = re.compile(r'\s+')
+        tokens = whitespace_pattern.split(sentence.strip())
+        tokens = [token for token in tokens if token]
+        return tokens
+    
+class StringMatcher(ABC):
+    """String Matchers based on py_stringmatching"""
+    flag = True
+    
+    
+    def check_instance_type(self, te1, te2) -> None:
+        if not isinstance(te1, list) and not isinstance(te1, set): 
+            raise TypeError("Must be either list or set")
+        if not isinstance(te2, list) and not isinstance(te2, set): 
+            raise TypeError("Must be either list or set")
+        
+    def exact_match(self, te1, te2):
+        return te1 == te2
+    
+    def empty_match(self, te1, te2):
+        return len(te1) == 0 or len(te2) == 0
+            
+        
+    @abstractmethod
+    def compare(self, te1, te2):
+        pass
+
+
+class Cosine(StringMatcher):
+    def compare(self, te1, te2) -> float:
+
+        self.check_instance_type(te1, te2)
+
+        # if exact match return 1.0
+        if self.exact_match(te1, te2):
+            return 1.0
+
+        # if one of the strings is empty return 0
+        if self.empty_match(te1, te2):
+            return 0.0
+
+        intersection = len(set(te1) & set(te2))
+        norm1 = len(te1) ** 0.5
+        norm2 = len(te2) ** 0.5
+        return intersection / (norm1 * norm2) if norm1 * norm2 > 0 else 0
+        
+class Dice(StringMatcher):
+    def compare(self, te1, te2) -> float:
+        print("TIFASIII??")
+        self.check_instance_type(te1, te2)
+
+        set1 = set(te1)
+        set2 = set(te2)
+
+        # if exact match return 1.0
+        if self.exact_match(set1, set2):
+            return 1.0
+
+        # if one of the strings is empty return 0
+        if self.empty_match(set1, set2):
+            return 0.0
+
+        return 2.0 * float(len(set1 & set2)) / float(len(set1) + len(set2))
+
+class Jaccard(StringMatcher):
+    def compare(self, te1, te2) -> float:
+        self.check_instance_type(te1, te2)
+
+        set1 = set(te1)
+        set2 = set(te2)
+
+        # if exact match return 1.0
+        if self.exact_match(set1, set2):
+            return 1.0
+
+        # if one of the strings is empty return 0
+        if self.empty_match(set1, set2):
+            return 0.0
+
+        intersection = len(set(te1) & set(te2))
+        return intersection/(len(set1) + len(set2) + intersection)
+
+class GeneralizedJaccard(StringMatcher):
+    def compare(self, te1, te2) -> float:
+        self.check_instance_type(te1, te2)
+
+        set1 = set(te1)
+        set2 = set(te2)
+
+        # if exact match return 1.0
+        if self.exact_match(set1, set2):
+            return 1.0
+
+        # if one of the strings is empty return 0
+        if self.empty_match(set1, set2):
+            return 0.0
+
+        set1_x = set()
+        set2_y = set()
+        match_score = 0.0
+        match_count = 0
+        list_matches = []
+        threshold=0.5
+        for element in set1:
+            for item in set2:
+                score = Jaro().compare(element, item)
+                if score > 1 or score < 0:
+                    raise ValueError('Similarity measure should' + \
+                                    ' return value in the range [0,1]')
+                if score > threshold:
+                    list_matches.append((element, item, score))
+
+        # position of first string, second string and sim score in tuple
+        first_string_pos = 0
+        second_string_pos = 1
+        sim_score_pos = 2
+
+        # sort the score of all the pairs
+        list_matches.sort(key=lambda x: x[sim_score_pos], reverse=True)
+
+        # select score in increasing order of their weightage, 
+        # do not reselect the same element from either set.
+        for element in list_matches:
+            if (element[first_string_pos] not in set1_x and
+                element[second_string_pos] not in set2_y):
+                set1_x.add(element[first_string_pos])
+                set2_y.add(element[second_string_pos])
+                match_score += element[sim_score_pos]
+                match_count += 1
+
+        return float(match_score) / float(len(set1) + len(set2) - match_count)
+
+class OverlapCoefficient(StringMatcher):
+    def compare(self, te1, te2) -> float:
+        self.check_instance_type(te1, te2)
+
+        set1 = set(te1)
+        set2 = set(te2)
+
+        # if exact match return 1.0
+        if self.exact_match(set1, set2):
+            return 1.0
+
+        # if one of the strings is empty return 0
+        if self.empty_match(set1, set2):
+            return 0.0
+        return float(len(set1 & set2)) / min(len(set1), len(set2))
+