Mercurial Repository: p/roundup/code: roundup/backends/indexer

handle words starting with unicode characters

author	Christof Meerwald <cmeerw@cmeerw.org>
date	Sat, 28 Jul 2018 22:39:24 +0100
parents	23b8e6067f7c
children	4c7662c86a36

comparison

equal deleted inserted replaced

-:115efa91f7a1
+:e2baa4e6ed6d
 if not wordlist:
 segments = self.segments
 else:
 segments = ['-','#']
 for word in wordlist:
-segments.append(word[0].upper())
+initchar = word[0].upper()
+if initchar not in self.segments:
+initchar = '_'
+segments.append(initchar)
 # Load the segments
 for segment in segments:
 try:
 f = open(self.indexdb + segment, 'rb')
 segdicts = {}                           # Need batch of empty dicts
 for segment in letters:
 segdicts[segment] = {}
 for word, entry in self.words.items():  # Split into segment dicts
 initchar = word[0].upper()
+if initchar not in letters:
+# if it's a unicode character, add it to the '_' segment
+initchar = '_'
 segdicts[initchar][word] = entry
 # save
 for initchar in letters:
 db = {'WORDS':segdicts[initchar], 'FILES':None, 'FILEIDS':None}

Mercurial > p > roundup > code