PythonCookbook-1.13访问子字符串

创业
2025-09-03 08:30:01

任务

获取字符串的某个部分。

解决方案

切片是个好方法，但是它一次只能取得一个字段；如果还考虑字段的长度，struct.unpack可能更适合。

import struct def fields(baseformat, theline, lastfield=False): # theline超出的长度也由这个base-format确定 # （通过struct.calcsize计算确切的长度） numremain = len(theline) - struct.calcsize(baseformat) # 用合适的s或x字段完成格式，然后unpack format = "%s %d%s" % (baseformat, numremain, lastfield and "s" or "x") return struct.unpack(format, theline) #test >>> theline = "numremain = len(theline) - struct.calcsize(baseformat)" >>> numremain = len(theline) - struct.calcsize(baseformat) >>> format = "%s %ds" % (baseformat,numremain) >>> format '5s 3x 8s 8s 30s' >>> l,s1,s2,t = struct.unpack(format,theline) >>> l 'numre' >>> s1 'n = len(' >>> s2 'theline)' >>> t ' - struct.calcsize(baseformat)'

如果获取固定字长的数据，可以利用带列表推导（LC）的切片方法

pieces = [theline[k:k+n] for k in xrange(0,len(theline),n)]

如果想把数据切成指定长度的列用带LC的切片方法比较容易实现

cuts = [8,14,20,26,30] pieces = [ theline[i,j] for i j in zip([0]+cuts,cuts+[None])]

PS:

将以上代码片段封装成函数

def fields(baseformat,theline,lastfield=False): #theline 超出的长度也有这个base-format 确定 #（通过 struct.calcsize计算切片的长度） numremain = len(theline)-struct.calcsize(baseformat) #用合适的s或者x字段完成格式然后unpack format = "%s %d %s" % (baseformat,numre

下边这个是使用memoizing机制的版本

def fields(baseformat,theline,lastfield=False,_cache={ }): #生成键并尝试获得缓存的格式字符串 key = baseformat,len(theline),lastfield format _cache.get(key) if format is None: #m没有缓存的格式字符串创建并缓存 numremain = len(theline) - struct.calcsize(baseformat) _cache[key] = format = "%s %d%s" % ( baseformat,numremain,lastfield and "s" or "x") return struct.unpack(format,theline)

cookbook上说的这个比优化之前的版本快30%到40% 不过如果这里不是瓶颈部分，没必要使用这种方法

使用LC切片函数

def split_by(theline,n,lastfield=False): #切割所有需要的片段 pieces = [theline[k:k+n] for k in xrange(0,len(theline),n)] #弱最后一段太短或不需要，丢弃 if not lastfield and len(pieces[-1] < n): pieces.pop() return pieces def split_at(theline,cuts,lastfield=False): #切割所有需要的片段 pieces = [ theline[i,j] for i j in zip([0]+cuts,cuts+[None])] #若不需要最后一段丢弃 if not lastfield: pieces.pop() return pieces

使用生成器的版本

def split_at(the_line,cuts,lastfield=False): last = 0 for cut in cuts: yield the_line[last:cut] last = cut if lastfield: yield the_line[last:] def split_by(the_line,n,lastfield=False): return split_at1(the_line,xrange(n,len(the_line),n),lastfield) 字符串介绍 1. 字符串定义

使用单引号 ’ 你可以用单引号指示字符串，就如同’这是一句话’这样。

str = '这是一句话' print( str )

使用双引号 " 在双引号中的字符串与单引号中的字符串的使用完全相同，例如"What’s your name?"。

str = "What's your name?" print( str )

使用三引号（‘’'或"“”）利用三引号，你可以指示一个多行的字符串。你可以在三引号中自由的使用单引号和双引号。

str =''' 这是一个多行文本. 这是第一行.这是第二行. ''' print(str)

转义符假设你想要在一个字符串中包含一个单引号（'），那么你该怎么指示这个字符串？

例如，这个字符串是What’s your name?。

你肯定不会用’What’s your name?'来指示它，因为Python会弄不明白这个字符串从何处开始，何处结束。所以，你需要指明单引号而不是字符串的结尾。可以通过转义符来完成这个任务。

你用’来指示单引号——注意这个反斜杠。现在你可以把字符串表示为’What’s your name?'。

另一个表示这个特别的字符串的方法是"What’s your name?"，即用双引号

str1 = 'What\'s your name?' str2 = "What's your name?" print(str1) print(str2) 2. 索引（即下标）

s = 'ABCDEFGHIJKLMN' s1 = s[0] print('s[0] = ' + s1) #s[0] = A print('s[3] = '+ s[3]) #s[3] = D print('倒数第三个数为：' + s[-3]) #倒数第三个数为：L print('最后一个数为：' + s[-1]) #最后一个数为：N 3. 切片：顾头不顾尾（截取一部分字符串） s = 'ABCDEFGHIJKLMN' s2 = s[0:3] print('s[0:3] = ' + s2) #s[0:3] = ABC print('整个字符串如下：' + s[:]) #整个字符串如下：ABCDEFGHIJKLMN print('整个字符串如下：' + s[0:]) #整个字符串如下：ABCDEFGHIJKLMN print('前两个字符：' + s[:2]) #前两个字符：AB 4. 跳取 s[首:尾:步长] s3 = 'ABCDEFGHIJKLMN' print(s3[0:6:2]) #ACE print(s3[::2]) #ACEGIKM print(s3[4:0:-1]) #倒着取:EDCB print(s3[3::-1]) #DCBA print(s3[-1::-1]) #NMLKJIHGFEDCBA 5. 字符串的操作

1）首字母大写

s = 'alexWUsir' s4_1 = s.capitalize() #首字母大写 print(s4_1) #Alexwusir

2）全部大写

s = 'alexWUsir' s4_2 = s.upper() #全部大写 print(s4_2) #ALEXWUSIR

3）全部小写

s = 'alexWUsir' s4_3 = s.lower() #全部小写 print(s4_3) #alexwusir

4）大小写互换

s = 'alexWUsir' s4_4 = s.swapcase() #大小写互换 print(s4_4) #ALEXwuSIR

标签：

PythonCookbook-1.13访问子字符串由讯客互联创业栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“PythonCookbook-1.13访问子字符串”

上一篇
ASCII与Unicode：两种字符编码的定义和不同

下一篇
Ubuntu系统cuda12.2安装MMDetection3