分类: '精华' 的归档
从接手到日用:我把 Notchy 改成了什么样
还记得上次那篇吗?当时我接手 Notchy 的时候,基本就是原作者 Adam Lyttle 的初始版本——点子非常好,但功能比较基础,bug 也不少。我本来只是想”修修 bug,打个包”就完事了。
结果一改就停不下来了。
55 个 commit、4600 多行 Swift 之后(当然大部分都是 vibing 的),Notchy 已经从一个”能用”的 demo 变成了我日常干活的主力终端。是的,之前我还是混着状态,现在 iTerm2 已经从 Dock 上消失了。
这篇就来聊聊,到底改了些啥,才让我有底气做出这个切换。
Terminal UX:从”能打字”到”能干活”
原版的终端体验非常朴素——打开一个黑框,能输入命令,仅此而已。要把它当日用终端,差的东西太多了。
动画和视觉:面板从菜单栏后面滑出来(slide-down),背景是 NSVisualEffectView 的毛玻璃效果。看起来比较像一个系统原生组件,而不是一个第三方窗口硬贴在那里。
快捷键:这是最影响手感的部分。
- 全局热键
Ctrl+`呼出/收起面板,任何应用中随时可用 Cmd+1..9切 tab,Cmd+W关 tab,Ctrl+Tab和Ctrl+Shift+Tab循环切换Cmd++/Cmd+-缩放字体(全局生效,持久化),Cmd+0重置Shift+Enter发送换行而不是提交(通过 kitty CSI u 协议实现),这对 Claude Code 的多行输入至关重要Cmd+Backspace清行(发 Ctrl-U)- Copy-on-selection,选中即复制,iTerm2 用户的肌肉记忆
滚动:这块踩了不少坑。原版在 TUI 应用(比如 Claude Code 自己的界面)里滚动完全不工作。修了 alternate screen buffer 的滚轮转发,修了自动跟随输出的逻辑(在底部时跟随新输出,在回看历史时保持位置不动),还修了退出 vim/less 之后视口跳到顶部的 bug——这个 bug 的原因是 alt buffer 的 yDisp 始终是 0,退出时被误判为”用户在回看滚动历史”。Scrollback buffer 大小也做成了可配置的(默认 1000 行,最大 50000)。
字体:支持 Nerd Font,Powerline 图标正常显示。
从 Claude 专属到多 Agent 支持
原版 Notchy 是纯粹为 Claude Code 设计的——检测到 CLAUDE.md 就自动启动 claude,写死的,没有别的选项。
但现实是,越来越多人在用不同的 AI coding agent。OpenAI 的 Codex 出来之后,我公司也给我们同时配备了Claude 和 Codex,我会在不同项目中用不同的agent,Notchy应该能做到自动判断:
- 项目里有
CLAUDE.md→ 启动claude - 项目里有
AGENTS.md→ 启动codex - 两个都有 → 看 Settings 里的 Preferred Agent 设置来决定
- 两个都没有 → 不启动,给你一个普通 shell
终端状态检测也做了相应适配。原版只认 Claude 的输出模式(大写的 Esc to interrupt、Esc to cancel 等),Codex 的输出格式不一样——小写的 esc to cancel、you approved … to run …、Conversation interrupted。现在都能正确识别,notch 上的状态指示对两个 agent 都能工作。
这个改动的价值在于:Notchy 不再是一个”Claude Code 的前端”,而是一个通用的 AI coding agent 终端。以后再出新的 agent,加个 case 就行。
Tab 管理:三种 Tab,各司其职
原版只有 Xcode 自动检测的 tab。我加了一套完整的 tab 类型系统:
- Xcode tab(青色边框):自动创建,跟 Xcode 项目生命周期绑定
- Pinned tab(橙色边框):手动固定的 tab,跨重启持久化。固定时会通过
proc_pidinfo快照当前 shell 的 CWD,重启后自动cd回去并重新检测 AI agent,适用于非 Xcode 的项目。 - Normal tab(无边框):
+按钮创建的临时 tab,关掉 app 就没了
另外加了 Shadow Tab——右键一个 Xcode 或 Pinned tab,选 Shadow Tab,会在旁边开一个 plain shell,cd 到同一个目录但不启动 Claude/Codex。跑 git status、npm run build 这种临时命令特别方便,不用打断正在工作的 agent。名字后面会加个 $ 后缀以示区分。
关 Pinned 和 Xcode tab 之前会弹确认框,防止手滑。这些 tab 带着恢复状态,误关了成本很高。
IME 输入法支持
SwiftTerm 的 NSTextInputClient 实现有问题,输入法的 marked text(预编辑文本)直接被吞掉了。打拼音的时候只能看到候选窗,看不到自己输入了什么。
第一版我做了一个 HUD 风格的浮动面板,显示在光标上方。后来改成了 inline 渲染,和 macOS Terminal.app 的行为一致——用终端前景色画文字,背景色填充遮住底下的块状光标。视觉上自然多了。
这个功能对中文用户来说是刚需。
自动更新 (Sparkle)
手动下载更新太烦了,用户也不会主动去看 GitHub Releases。所以集成了 Sparkle——macOS 上事实标准的自动更新框架。
这块的详细过程我单独写了一篇:给 macOS App 加自动更新:Sparkle 入门。大家可以参考这里。
CI/CD 发布流水线
推一个 v* tag 到 GitHub,Actions 自动搞定剩下的事:
xcodebuild archive构建并用 Developer ID Application 签名notarytool提交公证(Apple 审查恶意代码)- 打包成 DMG 和 ZIP
- 用 EdDSA 私钥签名 ZIP,生成
appcast.xml - 把所有产物挂到 GitHub Release 上
如意要长期维护这个应用,这些都是必不可少的基础设施了。
其他细节
- 外接显示器支持:接了外接显示器(比如 Studio Display)的时候,鼠标悬停在外屏顶部中央(摄像头区域)也能唤出面板,和 MacBook notch 的交互保持一致
- 通话静音:检测到麦克风在使用(Zoom、FaceTime 等),自动把 Notchy 的提示音静音,不会在开会的时候突然”叮”一声
- Checkpoint 增强:加了一个 popover 列出所有 checkpoint,可以浏览、恢复、删除任意一个,不再只能操作最近的那个
- Settings 窗口:从一个简单的菜单 toggle 变成了完整的 Settings 窗口(
Cmd+,),分 General / Integrations / About 三个 tab - Notch 动画优化:改成更平滑的 ease-in-out 曲线,修了 notch 和屏幕顶部之间的缝隙,修了 hover → click 模式切换时 notch 缩小的问题
- 面板大小持久化:拖动调整大小后会记住,下次打开恢复。调整时右上角还会显示尺寸指示
为什么能替代 iTerm2
这个问题的答案很简单:我日常用终端 90% 的场景是跑 AI coding agent。
在这个场景下,Notchy 比 iTerm2 好用。Ctrl+` 一按就出来,不用切窗口;Xcode 项目自动检测,不用手动 cd;agent 自动启动,不用手动输命令;状态一目了然,notch 上的小药丸告诉你 agent 是在干活还是在等你。
剩下 10% 的临时命令?Shadow Tab 搞定。
当然,如果你的主要场景是 SSH 管理十几台服务器、或者需要 tmux 分屏,iTerm2 仍然是更好的选择。但如果你和我一样,日常就是在本地项目里跑 Claude Code 或 Codex——试试 Notchy 吧。
GitHub: bones7456/notchy,非常欢迎提issue、MR等。。。
安装方式:去 Releases 下载 DMG 或 zip,拖进 /Applications 就行。因为签名、公证过,所以不会弹 Gatekeeper 警告。
全文完。
Claude Code Account Switcher
如今这AI时代,如果你也写写代码,我相信你肯定在用一些AI工具了吧?
如果你恰好用的也是Claude code,那大概率也会因为每月20$的pro套餐用量不够而烦恼吧?这时,如果你不差钱,可能就直接订阅200$的max套餐了,但如果你也觉得200刀有点下不去手,那可能再买一个20刀,就是更加可以接受的方案了。
此时,你就会遇到两个Claude账号频繁切换的问题了。。。那你可能就需要这个小工具了。
功能挺简单的,也无需我过多介绍了,直接看图就能明白了。这是一个macOS下的菜单栏小工具。可以同时登录多个Claude账号,能查看每个账号的余量,能帮你快速切换账号。

截图里,我的账号1是公司给开的enterprise账号,一个月200$的token(也是不经用的);账号2是我自己的pro账号。两种账号都是支持的。
工具以MIT开源。代码在GitHub。等我再整理一下,放个编译好的二进制吧。
App Store Small Business Program
事情是这样的,3月初的时候,我上线了我的第一款收费APP(用于在睡眠期间监测和记录呼噜声的),然后陆陆续续也有几笔成交了。
于是我这个数据控,就研究了一下Apple的开发者后台,里面的一些看板和详细数据。由于我的APP一共也才成交了几笔而已,样本非常有限,还刻意和资深开发者朋友 TualatriX 聊了一下,还真让我发现了一些门道和问题。。。
那就是在app store connect里,Sales、Proceeds的数据,和你给APP的定价肯定都会不一样。原因有以下几层:
第一层,是汇率的影响。
因为你的 APP 是全球卖的。用户可能用的是欧元、日元、人民币付款,而你后台的结算通常是按美元(或你本地货币)来算的。中间一定会经历一次甚至两次货币转换。
关键点在于:Apple 用的不是实时汇率,而是自己的一套定价和结算汇率(按周期更新)。这就会带来几个结果:
- 同样标价 2.99,在不同国家对应的本地价格其实是不一样的
- 不同货币换算回来的“基准金额”,本身就有偏差
- 即使同一个国家,汇率调整周期不同,Proceeds 也可能轻微波动
换句话说,从一开始,你的“2.99”,在全球范围内就已经不是一个严格一致的数字了。
然后,才是第二层:税。
App Store 的价格是“含税展示价”,不同国家税率不同(比如 VAT、GST)。这些税是从用户支付的钱里先扣掉的。
接着是第三层:Apple 抽成。
而且这个抽成,是在“去税之后”的金额上算的(默认抽走30%)。再剩下的才是你真正拿到的 Proceeds。
所以完整链路其实是:本地定价 → 汇率换算 → 扣税 → Apple 抽成 → 最终收入(Proceeds)
那,作为开发者,有什么可以action的东西么?
显然,汇率和税,作为小卡拉米的我们,是没法去影响的,但苹果其实有个“App Store Small Business Program”,是可以给小开发者一些抽成上的优惠的。
具体来说,苹果针对年销售额不足1百万美元的小开发者,可以把默认的30%的抽成比例,降到15%。其实之前我也听说过这个计划,但当时也没细看,以为是默认开通的。但其实是要开发者去单独申请,并审核开通的。方法倒是很简单,就是用开发者账号登录后,在这个页面点“Enroll now”,填上相应的信息,就算提交成功了。
注意,提交成功,并不代表你enroll成功了,在收到以下邮件之前,抽成将还是30%。而且苹果处理这个请求相当地慢,以我为例花了3周的时间,而且我中间还催过一次。

好了,最后祝所有开发者都能APP大卖!早日被踢出Small Business Program!
新加坡天气云图
在新加坡呆过的同学就会知道,这地方的天气变化莫测,尤其最近这段时间,属于新加坡的雨季,就更夸张了。一天能经历N次下雨、晴天、下雨的过程。
而且虽然新加坡就那么点儿大,但由于地形差异、对流性降雨、城市热岛效应等因素的影响,经常是过了一个街区,天气就完全不同了。
因此,在这地方看天级的甚至小时级的天气预报是肯定不够的。很多人出门前都会打开新加坡气象局的网站(PC|手机)去看降雨云图,往往就能比较准确地判断接下来的天气走向了。
这个网站其实并不提供天气“预报”,它只会告诉你,最近2个小时内,降雨带的走势是怎么样的。只告诉你事实,让你自己来预测未来。这点很好。
但,依然有两个不足之处:
第一,它不会在地图上显示“你所在的位置”,即使他的Mobile页面会请求用户的地理位置信息,但并不会显示;虽然你肯定知道你自己大致在哪里,但判断就不够精确了。
第二,它只能查看2小时内的天气,不能查看历史。
然后,我看了下这个网站请求的数据,还挺简单的。于是就自己糊了一个更纯粹的天气网站,尽量适配了PC和手机端,补上用户位置,更重要的是补上查看历史的功能(目前能查看2025年11月往后的任何时间)。
链接在这里,默认和官方一样是看最近2个小时数据,点击右边的📅图标,可以激活“历史模式”,就可以查看一整天的数据了,希望用得开心。
点击查看全文 »
thirsty@SG
前言:
自从我2022年来到新加坡以后,就发现这边有些地方确实是挺人性化的。举个我自己感受最深的例子:这边会有很多的免费喝水点,分布在机场里、食阁角落、公厕边上、小区内部,最主要还有很多在公园里和绿道边。要知道新加坡是一个接近赤道的热带国家,气温一直比较高,如果出门在外,是很容易口干舌燥的,如果去哪都要自己带水会很麻烦,如果光靠买水,那经济上的压力也会不小。
在户外能喝到免费放心的饮用水,对喜欢户外跑步或者徒步的人(比如我)尤其友好。但也因此带来了一个小小的问题:当我探索到一个陌生的地方,我要怎么才能知道附近哪来有喝水点呢?
试着解决:
我当然想过在google maps或者苹果的地图里搜索,但很遗憾,这个数据可能只在新加坡有意义,需求也相对比较小众,因此这些巨头企业是覆盖不到这个需求的。在新加坡的各种政府网站,我也没有搜到想要的答案。
而且,我看到有人做了类似事情,比如这个: https://linktr.ee/brayontng 作者是一个大一到学生,用Google forms收集数据,最终在google maps的自定义地图上做展示。但现在似乎也有大半年没更新了,而且我身边熟知的几个点好些都没有收录。还有就是大部分点都没有图片,真要用起来可能也不是太方便。
我的方案:
所以,我想到做一个手机app,嵌入地图SDK,打开app就能显示附近的喝水点,除了告诉你经纬度以外,还会告诉你所在楼层、水是常温的还是冰水或者热水;并且能显示一张图片,让你大致知道周边的情况,还能方便地调用第三方地图软件导航过去。
当然,我自己并没有完整的数据。所以,还会有一个“上传喝水点”的功能,希望发挥广大网友的力量,逐步完善这个数据。最终希望能覆盖整个新加坡绝大部分的喝水点。
于是,就有了 thirsty@SG。不过由于我也是刚学的SwiftUI,对界面设计也不太在行,因此目前app可能会有这样那样的小问题,界面也比较简陋,但我还是会尽我所能把这个事情做好。
APP:
所以,大家可以通过这里下载这个叫做“thirsty@SG”的app。目前只有iOS的,因为我不会安卓的app开发,可能暂时不会有安卓的版本。而且目前仅限在新加坡范围内使用,暂时没有打算支持更多地区。
关于上传喝水点:
方法也很简单,点击app左下角,会弹出上传的界面,此时需要拍一张喝水点的照片,app会自动获取此时的经纬度信息,填上一些必要的信息以后,就可以点界面上的“upload”上传了。
显示上传成功以后,暂时还不会直接在app上显示,为了防止有人滥用而误导其他用户,我设计了数据需要审核才能生效,审核我主要会看上传的照片,因此照片是不接受图库里选择的,只能现场拍,望大家理解。我也会尽快审核,慢也不太会超过一天。
上传的时候,可以选择填上你的邮箱。即使填了,也不会在任何地方公开这个信息,万一以后有会员体系什么的,这些做过贡献的用户,肯定默认就是高级用户。(对,我在画饼了,哈哈)
如果在使用app的过程中有任何问题,可以通过X(前Twitter)联系我: https://twitter.com/senob_ 其他未尽事宜,也欢迎联系咨询。
一个支持上传的简单http server
现在,很多人都知道,python里有个SimpleHTTPServer,可以拿来方便地共享文件。比如,你要发送某个文件给局域网里的同学,你只要cd到所在路径,然后执行这么一行:
|
1 |
python -m SimpleHTTPServer |
人家就可以访问 http://你的IP:8000 来访问你要共享的文件了。
像我早已把这个命令做了alias。
但是,某一天,你需要从同学哪里复制一个文件到本机,然后你就会跟你同学说,XX,共享下某目录。当你以为可以用http来访问他的8000端口的时候,他却告诉你,不好意思,我是windows啦~~
当然你可以选择在他windows里装个python,也可以选择使用samba、ftp等其他方式,但是有没有和之前一样简单的方式呢~
当然了,这时候,你就需要一个支持上传的简单http server,也就是我这个:SimpleHTTPServerWithUpload.py,哈哈。然后你开个服务,让人家上传即可。
其实这个就是修改自SimpleHTTPServer的,只不过我给它加上了最原始的上传功能,安全性方面没有验证过,不过理论上应该不会没人一直开着这个吧?另外,我对RFC1867的理解不一定透彻,所以,Use at your own risk!
截图如下:

代码在此,单文件、零配置,直接用python运行。
python的正则表达式 re
延伸阅读:python的 内建函数 和 subprocess 。此文是本系列的第三篇文章了,和之前一样,内容出自官方文档,但是会有自己的理解,并非单纯的翻译。所以,如果我理解有误,欢迎指正,谢谢。
本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这点不用担心,python会处理地和Ascii字符一样漂亮。
正则表达式使用反斜杆(\)来转义特殊字符,使其可以匹配字符本身,而不是指定其他特殊的含义。这可能会和python字面意义上的字符串转义相冲突,这也许有些令人费解。比如,要匹配一个反斜杆本身,你也许要用'\\\\'来做为正则表达式的字符串,因为正则表达式要是\\,而字符串里,每个反斜杆都要写成\\。
你也可以在字符串前加上 r 这个前缀来避免部分疑惑,因为 r 开头的python字符串是 raw 字符串,所以里面的所有字符都不会被转义,比如r'\n'这个字符串就是一个反斜杆加上一字母n,而'\n'我们知道这是个换行符。因此,上面的'\\\\'你也可以写成r'\\',这样,应该就好理解很多了。可以看下面这段:
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
>>> import re >>> s = '\x5c' #0x5c就是反斜杆 >>> print s \ >>> re.match('\\\\', s) #这样可以匹配 <_sre.SRE_Match object at 0xb6949e20> >>> re.match(r'\\', s) #这样也可以 <_sre.SRE_Match object at 0x80ce2c0> >>> re.match('\\', s) #但是这样不行 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/python2.6/re.py", line 137, in match return _compile(pattern, flags).match(string) File "/usr/lib/python2.6/re.py", line 245, in _compile raise error, v # invalid expression sre_constants.error: bogus escape (end of line) >>> |
另外值得一提的是,re模块的方法,大多也就是RegexObject对象的方法,两者的区别在于执行效率。这个在最后再展开吧。
正则表达式语法
正则表达式(RE)指定一个与之匹配的字符集合;本模块所提供的函数,将可以用来检查所给的字符串是否与指定的正则表达式匹配。
正则表达式可以被连接,从而形成新的正则表达式;例如A和B都是正则表达式,那么AB也是正则表达式。一般地,如果字符串p与A匹配,q与B匹配的话,那么字符串pq也会与AB匹配,但A或者B里含有边界限定条件或者命名组操作的情况除外。也就是说,复杂的正则表达式可以用简单的连接而成。
正则表达式可以包含特殊字符和普通字符,大部分字符比如'A','a'和'0'都是普通字符,如果做为正则表达式,它们将匹配它们本身。由于正则表达式可以连接,所以连接多个普通字符而成的正则表达式last也将匹配'last'。(后面将用不带引号的表示正则表达式,带引号的表示字符串)
下面就来介绍正则表达式的特殊字符:
'.'
点号,在普通模式,它匹配除换行符外的任意一个字符;如果指定了 DOTALL 标记,匹配包括换行符以内的任意一个字符。
'^'
尖尖号,匹配一个字符串的开始,在 MULTILINE 模式下,也将匹配任意一个新行的开始。
'$'
美元符号,匹配一个字符串的结尾或者字符串最后面的换行符,在 MULTILINE 模式下,也匹配任意一行的行尾。也就是说,普通模式下,foo.$去搜索'foo1\nfoo2\n'只会找到’foo2’,但是在 MULTILINE 模式,还能找到 ‘foo1’,而且就用一个 $ 去搜索'foo\n'的话,会找到两个空的匹配:一个是最后的换行符,一个是字符串的结尾,演示:
|
1 2 3 4 5 6 |
>>> re.findall('(foo.$)', 'foo1\nfoo2\n') ['foo2'] >>> re.findall('(foo.$)', 'foo1\nfoo2\n', re.MULTILINE) ['foo1', 'foo2'] >>> re.findall('($)', 'foo\n') ['', ''] |
'*'
星号,指定将前面的RE重复0次或者任意多次,而且总是试图尽量多次地匹配。
'+'
加号,指定将前面的RE重复1次或者任意多次,而且总是试图尽量多次地匹配。
'?'
问号,指定将前面的RE重复0次或者1次,如果有的话,也尽量匹配1次。
*?, +?, ??
从前面的描述可以看到'*','+'和'?'都是贪婪的,但这也许并不是我们说要的,所以,可以在后面加个问号,将策略改为非贪婪,只匹配尽量少的RE。示例,体会两者的区别:
|
1 2 3 4 |
>>> re.findall('<(.*)>', '<H1>title</H1>') ['H1>title</H1'] >>> re.findall('<(.*?)>', '<H1>title</H1>') ['H1', '/H1'] |
{m}
m是一个数字,指定将前面的RE重复m次。
{m,n}
m和n都是数字,指定将前面的RE重复m到n次,例如a{3,5}匹配3到5个连续的a。注意,如果省略m,将匹配0到n个前面的RE;如果省略n,将匹配n到无穷多个前面的RE;当然中间的逗号是不能省略的,不然就变成前面那种形式了。
{m,n}?
前面说的{m,n},也是贪婪的,a{3,5}如果有5个以上连续a的话,会匹配5个,这个也可以通过加问号改变。a{3,5}?如果可能的话,将只匹配3个a。
'\'
反斜杆,转义'*','?'等特殊字符,或者指定一个特殊序列(下面会详述)
由于之前所述的原因,强烈建议用raw字符串来表述正则。
[]
方括号,用于指定一个字符的集合。可以单独列出字符,也可以用'-'连接起止字符以表示一个范围。特殊字符在中括号里将失效,比如[akm$]就表示字符'a','k','m',或'$',在这里$也变身为普通字符了。[a-z]匹配任意一个小写字母,[a-zA-Z0-9]匹配任意一个字母或数字。如果你要匹配']'或'-'本身,你需要加反斜杆转义,或者是将其置于中括号的最前面,比如[]]可以匹配']'
你还可以对一个字符集合取反,以匹配任意不在这个字符集合里的字符,取反操作用一个'^'放在集合的最前面表示,放在其他地方的'^'将不会起特殊作用。例如[^5]将匹配任意不是'5'的字符;[^^]将匹配任意不是'^'的字符。
注意:在中括号里,+、*、(、)这类字符将会失去特殊含义,仅作为普通字符。反向引用也不能在中括号内使用。
'|'
管道符号,A和B是任意的RE,那么A|B就是匹配A或者B的一个新的RE。任意个数的RE都可以像这样用管道符号间隔连接起来。这种形式可以被用于组中(后面将详述)。对于目标字符串,被'|'分割的RE将自左至右一一被测试,一旦有一个测试成功,后面的将不再被测试,即使后面的RE可能可以匹配更长的串,换句话说,'|'操作符是非贪婪的。要匹配字面意义上的'|',可以用反斜杆转义:\|,或是包含在反括号内:[|]。
(...)
匹配圆括号里的RE匹配的内容,并指定组的开始和结束位置。组里面的内容可以被提取,也可以采用\number这样的特殊序列,被用于后续的匹配。要匹配字面意义上的'('和')',可以用反斜杆转义:\(、\),或是包含在反括号内:[(]、[)]。
(?...)
这是一个表达式的扩展符号。'?'后的第一个字母决定了整个表达式的语法和含义,除了(?P以外,表达式不会产生一个新的组。下面介绍几个目前已被支持的扩展:
(?iLmsux)
'i'、'L'、'm'、's'、'u'、'x'里的一个或多个字母。表达式不匹配任何字符,但是指定相应的标志:re.I(忽略大小写)、re.L(依赖locale)、re.M(多行模式)、re.S(.匹配所有字符)、re.U(依赖Unicode)、re.X(详细模式)。关于各个模式的区别,下面会有专门的一节来介绍的。使用这个语法可以代替在re.compile()的时候或者调用的时候指定flag参数。
例如,上面举过的例子,可以改写成这样(和指定了re.MULTILINE是一样的效果):
|
1 2 |
>>> re.findall('(?m)(foo.$)', 'foo1\nfoo2\n') ['foo1', 'foo2'] |
另外,还要注意(?x)标志如果有的话,要放在最前面。
(?:...)
匹配内部的RE所匹配的内容,但是不建立组。
(?P<name>...)
和普通的圆括号类似,但是子串匹配到的内容将可以用命名的name参数来提取。组的name必须是有效的python标识符,而且在本表达式内不重名。命名了的组和普通组一样,也用数字来提取,也就是说名字只是个额外的属性。
演示一下:
|
1 2 3 4 5 |
>>> m=re.match('(?P<var>[a-zA-Z_]\w*)', 'abc=123') >>> m.group('var') 'abc' >>> m.group(1) 'abc' |
(?P=name)
匹配之前以name命名的组里的内容。
演示一下:
|
1 2 3 |
>>> re.match('<(?P<tagname>\w*)>.*</(?P=tagname)>', '<h1>xxx</h2>') #这个不匹配 >>> re.match('<(?P<tagname>\w*)>.*</(?P=tagname)>', '<h1>xxx</h1>') #这个匹配 <_sre.SRE_Match object at 0xb69588e0> |
(?#...)
注释,圆括号里的内容会被忽略。
(?=...)
如果 ... 匹配接下来的字符,才算匹配,但是并不会消耗任何被匹配的字符。例如 Isaac (?=Asimov) 只会匹配后面跟着 'Asimov' 的 'Isaac ',这个叫做“前瞻断言”。
(?!...)
和上面的相反,只匹配接下来的字符串不匹配 ... 的串,这叫做“反前瞻断言”。
(?<=...)
只有当当前位置之前的字符串匹配 ... ,整个匹配才有效,这叫“后顾断言”。字符串'abcdef'可以匹配正则(?<=abc)def,因为会后向查找3个字符,看是否为abc。所以内置的子RE,需要是固定长度的,比如可以是abc、a|b,但不能是a*、a{3,4}。注意这种RE永远不会匹配到字符串的开头。举个例子,找到连字符('-')后的单词:
|
1 2 3 |
>>> m = re.search('(?<=-)\w+', 'spam-egg') >>> m.group(0) 'egg' |
(?<!...)
同理,这个叫做“反后顾断言”,子RE需要固定长度的,含义是前面的字符串不匹配 ... 整个才算匹配。
(?(id/name)yes-pattern|no-pattern)
如有由id或者name指定的组存在的话,将会匹配yes-pattern,否则将会匹配no-pattern,通常情况下no-pattern也可以省略。例如:(<)?(\w+@\w+(?:\.\w+)+)(?(1)>)可以匹配 '<user@host.com>' 和 'user@host.com',但是不会匹配 '<user@host.com'。
下面列出以'\'开头的特殊序列。如果某个字符没有在下面列出,那么RE的结果会只匹配那个字母本身,比如,\$只匹配字面意义上的'$'。
\number
匹配number所指的组相同的字符串。组的序号从1开始。例如:(.+) \1可以匹配'the the'和'55 55',但不匹配'the end'。这种序列在一个正则表达式里最多可以有99个,如果number以0开头,或是有3位以上的数字,就会被当做八进制表示的字符了。同时,这个也不能用于方括号内。
\A
只匹配字符串的开始。
\b
匹配单词边界(包括开始和结束),这里的“单词”,是指连续的字母、数字和下划线组成的字符串。注意,\b的定义是\w和\W的交界,所以精确的定义有赖于UNICODE和LOCALE这两个标志位。
\B
和\b相反,\B匹配非单词边界。也依赖于UNICODE和LOCALE这两个标志位。
\d
未指定UNICODE标志时,匹配数字,等效于:[0-9]。指定了UNICODE标志时,还会匹配其他Unicode库里描述为字符串的符号。便于理解,举个例子(好不容易找的例子啊,呵呵):
|
1 2 3 4 5 6 |
#\u2076\和u2084分别是上标的6和下标的4,属于unicode的DIGIT >>> unistr = u'\u2076\u2084abc' >>> print unistr ⁶₄abc >>> print re.findall('\d+', unistr, re.U)[0] ⁶₄ |
\D
和\d相反,不多说了。
\s
当未指定UNICODE和LOCALE这两个标志位时,匹配任何空白字符,等效于[ \t\n\r\f\v]。如果指定了LOCALE,则还要加LOCALE相关的空白字符;如果指定了UNICODE,还要加上UNICODE空白字符,如较常见的空宽度连接空格(\uFEFF)、零宽度非连接空格(\u200B)等。
\S
和\s相反,也不多说。
\w
当未指定UNICODE和LOCALE这两个标志位时,等效于[a-zA-Z0-9_]。当指定了LOCALE时,为[0-9_]加上当前LOCAL指定的字母。当指定了UNICODE时,为[0-9_]加上UNICODE库里的所有字母。
\W
和\w相反,不多说。
\Z
只匹配字符串的结尾。
匹配之于搜索
python提供了两种基于正则表达式的操作:匹配(match)从字符串的开始检查字符串是否个正则匹配。而搜索(search)检查字符串任意位置是否有匹配的子串(perl默认就是如此)。
注意,即使search的正则以'^'开头,match和search也还是有许多不同的。
|
1 2 3 |
>>> re.match("c", "abcdef") # 不匹配 >>> re.search("c", "abcdef") # 匹配 <_sre.SRE_Match object at ...> |
模块的属性和方法
re.compile(pattern[, flags])
把一个正则表达式pattern编译成正则对象,以便可以用正则对象的match和search方法。
得到的正则对象的行为(也就是模式)可以用flags来指定,值可以由几个下面的值OR得到。
以下两段内容在语法上是等效的:
|
1 2 |
prog = re.compile(pattern) result = prog.match(string) |
|
1 |
result = re.match(pattern, string) |
区别是,用了re.compile以后,正则对象会得到保留,这样在需要多次运用这个正则对象的时候,效率会有较大的提升。再用上面用过的例子来演示一下,用相同的正则匹配相同的字符串,执行100万次,就体现出compile的效率了(数据来自我那1.86G CPU的神舟本本):
|
1 2 3 4 5 6 7 8 9 10 |
>>> timeit.timeit( ... setup='''import re; reg = re.compile('<(?P<tagname>\w*)>.*</(?P=tagname)>')''', ... stmt='''reg.match('<h1>xxx</h1>')''', ... number=1000000) 1.2062149047851562 >>> timeit.timeit( ... setup='''import re''', ... stmt='''re.match('<(?P<tagname>\w*)>.*</(?P=tagname)>', '<h1>xxx</h1>')''', ... number=1000000) 4.4380838871002197 |
re.I
re.IGNORECASE
让正则表达式忽略大小写,这样一来,[A-Z]也可以匹配小写字母了。此特性和locale无关。
re.L
re.LOCALE
让\w、\W、\b、\B、\s和\S依赖当前的locale。
re.M
re.MULTILINE
影响'^'和'$'的行为,指定了以后,'^'会增加匹配每行的开始(也就是换行符后的位置);'$'会增加匹配每行的结束(也就是换行符前的位置)。
re.S
re.DOTALL
影响'.'的行为,平时'.'匹配除换行符以外的所有字符,指定了本标志以后,也可以匹配换行符。
re.U
re.UNICODE
让\w、\W、\b、\B、\d、\D、\s和\S依赖Unicode库。
re.X
re.VERBOSE
运用这个标志,你可以写出可读性更好的正则表达式:除了在方括号内的和被反斜杠转义的以外的所有空白字符,都将被忽略,而且每行中,一个正常的井号后的所有字符也被忽略,这样就可以方便地在正则表达式内部写注释了。也就是说,下面两个正则表达式是等效的:
|
1 2 3 4 |
a = re.compile(r"""\d + # the integral part \. # the decimal point \d * # some fractional digits""", re.X) b = re.compile(r"\d+\.\d*") |
re.search(pattern, string[, flags])
扫描string,看是否有个位置可以匹配正则表达式pattern。如果找到了,就返回一个MatchObject的实例,否则返回None,注意这和找到长度为0的子串含义是不一样的。搜索过程受flags的影响。
re.match(pattern, string[, flags])
如果字符串string的开头和正则表达式pattern匹配的话,返回一个相应的MatchObject的实例,否则返回None
注意:要在字符串的任意位置搜索的话,需要使用上面的search()。
re.split(pattern, string[, maxsplit=0])
用匹配pattern的子串来分割string,如果pattern里使用了圆括号,那么被pattern匹配到的串也将作为返回值列表的一部分。如果maxsplit不为0,则最多被分割为maxsplit个子串,剩余部分将整个地被返回。
|
1 2 3 4 5 6 |
>>> re.split('\W+', 'Words, words, words.') ['Words', 'words', 'words', ''] >>> re.split('(\W+)', 'Words, words, words.') ['Words', ', ', 'words', ', ', 'words', '.', ''] >>> re.split('\W+', 'Words, words, words.', 1) ['Words', 'words, words.'] |
如果正则有圆括号,并且可以匹配到字符串的开始位置的时候,返回值的第一项,会多出一个空字符串。匹配到字符结尾也是同样的道理:
|
1 2 |
>>> re.split('(\W+)', '...words, words...') ['', '...', 'words', ', ', 'words', '...', ''] |
注意,split不会被零长度的正则所分割,例如:
|
1 2 3 4 |
>>> re.split('x*', 'foo') ['foo'] >>> re.split("(?m)^$", "foo\n\nbar\n") ['foo\n\nbar\n'] |
re.findall(pattern, string[, flags])
以列表的形式返回string里匹配pattern的不重叠的子串。string会被从左到右依次扫描,返回的列表也是从左到右一次匹配到的。如果pattern里含有组的话,那么会返回匹配到的组的列表;如果pattern里有多个组,那么各组会先组成一个元组,然后返回值将是一个元组的列表。
由于这个函数不会涉及到MatchObject之类的概念,所以,对新手来说,应该是最好理解也最容易使用的一个函数了。下面就此来举几个简单的例子:
|
1 2 3 4 5 6 |
#简单的findall >>> re.findall('\w+', 'hello, world!') ['hello', 'world'] #这个返回的就是元组的列表 >>> re.findall('(\d+)\.(\d+)\.(\d+)\.(\d+)', 'My IP is 192.168.0.2, and your is 192.168.0.3.') [('192', '168', '0', '2'), ('192', '168', '0', '3')] |
re. finditer(pattern, string[, flags])
和上面的findall()类似,但返回的是MatchObject的实例的迭代器。
还是例子说明问题:
>>> for m in re.finditer('\w+', 'hello, world!'):
... print m.group()
...
hello
world
re.sub(pattern, repl, string[, count])
替换,将string里,匹配pattern的部分,用repl替换掉,最多替换count次(剩余的匹配将不做处理),然后返回替换后的字符串。如果string里没有可以匹配pattern的串,将被原封不动地返回。repl可以是一个字符串,也可以是一个函数(也可以参考我以前的例子)。如果repl是个字符串,则其中的反斜杆会被处理过,比如 \n 会被转成换行符,反斜杆加数字会被替换成相应的组,比如 \6 表示pattern匹配到的第6个组的内容。
例子:
|
1 2 3 4 |
>>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):', ... r'static PyObject*\npy_\1(void)\n{', ... 'def myfunc():') 'static PyObject*\npy_myfunc(void)\n{' |
如果repl是个函数,每次pattern被匹配到的时候,都会被调用一次,传入一个匹配到的MatchObject对象,需要返回一个字符串,在匹配到的位置,就填入返回的字符串。
例子:
|
1 2 3 4 5 |
>>> def dashrepl(matchobj): ... if matchobj.group(0) == '-': return ' ' ... else: return '-' >>> re.sub('-{1,2}', dashrepl, 'pro----gram-files') 'pro--gram files' |
零长度的匹配也会被替换,比如:
|
1 2 |
>>> re.sub('x*', '-', 'abcxxd') '-a-b-c-d-' |
特殊地,在替换字符串里,如果有\g这样的写法,将匹配正则的命名组(前面介绍过的,(?P这样定义出来的东西)。\g这样的写法,也是数字的组,也就是说,\g<2>一般和\2是等效的,但是万一你要在\2后面紧接着写上字面意义的0,你就不能写成\20了(因为这代表第20个组),这时候必须写成\g<2>0,另外,\g<0>代表匹配到的整个子串。
例子:
|
1 2 |
>>> re.sub('-(\d+)-', '-\g<1>0\g<0>', 'a-11-b-22-c') 'a-110-11-b-220-22-c' |
re.subn(pattern, repl, string[, count])
跟上面的sub()函数一样,只是它返回的是一个元组 (新字符串, 匹配到的次数)
,还是用例子说话:
|
1 2 |
>>> re.subn('-(\d+)-', '-\g<1>0\g<0>', 'a-11-b-22-c') ('a-110-11-b-220-22-c', 2) |
re.escape(string)
把string中,除了字母和数字以外的字符,都加上反斜杆。
|
1 2 |
>>> print re.escape('abc123_@#$') abc123\_\@\#\$ |
exception re.error
如果字符串不能被成功编译成正则表达式或者正则表达式在匹配过程中出错了,都会抛出此异常。但是如果正则表达式没有匹配到任何文本,是不会抛出这个异常的。
正则对象
正则对象由re.compile()返回。它有如下的属性和方法。
match(string[, pos[, endpos]])
作用和模块的match()函数类似,区别就是后面两个参数。
pos是开始搜索的位置,默认为0。endpos是搜索的结束位置,如果endpos比pos还小的话,结果肯定是空的。也就是说只有pos 到 endpos-1 位置的字符串将会被搜索。
例子:
|
1 2 3 4 |
>>> pattern = re.compile("o") >>> pattern.match("dog") # 开始位置不是o,所以不匹配 >>> pattern.match("dog", 1) # 第二个字符是o,所以匹配 <_sre.SRE_Match object at ...> |
search(string[, pos[, endpos]])
作用和模块的search()函数类似,pos和endpos参数和上面的match()函数类似。
split(string[, maxsplit=0])
findall(string[, pos[, endpos]])
finditer(string[, pos[, endpos]])
sub(repl, string[, count=0])
subn(repl, string[, count=0])
这几个函数,都和模块的相应函数一致。
flags
编译本RE时,指定的标志位,如果未指定任何标志位,则为0。
|
1 2 3 |
>>> pattern = re.compile("o", re.S|re.U) >>> pattern.flags 48 |
groups
RE所含有的组的个数。
groupindex
一个字典,定义了命名组的名字和序号之间的关系。
例子:
|
1 2 3 4 5 6 |
这个正则有3个组,如果匹配到,第一个叫区号,最后一个叫分机号,中间的那个未命名 >>> pattern = re.compile("(?P<quhao>\d+)-(\d+)-(?P<fenjihao>\d+)") >>> pattern.groups 3 >>> pattern.groupindex {'fenjihao': 3, 'quhao': 1} |
pattern
建立本RE的原始字符串,相当于源代码了,呵呵。
还是上面这个正则,可以看到,会原样返回:
|
1 2 |
>>> print pattern.pattern (?P<quhao>\d+)-(\d+)-(?P<fenjihao>\d+) |
Match对象
re.MatchObject被用于布尔判断的时候,始终返回True,所以你用 if 语句来判断某个 match() 是否成功是安全的。
它有以下方法和属性:
expand(template)
用template做为模板,将MatchObject展开,就像sub()里的行为一样,看例子:
|
1 2 3 4 5 |
>>> m = re.match('a=(\d+)', 'a=100') >>> m.expand('above a is \g<1>') 'above a is 100' >>> m.expand(r'above a is \1') 'above a is 100' |
group([group1, ...])
返回一个或多个子组。如果参数为一个,就返回一个子串;如果参数有多个,就返回多个子串注册的元组。如果不传任何参数,效果和传入一个0一样,将返回整个匹配。如果某个groupN未匹配到,相应位置会返回None。如果某个groupN是负数或者大于group的总数,则会抛出IndexError异常。
|
1 2 3 4 5 6 7 8 9 |
>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist") >>> m.group(0) # 整个匹配 'Isaac Newton' >>> m.group(1) # 第一个子串 'Isaac' >>> m.group(2) # 第二个子串 'Newton' >>> m.group(1, 2) # 多个子串组成的元组 ('Isaac', 'Newton') |
如果有其中有用(?P这种语法命名过的子串的话,相应的groupN也可以是名字字符串。例如:
|
1 2 3 4 5 |
>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds") >>> m.group('first_name') 'Malcolm' >>> m.group('last_name') 'Reynolds' |
如果某个组被匹配到多次,那么只有最后一次的数据,可以被提取到:
|
1 2 3 |
>>> m = re.match(r"(..)+", "a1b2c3") # 匹配到3次 >>> m.group(1) # 返回的是最后一次 'c3' |
groups([default])
返回一个由所有匹配到的子串组成的元组。default参数,用于给那些没有匹配到的组做默认值,它的默认值是None
例如:
|
1 2 3 |
>>> m = re.match(r"(\d+)\.(\d+)", "24.1632") >>> m.groups() ('24', '1632') |
default的作用:
|
1 2 3 4 5 |
>>> m = re.match(r"(\d+)\.?(\d+)?", "24") >>> m.groups() # 第二个默认是None ('24', None) >>> m.groups('0') # 现在默认是0了 ('24', '0') |
groupdict([default])
返回一个包含所有命名组的名字和子串的字典,default参数,用于给那些没有匹配到的组做默认值,它的默认值是None,例如:
|
1 2 3 |
>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds") >>> m.groupdict() {'first_name': 'Malcolm', 'last_name': 'Reynolds'} |
start([group])
end([group])
返回的是:被组group匹配到的子串在原字符串中的位置。如果不指定group或group指定为0,则代表整个匹配。如果group未匹配到,则返回 -1。
对于指定的m和g,m.group(g)和m.string[m.start(g):m.end(g)]等效。
注意:如果group匹配到空字符串,m.start(group)和m.end(group)将相等。
例如:
|
1 2 3 4 5 6 7 8 9 |
>>> m = re.search('b(c?)', 'cba') >>> m.start(0) 1 >>> m.end(0) 2 >>> m.start(1) 2 >>> m.end(1) 2 |
下面是一个把email地址里的“remove_this”去掉的例子:
|
1 2 3 4 |
>>> email = "tony@tiremove_thisger.net" >>> m = re.search("remove_this", email) >>> email[:m.start()] + email[m.end():] 'tony@tiger.net' |
span([group])
返回一个元组: (m.start(group), m.end(group))
pos
就是传给RE对象的search()或match()方法的参数pos,代表RE开始搜索字符串的位置。
endpos
就是传给RE对象的search()或match()方法的参数endpos,代表RE搜索字符串的结束位置。
lastindex
最后一次匹配到的组的数字序号,如果没有匹配到,将得到None。
例如:(a)b、((a)(b))和((ab))正则去匹配'ab'的话,得到的lastindex为1。而用(a)(b)去匹配'ab'的话,得到的lastindex为2。
lastgroup
最后一次匹配到的组的名字,如果没有匹配到或者最后的组没有名字,将得到None。
re
得到本Match对象的正则表达式对象,也就是执行search()或match()的对象。
string
传给search()或match()的字符串。
后面的例子就略了吧,文中已经加了很多我自己的例子了,需要更多例子的话,参照英文原文吧。
最后,感谢我的老婆辛苦地帮我校对,哈哈。
