"Claude 写代码好,GPT 聊天好,Gemini 搜索好……"
→ 去做 AIBT 测试SHIFT 是以"并行使用"为核心的 AI 用户原型。大多数用户会认定一个 AI 就一直用下去,SHIFT 则同时养着五六个——Claude 写长文、ChatGPT 日常聊天、Gemini 搜实时信息、DeepSeek 做数学推理、Kimi 处理长文档、豆包看中文语料。你不只是知道这些模型存在,你知道每个模型的人格、长处、短板,以及这个月哪个付费档位"真的值"。你是 AI 界的鉴赏家,永远在追"这个任务最合适的那一个"。
最明显的信号是浏览器标签栏。一个 SHIFT 用户的浏览器任何时候都有 4–8 个 AI 标签,他们之间的切换靠肌肉记忆。新模型一上线,SHIFT 24 小时内就能给出评测——不是工作,纯粹出于好奇心。他们用一个新模型五分钟就能告诉你它的写作"僵不僵"、代码输出会不会幻觉出不存在的函数名、中日文处理得怎么样、拒答是否合理。这不是学来的专业技能,是"不断对比"的自然结果。
SHIFT 的标志是 U(使用度)极高——广度和深度都拉满,其他维度中等。他们不会特别依恋任何一个 AI,因为精力被分散到了很多个:
低 P(prompt 精度)值得注意:SHIFT 不会在任何一个 prompt 上投入过多,因为兜底方案永远是"试下一个模型"。为什么要花 10 分钟给 Claude 写一个完美 prompt?直接把同一个 prompt 贴进 GPT 和 Gemini,三选一就好了。这是"组合投资"的思路,只是用在了 AI 上。
这就是标志性的 SHIFT 动作:不信任任何单一模型,三模型交叉验证。代价是时间(三次 API 调用而不是一次),收益是能抓住任何单一模型都会漏掉的问题。BACKSPACE 会为一个模型写一个精雕细琢的 prompt;SHIFT 跑的是模型集合。
SHIFT 用户会维护一套私人的新模型评测题目。这不是官方 benchmark,是专门为"SHIFT 在意的那些行为"设计的探针。结果会被分享到群聊、X、偶尔 Reddit。厂商应该要去收集这些反馈,有些已经在做了。
这是 SHIFT 心里反复出现的内心独白。他们真的在为 AI 花实在的钱,他们也知道大概花多了,但就是舍不得取消——"万一我取消的那个下周加了个杀手锏功能呢?"FOMO 在 SHIFT 的预算里是一条实实在在的支出项。
SHIFT 是真正知道"哪个 AI 最擅长哪件事"的人,因为他们真的去查了。他们是井里的金丝雀——模型变好或变差了,SHIFT 最早察觉。如果你想要关于 AI 工具的靠谱建议,别去 Twitter 上翻帖子,问一个 SHIFT。他们的意见是被并排对比的数据撑着的,别人没那个耐心做这事。
这也是为什么 SHIFT 对整个 AI 社区的价值被严重低估。他们的对比帖、benchmark 表格、"我用同一个任务跑了 5 个模型"的文章,是互联网上最有用的"到底订哪个"的内容。这种内容你从模型厂商的官方页面是得不到的——只能从一个"没东西要卖给你"的真实用户那里得到。
从 AIBT 的用户数据看,SHIFT 倾向于维护一套互补的"首发五人":
具体组合因地区和任务而异。一个美国 SHIFT 可能更偏重 Claude + GPT,一个中国 SHIFT 可能并行用 DeepSeek、Kimi、豆包等。共同点是他们都拒绝"只选一个"。
SHIFT 不会和任何单一 AI 搭——他们和整个生态共存。但要说最喜欢的 AI 人格:JARVIS(分诊工作流里效率高)、SKYNET(当一个 AI 反驳另一个 AI 的时候,对比才有意思)、BARD(足够话多才能抓出可分析的长回答)。他们最难受的是那种"感觉都差不多"的模型——如果所有 AI 都一样,SHIFT 这个类型就不会存在。
好奇你是 SHIFT 还是别的什么?AIBT 人类版测试只要 5 分钟,能告诉你你是 16 种键盘按键类型里的哪一种。
→ 去做测试