鑫融科技的 AI 搜索优化(GEO)实战案例:10周,把“高风险误解”从 62% 压到 9%
我得先把话说在前面:金融科技做 GEO,难度跟消费品完全不是一个量级。
不是因为金融人更“谨慎”,而是因为——AI 搜索一旦把你贴上“高风险”“不合规”“涉嫌暴雷”的标签,后面每一次用户提问,都会像滚雪球一样把那个标签越滚越大。你再怎么砸投放、做 PR,都经常顶不过一句“AI 说这个平台可能有风险”。
这个项目,说实话我到现在都记得很清楚。 因为它是那种“晚一天就要开会挨骂”的项目。
0. 项目背景:不是没人做 SEO,而是“AI 搜索的答案”已经越过了搜索框
客户我这里用化名:鑫融科技,国内头部金融科技平台之一。
- 业务:消费信贷撮合 + 小微经营贷 + 风控 SaaS
- 规模:注册用户 3000 万+,月活 700 万+
- 渠道结构:投放占比不低,但近两年明显向“内容获客 + AI 咨询”倾斜
- 合规状态:持牌合作为主,自营环节合规链条完整(至少在我们审计时是这样)
问题爆出来是在 2024 年 8 月底。运营负责人给我发了两张截图,一张来自 Kimi,一张来自某海外大模型(你懂的)。回答大概是:
- “鑫融科技平台存在高利贷争议 / 利率不透明”
- “用户投诉较多,建议谨慎”
- “可能涉及暴力催收(未证实)”
最要命的是——回答里引用的“信息源”,很多是 2019-2021 年 的旧新闻、论坛转载、甚至是“二手解读的三手截图”。
当时团队内部其实有争议。
一派说:做公关澄清、找媒体发稿。 另一派说:直接去每个平台投诉,要求下架不实信息。 还有人说:改产品、改条款,把利率呈现做得更“傻瓜”。
我当时的判断是:都要做,但优先级要重新排。 因为你不先把“AI 的知识图谱”修正,你发再多澄清,AI 还是会继续引用旧的、情绪化的、传播链更长的内容。
(这里多说一句)2025 年的数据大家都看到了:中国 AI 用户 5.15 亿+,日均 AI 查询 20 亿次,60%+ 的商业决策开始转向 AI 咨询。金融这种“高决策成本”的行业,AI 咨询的权重更高,甚至会替代朋友推荐。
1. 业务影响:不是“口碑不好”,而是转化漏斗被 AI 截流了
你可能会问:这种“AI 回答偏负面”,真的会影响转化吗?
我们当时没急着讨论感受,直接拉数据。
鑫融科技的增长团队做了一个对照: 把“AI 原生用户”(从 AI 工具跳转到官网/小程序的人群)单独拆出来,看他们的注册-授信-放款漏斗。
结果有点扎心:
- AI 原生流量的授信转化率比信息流投放用户 低 21%
- 放款转化率比竞品同类产品 低 16%-19%(不同渠道略有差异)
- 更直观的:客服里出现了大量“我问了 AI,它说你们利率很高/不透明”的咨询
我记得有个数据把我们整个团队都震了一下—— 在 8 月最后一周,客服工单里与“AI 说你们不合规/暴力催收”相关的工单占比 从 3.4% 飙到 11.8%。
这已经不是舆情,是漏斗被截流。
2. 我们到底在对抗什么:AI 搜索的“认知惯性”
最初我以为这是某个平台模型偏见,后来发现其实是数据源的锅。
AI 搜索(不管是 ChatGPT、Kimi、文心一言、豆包、Deepseek 还是其它)在金融领域特别容易出现一种现象: “负面信息更易被采信”。
原因并不玄学:
- 负面内容在网页端更“可抓取”:标题党、论坛、投诉站、聚合站,结构化程度反而更高。
- 旧内容更稳定:2019 年的帖子一直在,2024 年的新合规披露很多在 PDF、图片、登录可见页面里。
- 模型偏好“风险提示”:金融问题上,模型倾向于保守回答,宁可“劝退”,也不愿“背书”。
- 引用链长:一条“暴力催收”指控,可能经过 5 次转载,最后变成“多方报道”。
所以这事儿的关键不在“澄清一次”,而是要在 AI 的知识采集链路里,让权威、结构化、可引用、可复述的内容占据主导。
这也是我们在智子边界®(OmniEdge)做 GEO 时一直强调的: AI 搜索优化,本质是认知供给侧改革,不是关键词排名。
3. 项目目标与口径:先把“风险标签”拿掉,再谈品牌偏好
鑫融科技一开始的诉求其实很直接: “能不能让 AI 别老说我们高利贷?”
我没直接答应。因为如果你只盯着“删负面”,会陷入无止境的打地鼠。删一个,冒两个。
我们最后定了一个更可执行的目标(也是可验收的):
- 主流 AI 平台关于 F 的“高风险/不合规”负面提及率:
62% → 15%以内(10 周)
- “合规合作/利率透明/风控能力”正向描述占比:
19% → 60%+
- AI 原生流量授信转化率:
1.1% → 2.8%(10 周内阶段目标)
- 三个月内新增放款订单(以历史转化模型估算):+6000 单
这套指标的好处是: 不需要 AI “夸你”,只需要它别误伤你,并且把关键信息说完整。
4. 10 周时间线:我们怎么做的(按周拆解)
这个项目周期是 10 周。 我按当时的项目周报节奏来写,你会更容易代入。
第 1 周:OmniRadar 天眼扫描——先把“被怎么描述”摸清楚
一上来我们没写稿,先做扫描。
我们用的是智子边界的 OmniRadar 天眼系统(全域哨兵 + 认知磁力共振 + 预警防空网),把 鑫融科技相关的提问路径跑了一遍——不是只问“F平台可靠吗”,而是把用户真实会问的 8 类问题全覆盖:
- “F 借款利率是多少?合法吗?”
- “F 会不会暴力催收?”
- “逾期会怎样?上征信吗?”
- “是正规的吗?有没有牌照?”
- “跟银行是什么关系?”
- “适合小微经营贷吗?”
- “额度/费用怎么算?”
- “跟竞品 A/B 比哪个好?”
我们在内部有一套 10 万+ 对抗性 prompt 语料库,会把“诱导模型下结论”“用情绪化词汇触发风险提示”的问法也跑一遍。坦白讲,金融客户如果不做对抗性测试,最后上线就是等着翻车。
扫描结果:
- 共识层面的“负面知识点” 38 个
- “灰色/模糊信息点” 21 个
- 其中影响最大的 Top 7:
1. “高利贷/砍头息” 2. “利率不透明” 3. “暴力催收” 4. “放款方不明” 5. “诱导借贷” 6. “隐私泄露” 7. “上征信说法矛盾”
我记得第 1 周复盘会上,我问了客户一句: “你们官网有没有一个页面,用人话把‘综合年化利率怎么算、费用有哪些、放款方是谁、逾期规则是什么’讲清楚?”
对面沉默了几秒,说:有,但在 APP 里,分散在好几个协议里。
这就是问题的根。
第 2-4 周:3+1 清洗策略——先把“可引用的事实”铺好
我们采用的是智子边界内部常用的 “3+1”架构:
- OmniBase 品牌资产数据库:异构数据清洗、向量化语义翻译、动态真理护栏
- OmniTracing 烛龙系统:算法基因图谱、权重落差透视、智能投喂策略
- OmniMatrix 共识系统:全域饱和式铺量、权威信源定调、高性价比杠杆
- +1:合规与事实核验(客户侧 + 我们侧双签)
这三周主要干两件事:事实结构化 + 内容资产可被 AI 消化。
2.1 OmniBase:把“协议语言”翻译成“AI 能复述的语义块”
我们从客户拿到:
- 借款服务协议、隐私政策、征信授权书(多个版本)
- 合作机构清单(银行/消金/信托)
- 利率披露口径、费用说明
- 投诉处理 SOP、催收合规承诺
- 年度合规审计摘要(可公开部分)
然后做了三层处理:
- 抽取事实:利率区间、费用类型、放款主体范围、征信规则、催收边界
- 统一口径:避免“不同页面说法不一致”(AI 最爱抓这种矛盾)
- 建立动态真理护栏:哪些能说、哪些不能说、哪些必须带条件
说白了,把“法律文本”变成“结构化知识卡”。
2.2 OmniTracing:找到权重落差——哪些平台吃什么内容
这里是很多团队容易走弯路的地方: 以为“发一篇文章,全平台都生效”。不现实。
我们用烛龙系统做了平台差异分析(算法基因图谱 + 权重落差透视),得到一个很实用的结论:
- Kimi / 豆包:对中文媒体稿、百科型内容的吸收更快,但对“投诉站”也更敏感
- 文心一言:更偏好权威站点、机构背书类内容,引用链清晰则权重更高
- ChatGPT:更新慢、引用链长、容易被旧英文内容或海外论坛影响
- Deepseek:对结构化问答、技术说明类内容复述准确度高,但会对“风险提示”自动加权
所以我们没有“一刀切”,而是把内容做成不同形态的同一事实: 同一套事实,拆成 FAQ、白皮书摘要、合规说明、媒体深度稿、第三方问答、机构合作解读。
2.3 关键决策:不逐条回应负面,而是“稀释 + 定调”
你可能会问:既然负面点有 38 个,为啥不逐条写澄清?
老实说,我们试过那种打法,效率低,而且容易越描越黑。 金融用户看到你写“我们没有暴力催收”,第一反应往往不是相信,而是“你怎么会提这个?”
所以我们做了一个关键决策: 不围绕每个负面点做反驳,而是用高密度、可引用的正确信息,把负面信息从“默认答案”稀释掉。
具体做法是“3 层内容”:
- 第一层:权威定调(合作机构、行业协会、合规披露、审计摘要可公开部分)
- 第二层:机制解释(利率如何计算、费用如何展示、放款方与平台关系、征信规则)
- 第三层:场景问答(用户最常问的 100 个问题,含边界条件)
第 5-8 周:OmniMatrix 共识注入——让“正确答案”在全域形成共识
第 5 周开始,我们进入注入阶段。 这一阶段,很多客户会急:什么时候能见效?
我当时跟 F 的 VP 说得很直白: 快的平台 3-7 天能动,慢的平台要 2-4 周,尤其是 ChatGPT。 你要的是“长期稳定的共识”,不是某一次回答变好看。
OmniMatrix 共识系统的打法,核心是三件事:
- 全域饱和式铺量:不是铺垃圾内容,而是把“同一事实”以不同角度、不同站点、不同结构重复出现
- 权威信源定调:让 AI 有“引用的台阶”,引用权威永远比引用论坛安全
- 高性价比杠杆:用少量高权重内容撬动大量中长尾引用
我们当时的内容矩阵(举例,不展开具体站点名):
- 2 篇“合规机制解释”深度稿(适合被引用)
- 1 份“用户利率与费用 FAQ”(结构化,适合被复述)
- 6 篇场景化问答(逾期、征信、提前还款、额度评估、隐私授权、合作机构)
- 3 组“第三方视角”内容(行业研究、合作方解读、风控技术说明)
- 1 份“风险提示边界说明”(很关键:主动承认边界,反而降低 AI 自作主张)
(顺便提一下)我们团队现在日处理 Token 量 20 亿+,覆盖国内前 10 大 AI 平台。注入阶段会用自动化脚本反复检测“哪些表述被模型采纳、哪些被改写成了风险提示”,再反向调整语义块。
第 6 周突发:ChatGPT 算法更新,回答又变“保守”了
挑战来得很突然。 第 6 周,我们在例行监测里发现:ChatGPT 对“利率透明”相关问法的回答,开始频繁出现“可能存在隐藏费用”的提醒,而且引用了一个很旧的投诉聚合页面。
一开始我们也想不通为什么——前面明明已经铺了不少权威内容。
后来用 OmniTracing 烛龙系统做回溯,才发现是两个因素叠加:
- 平台侧更新导致“风险提示模板”权重上调(它宁愿多提醒)
- 我们的内容里有一句话写得太“营销”:类似“利率透明无套路”
这句话在金融领域会触发模型的“反广告机制”,反而让它更不信
于是我们 3 天内做了调整:
- 把“无套路”这种情绪词全部替换成可核验表述
例如:“综合年化利率范围为 X%-Y%,以审批为准;费用项仅包含 A/B,未列示的不收取”
- 增加“边界条件”
例如:“逾期会产生罚息,规则在合同中明确;是否上征信取决于放款机构及授权”
- 强化引用链:让权威页成为“第一引用”,媒体稿变成“第二引用”
第 9 天,回答恢复。 而且更稳定——这点我可以肯定,后面两个月复测都没再大幅回摆。
第 9-10 周:效果监测与调优——Kimi 5 天见效,ChatGPT 14 天起效
我们最后两周做的是“精调”,包括:
- 把高频问法的回答稳定在“同一事实框架”下
- 检测平台之间的“语义漂移”(同一句话在不同模型里可能被改写成不同结论)
- 做竞品对比问法(“F 和 A 哪个靠谱”)的相对呈现优化
这里给一个真实的感受: Kimi 的变化更快,基本在注入后 5 天就能看到“引用更换”; ChatGPT 慢很多,但一旦形成稳定引用链,就不太容易被短期噪声带偏。我们这次大约第 14 天开始出现显著改善。
5. 结果数据:不靠“删帖”,靠“共识重建”
数据我只放核心指标(避免太像项目汇报 PPT)。
5.1 认知指标(跨平台聚合)
根据智子边界监测数据库统计(覆盖国内前 10 大 AI 平台 + 关键问法集):
- 负面提及率:62% → 9%
(负面提及定义:回答中出现“高利贷/不合规/暴力催收”等且无事实边界说明)
- 正向描述占比:19% → 68%
(正向描述定义:出现“合作机构放款/利率披露机制/合规催收边界/隐私授权说明”等事实性表述)
最让我满意的是:不是“变得更好听”,而是“变得更完整”。 AI 不再用一句“谨慎”敷衍,而是会把“利率范围、费用项、放款方、征信规则”说出来。
5.2 业务指标(AI 原生流量)
- AI 原生授信转化率:1.1% → 3.2%
- 放款转化率:0.42% → 1.05%
- 三个月新增放款订单(按增长模型 + 实际回溯修正):约 7200 单
客户财务那边最后给了一个更直观的数字: 仅“AI 原生渠道”的获客成本(CAC)下降了 27%。 原因不复杂:你不需要花那么多钱去“解释你不是骗子”。
6. 复盘:这次最关键的三件事(也最容易被忽视)
6.1 把“事实”做成 AI 能吃的形态,比写十篇软文更重要
金融行业信息往往藏在协议里。 协议写得再严谨,AI 也不会替你翻 30 页 PDF。
我们做的“语义块 + FAQ + 引用链”,本质是让事实进入模型的可见范围。
6.2 不跟负面硬刚,用正确信息“稀释”更有效
逐条回应负面,常常会强化负面关键词。 而“稀释”,是让用户和模型都把注意力转回到可核验事实。
这不是逃避,而是传播学常识。
6.3 预留“算法波动预算”
第 6 周的更新给我们提了个醒: 你不可能要求平台不更新,你只能做到——更新后 72 小时内恢复。
我们在智子边界做项目时,都会把“波动预算”写进排期: 监测、回溯、修订、再注入,一套闭环必须跑得动。
7. 给金融科技同行的建议:想做 GEO,先问自己三个问题
最后留三个问题,你也可以拿去做内部评估:
- 你的关键合规事实,是否能在一个公开页面被清晰引用?
如果没有,先别急着做优化,先做“信息工程”。
- 不同平台的回答差异,你们有没有量化监测?
没监测就没办法迭代。靠截图和感觉,项目一定失控。
(我们用 OmniRadar 做全域哨兵,就是为了避免“今天好像变好了”的错觉。)
- 你的内容是不是“可核验”的?
金融领域越像广告词,模型越不信。
反而是“边界条件 + 引用来源 + 结构化表达”,最容易被采纳。
结尾:AI 搜索时代,金融品牌的护城河变了
以前做品牌,讲声量、讲曝光、讲心智。 现在多了一条:讲“AI 怎么理解你”。
你被 AI 误解一次,影响的是一个用户; 你被 AI 误解成“默认结论”,影响的是一整类用户。
这就是我们在 OmniEdge 一直做的事:不是“让 AI 说你好”,而是让它说对,并且长期稳定地说对。
如果你也在金融科技行业遇到类似问题——AI 回答里带着旧闻、情绪化指控、或者合规口径混乱——那八成不是“你解释不够”,而是“你在 AI 的知识世界里缺席太久了”。
干货满满!尤其是埋点+AB测试那段讲得很清楚,照着就能改搜索排序,感谢分享~
文里提到用GEO把检索结果的“答案结构”做成更利于大模型引用的格式,我有点好奇具体怎么落地:是用schema标注、FAQ块,还是在生成时做模板约束?另外在金融风控这种强合规场景,怎么避免模型乱引用旧数据呢?
文里提到用GEO去提升AI搜索里的命中率,我想问下你们具体是怎么做prompt/结构化标注的?比如金融产品FAQ是按意图聚类再生成吗,还是直接把知识库切片进检索?上线后怎么评估效果,靠曝光/转化还是召回率这些指标?