1. 项目概述一场没有硝烟的“大模型擂台赛”最近三个月我几乎把所有国产大模型的公开API、网页端、本地部署版本都跑了一遍——不是为了写评测报告而是因为手头三个真实项目卡在了模型选型上一个要给制造业客户做设备故障日志的自动归因分析一个要为中小学语文老师生成符合课标要求的古诗文拓展题还有一个是帮社区养老中心把老人手写的健康记录转成结构化电子档案。这三个场景没有一个能被国外模型“开箱即用”解决。比如让GPT-4解析“螺杆泵轴承异响频谱图维修工手写‘2号泵轴向窜动大’”这种混合文本专业术语口语化描述的输入它会一本正经地胡说八道而通义千问对“部编版七年级下册《陋室铭》教学重难点”的响应明显比Claude更贴合一线教师的真实备课逻辑。这让我意识到“中国GPT”这个说法从来就不是一句营销口号而是由真实需求倒逼出来的技术分水岭它必须懂中文语境里的潜台词吃透行业术语的上下文扛得住方言口音的语音转写还得在政务、教育、医疗等强合规场景里不越界、不幻觉、不掉链子。所以这次“大比拼”我完全抛开了参数榜单和宣传PPT直接用27个真实业务片段当考题——从“把Excel里混着粤语拼音的客户投诉摘要成30字以内”到“根据卫健委最新糖尿病诊疗指南生成随访话术”从“识别手写处方笺上的中药配伍禁忌”到“把法院判决书里的法言法语转成老年人能听懂的大白话”。最终跑下来没有一个模型是全能冠军但每个胜出者都在自己的“能力象限”里扎得极深。这篇文章就是我把这轮实战测试的原始数据、踩坑记录、配置参数和交付脚本全部摊开写的复盘笔记不吹不黑只告诉你哪个模型在什么条件下能帮你省下多少开发时间。2. 核心思路拆解为什么不能照搬“国际评测标准”2.1 真实业务场景才是唯一裁判市面上常见的模型评测比如MMLU、C-Eval、Gaokao-Bench本质上都是“知识测验”。它们用标准化题目考察模型的百科知识广度、逻辑推理深度或考试答题能力。这就像用高考数学卷去评估一个汽车修理工——他可能解不出导数压轴题但能三分钟判断出宝马X5变速箱异响是阀体故障还是油液老化。国产模型真正的战场在于那些“非标任务”语义粘连处理比如用户输入“上次说好月底前修好结果拖到下个月三号还收了我280块发票也没给”模型需要自动提取“承诺时间月底前→实际完成时间下月三号→违约天数4天→费用争议280元→凭证缺失发票”五个维度且不能把“下个月三号”误判为“3号”农历/公历混淆。领域术语动态校准医疗场景中“阴性”在检验报告里是正常结果在中医诊断里却可能指“阳虚证候”金融场景中“平仓”在期货交易里是风控动作在P2P回款里却是负面信号。模型必须根据上下文实时切换术语解释权重。合规性硬约束政务系统要求所有输出必须标注信息来源如“依据《XX市养老服务条例》第十二条”教育内容需自动规避超纲知识点如初中作文辅导不能出现高中议论文的辩证法模型这些不是“能力选项”而是“启动开关”。我设计的27道考题全部来自这三类真实痛点。比如第14题“将以下社区调解录音文字稿含大量‘阿婆’‘侬讲’等沪语称呼、‘小赤佬’等情绪化表达整理成规范调解笔录要求①隐去当事人真实姓名和身份证号 ②把方言口语转为普通话书面语 ③保留原始情绪强度标记如‘拍桌子说’‘抹眼泪讲’”。这道题Qwen2-72B在实体脱敏准确率上达99.2%但把“小赤佬”直译成“小家伙”导致调解员反馈“完全失真”而Kimi-Max虽然用了“调皮的年轻人”这个更中性的译法却漏掉了3处“拍桌子”的动作标记。最后胜出的是GLM-4-Flash它用了一个精巧的双通道机制先用轻量级方言识别模块做情绪锚点定位再调用主模型做语义转换确保“形神兼备”。2.2 为什么必须放弃“单次推理最优”思维很多团队在选型时陷入一个误区追求单次API调用的响应质量。但在实际交付中真正决定项目成败的是“端到端流程稳定性”。举个例子我们给某三甲医院做的“门诊病历质控助手”核心需求是自动识别病历中的逻辑矛盾如“诊断高血压3级”但“血压值130/85mmHg”。如果只看单次效果Qwen2-72B的矛盾检出率高达92.7%但它的token消耗极不稳定——遇到复杂病史描述时会突然多生成300字的无关分析导致API计费暴增且触发医院系统的超时熔断。而DeepSeek-V2虽然单次检出率只有86.3%但它通过预设的“三段式推理协议”先定位关键数值→再匹配诊断标准→最后输出结构化结论每次token消耗波动控制在±5%以内配合我们自研的缓存层整体服务可用率反而比Qwen高11.2个百分点。这说明国产模型的竞争维度早已超越“谁更聪明”转向“谁更可靠”响应延迟的P99值、长文本处理的内存占用曲线、连续100次调用的幻觉率衰减趋势……这些工程指标在真实生产环境里比“单次准确率”重要十倍。2.3 本地化部署不是“退而求其次”而是刚需有客户问我“你们为什么坚持推本地化部署云API不是更省事”我的回答是当你的模型要处理的是“某军工企业设备维修手册PDF”或“某省医保局历史结算数据”任何一次外部API调用都意味着数据出境风险。更现实的问题是网络抖动——我们曾在一个偏远县级医院部署试点当地4G网络平均丢包率达17%云API的超时错误率直接冲到43%。而本地部署的GLM-4-Air4B参数量化版在RTX4090单卡上实现23ms平均响应延迟且支持离线运行。这里的关键认知转变是国产模型的价值不仅在于“替代GPT”更在于构建“可控的数据处理管道”。就像我们给某省级政务云做的方案核心不是模型本身而是把Qwen2-72B封装成Docker镜像后嵌入到他们已有的信创环境麒麟OS海光CPU达梦数据库中所有输入输出都走内网消息队列连模型权重文件都做了国密SM4加密。这种深度耦合能力恰恰是国际模型无法提供的护城河。3. 实操细节解析27道考题背后的硬核参数与配置3.1 考题设计方法论从“业务切片”到“能力映射”我把27道考题按业务域分成四类每类对应不同的能力验证重点业务域典型考题验证能力数据来源政务民生将12345热线工单含市民方言诉求、模糊地址自动归类到28个部门并生成标准回复模板方言理解、地址标准化、政策条款匹配某市大数据局脱敏数据集工业制造解析PLC报警日志如“ERROR 0x800A: SERVO_LOSS”并关联设备手册输出故障原因处置步骤备件编号工业协议解析、文档检索增强、多跳推理某机床厂现场采集日志教育医疗根据《义务教育语文课程标准2022年版》生成小学五年级《草船借箭》阅读理解题要求包含1道开放性问题且答案不超过50字教育政策遵循、认知难度控制、答案简洁性教育部官网公开文件教研员访谈金融法律对银行理财合同条款进行风险提示如“业绩比较基准不构成收益承诺”需标注“该条款存在误导性表述风险”法律条文溯源、风险等级判定、监管口径对齐某消保委投诉案例库每道题都设置三级评分标准基础分40分完成核心任务如正确归类部门、输出故障步骤进阶分30分满足业务约束如政务回复需带政策依据、医疗建议需标注证据等级体验分30分交互友好性如自动补全模糊地址“浦东张江”→“浦东新区张江镇”而非返回“未找到匹配地址”。这种设计让评测结果直接对应商业价值基础分决定“能不能用”进阶分决定“要不要买”体验分决定“客户愿不愿续费”。3.2 关键参数调优实录温度值不是玄学是业务杠杆很多人以为temperature参数只是控制“创意程度”但在国产模型实战中它是精准调节业务风险的杠杆。以金融合同审查为例当temperature0.1时模型严格遵循《金融消费者权益保护实施办法》对所有模糊表述都标注“高风险”但会漏掉新型违规话术如把“保本”换成“净值波动趋近于零”当temperature0.7时检出率提升22%但开始出现“误伤”如将合规的“历史业绩不代表未来表现”也标为风险我们最终采用动态temperature策略对监管明令禁止的关键词如“保本”“无风险”强制设为0.05对灰色地带表述如“稳健增值”设为0.5对创新产品描述如“AI量化策略”设为0.85。这套策略在某银行试点中使人工复核工作量下降63%且0误判记录。另一个常被忽视的参数是max_tokens。在政务公文生成场景我们发现固定设为512会导致模型在结尾强行凑字数如“综上所述我们要……此处应有32字”而设为256又常截断关键结论。解决方案是“语义截断”先用轻量级分类器判断公文类型通知/请示/函再按类型加载预设的token预算表通知类320字、请示类480字、函类220字最后在生成时实时监控句法完整性——宁可少输出半句话也不破坏“主谓宾”结构。这个细节让某市政府OA系统的公文采纳率从61%提升至89%。3.3 提示词工程不是写作文是编译业务规则给国产模型写提示词本质是把业务规则“编译”成模型能执行的指令。以教育场景的古诗文拓展题生成为例原始需求是“生成3道不同认知层次的题目”。如果直接写“请生成3道关于《陋室铭》的题目”结果可能是《陋室铭》作者是谁文中‘苔痕上阶绿’描写的是什么景象请背诵全文。这完全违背“认知层次递进”要求。我们的解决方案是构建三层提示词框架第一层角色定义“你是一名有15年教龄的初中语文特级教师正在为部编版七年级下册《陋室铭》设计课堂练习严格遵循布鲁姆认知目标分类法。”第二层规则约束“题目必须覆盖记忆Level1、理解Level2、应用Level3三个层级Level1题仅考查事实性知识如作者、朝代Level2题需解释概念关系如‘斯是陋室’与‘惟吾德馨’的逻辑Level3题必须创设真实情境如‘假如刘禹锡来到现代社区服务中心他会如何评价这里的办公环境’。”第三层输出控制“每道题后必须标注认知层级代码L1/L2/L3答案单独成行并标注‘参考答案’禁止出现‘解析’‘说明’等额外文字。”这套提示词在实测中使L3题目生成准确率从34%提升至91%。关键经验是国产模型对“角色规则格式”的三段式指令响应极佳但对开放式要求如“请有创意”几乎无效。这印证了一个底层逻辑它们不是通用智能体而是高度特化的“业务规则执行引擎”。4. 主流模型实测对比性能数据、适用场景与避坑指南4.1 通义千问Qwen2系列综合战力最强但需警惕“过度发挥”Qwen2-72B在27道考题中总分排名第一加权得分92.4尤其在政务和教育场景优势显著。其核心竞争力在于超长上下文处理在128K上下文下对《民法典》千页PDF的条款引用准确率达99.7%远超其他模型平均86.3%多模态原生支持无需额外插件即可解析扫描件中的表格文字混合内容我们在某社保局项目中用它直接处理参保人手写申请表字段识别F1值达94.2%开源生态完善Qwen2-1.5B量化版可在树莓派5上运行我们用它给乡村小学做了离线版成语接龙游戏功耗仅3.2W。但必须警惕两个典型陷阱提示Qwen2的“思维链”模式启用--enable-cot在简单任务中会显著增加延迟平均210ms且容易生成冗余解释。例如考题“计算2023年某市GDP增长率”它会先输出“根据国家统计局公式增长率本期值-基期值/基期值×100%……”再给出结果。在实时性要求高的政务热线场景必须关闭此模式。提示其代码生成能力虽强但对国产信创环境适配不足。我们曾用Qwen2生成麒麟OS的Shell脚本结果包含大量Ubuntu特有的apt-get命令需人工替换为dnf。建议在信创项目中优先选用其“政务专用微调版”需单独申请。4.2 月之暗面Kimi-Max长文本王者但小任务“杀鸡用牛刀”Kimi-Max在200K上下文测试中展现统治级实力处理某央企2000页《十四五数字化转型规划》时能精准定位“云计算采购预算”在第17章第3节第2段并关联到附件7的供应商资质要求。其“文档切片-向量检索-交叉验证”三步机制使长文档问答准确率比Qwen2高8.6个百分点。但它的短板同样鲜明小任务响应迟钝在“将手机号1381234脱敏为1381234”这类简单操作上平均延迟达1.2秒Qwen2为0.18秒因为模型会先加载全部上下文再执行领域微调成本高我们尝试用500条医疗问诊数据微调Kimi-Max发现需要至少32GB显存A100而同任务下GLM-4仅需16GB。这导致中小客户难以承担定制成本。实操建议Kimi-Max最适合“文档中枢”角色——作为企业知识库的统一入口前端用轻量模型如Qwen1.5-0.5B做意图识别和简单查询复杂文档分析才路由给Kimi-Max。我们给某律所做的方案中就用这种架构把平均响应时间压缩到0.8秒以内。4.3 智谱GLM-4系列信创适配最深但生态工具链待完善GLM-4在国产芯片适配方面一骑绝尘在海光C86处理器昇腾910B的纯信创环境中推理速度达到Qwen2-72B的1.8倍。其最大亮点是“安全沙箱”机制——所有输出自动经过三层过滤政策合规层拦截违反《生成式AI服务管理暂行办法》的表述行业红线层医疗场景禁用“治愈”“根治”等词金融场景禁用“稳赚”“保底”企业私有层可上传自定义敏感词库如某车企禁止提及“竞品车型参数”。但当前主要瓶颈在于工具链官方提供的LoRA微调工具仅支持PyTorch 2.0而某政务云仍运行CentOS 7.6默认Python 3.6需手动编译依赖其RAG功能需搭配专属向量数据库Zilliz Cloud无法接入客户已有的Elasticsearch集群。我们的应对方案是用GLM-4-Flash4B量化版做核心推理外围用Python脚本桥接现有系统。例如在某省医保局项目中用Flask封装GLM-4 API输入为医保结算XML输出自动转为符合《医疗保障基金结算清单》格式的JSON全程不触碰原始数据库。4.4 百度文心一言ERNIE-4.5垂直场景优化极致但通用性受限ERNIE-4.5在特定场景的“开箱即用”程度令人惊叹教育场景内置教育部课标知识图谱生成的试题自动标注“对应课标条目”如“2022年版课标·第三学段·阅读与鉴赏·第4条”政务场景预装全国31省市政务服务事项库输入“我要办食品经营许可证”直接返回本地化办理指南含窗口地址、预约电话、材料清单工业场景集成《GB/T 19001-2016质量管理体系》条款库能自动将设备故障描述映射到具体条款如“轴承异响”→“8.5.1生产和服务提供的控制”。但它的代价是“场景锁定”一旦离开预置领域性能断崖式下跌。在金融法律考题中其合同审查准确率仅58.7%Qwen2为86.3%因为未加载银保监会最新监管文件。我们的经验是ERNIE-4.5适合“场景明确、需求稳定”的项目如某市教育局的统考命题系统但不适合需要频繁扩展新领域的平台型项目。4.5 深度求索DeepSeek-V2工程化最成熟但中文语义深度稍逊DeepSeek-V2的最大优势是“拿来即用”的工程成熟度API稳定性P99延迟始终控制在320ms以内其他模型平均580ms且支持WebSocket长连接避免HTTP频繁握手错误处理友好当输入超长时自动返回“建议截取前10000字符”而非直接报错计费透明按实际token计费含空格和标点不像某些厂商把system prompt也计入费用。但在中文语义理解上存在明显短板处理古诗文中的典故隐喻时常把“庄生晓梦迷蝴蝶”直译为“庄子早晨做梦变成蝴蝶”忽略“人生虚幻”的哲学意蕴。我们的解决方案是“双模型协同”用DeepSeek-V2做基础信息抽取如提取人物、时间、事件再用Qwen2-7B做语义深化解读典故内涵最后用规则引擎融合输出。这种架构在某出版社古籍数字化项目中使典故解读准确率从67%提升至93%。5. 实操全流程从环境搭建到上线交付的完整脚本5.1 本地化部署GLM-4-Air在RTX4090上的极简安装我们选择GLM-4-Air4B参数量化版作为政务项目基准模型因其在消费级显卡上的平衡性最佳。以下是经过23次环境重装验证的极简流程# 1. 创建隔离环境避免CUDA版本冲突 conda create -n glm4 python3.10 conda activate glm4 # 2. 安装核心依赖注意必须用官方指定版本 pip install torch2.1.0cu118 torchvision0.16.0cu118 --extra-index-url https://download.pytorch.org/whl/cu118 pip install transformers4.35.0 accelerate0.24.1 # 3. 下载量化模型官方提供GGUF格式兼容llama.cpp # 从智谱AI官网获取下载链接需企业认证解压后得到 # glm-4-air.Q4_K_M.gguf # 4-bit量化4.2GB # 4. 启动服务关键参数说明 llama-server \ --model ./glm-4-air.Q4_K_M.gguf \ --ctx-size 32768 \ # 上下文长度政务文档常用值 --batch-size 512 \ # 批处理大小影响吞吐量 --n-gpu-layers 45 \ # 将全部层卸载到GPURTX4090有45层 --port 8080 \ --host 0.0.0.0 \ --embedding \ # 启用向量嵌入用于RAG --chat-template chatglm3 # 强制使用ChatGLM3对话模板注意若遇到CUDA out of memory不要盲目调小--ctx-size实测发现将--batch-size从512降至256内存占用下降40%但吞吐量仅损失12%。这是更优的平衡点。5.2 API网关配置用Nginx实现国产模型的“熔断-降级-限流”在某市12345热线项目中我们用Nginx构建了三层防护网# /etc/nginx/conf.d/glm4.conf upstream glm4_backend { server 127.0.0.1:8080 max_fails3 fail_timeout30s; keepalive 32; # 保持长连接 } server { listen 8000; # 第一层请求限流防刷 limit_req zoneglm4_api burst10 nodelay; # 第二层熔断机制错误率5%时自动隔离 proxy_next_upstream error timeout http_500 http_502 http_503 http_504; proxy_next_upstream_tries 2; # 第三层降级策略当GLM-4不可用时返回预置模板 location /v1/chat/completions { proxy_pass http://glm4_backend; proxy_intercept_errors on; error_page 500 502 503 504 fallback; } location fallback { add_header X-Fallback true; return 200 {choices:[{message:{content:系统繁忙请稍后再试}}]}; } }这套配置使高峰期API错误率从12.7%降至0.3%且故障恢复时间缩短至8秒以内。关键经验是国产模型的运维必须像对待传统数据库一样设计容灾方案不能寄希望于“云服务商保证SLA”。5.3 RAG增强实战用Milvus构建政务知识库的“三步法”政务场景中模型需实时调用最新政策文件。我们用Milvus 2.4构建知识库核心是“三步清洗法”第一步文档切片不用简单的“按段落切分”而是用正则识别政策文件结构# 识别“第一章 第一条”“一”“1.”等多级标题 pattern r(第[一二三四五六七八九十][章|节])|([一二三四五六七八九十])|(\d\.) chunks re.split(pattern, doc_text) # 过滤掉纯标题保留“标题后续内容”组合第二步向量化不用通用Embedding模型而用政务微调版bge-reranker-large-zh在政策条款相似度任务上准确率提升22%。第三步混合检索不单靠向量相似度而是加权融合70% 向量相似度语义匹配20% 标题关键词匹配如查询含“医保”则优先返回标题含“医疗保险”的文档10% 发布时间权重新规权重×1.5旧规×0.8这套方案在某省人社厅试点中政策咨询准确率从68%提升至94%且平均响应时间仅增加0.3秒。5.4 监控告警体系用Prometheus抓取国产模型的“健康心跳”我们为所有模型服务部署了定制化监控# prometheus.yml scrape_configs: - job_name: glm4 static_configs: - targets: [localhost:8080/metrics] # GLM-4内置metrics端点 metrics_path: /metrics # 自定义指标幻觉率通过规则引擎检测 - job_name: glm4-hallucination static_configs: - targets: [localhost:9090] metrics_path: /hallucination关键告警规则glm4_hallucination_rate{jobglm4} 0.05幻觉率超5%立即告警glm4_gpu_memory_used_percent 92显存超92%触发扩容glm4_request_duration_seconds{quantile0.99} 2.0P99延迟超2秒这套监控让我们在某次模型更新后提前37分钟发现“新版GLM-4在处理‘乡村振兴’相关查询时幻觉率异常升高”避免了大规模误输出。6. 常见问题与独家排查技巧6.1 “明明提示词写得很清楚模型还是不按要求输出”——根本不是提示词问题这个问题占我们技术支持请求的63%。真相往往是模型在训练时见过太多“错误示范”。比如当大量互联网文本中“请生成一首诗”后面跟着的是五言绝句模型就形成了“生成诗五言绝句”的强关联。我们的排查流程检查训练数据污染用transformers库加载模型tokenizer统计高频输出模式注入对抗样本在提示词末尾添加“|NO_OUTPUT|”强制模型抑制常见模式规则后处理用正则强制校验输出格式如“必须以‘答’开头”。实操案例某法院项目要求判决书摘要必须包含“原告诉求”“被告答辩”“法院认定”三部分。我们发现Qwen2总是漏掉“被告答辩”根源是训练数据中73%的判决书摘要只写原告和法院部分。最终方案是在输出后加一道Python校验if not re.search(r被告答辩.*?, output): output re.sub(r法院认定, 被告答辩\n\n法院认定, output, count1)6.2 “长文本处理时后面的内容明显比前面差”——上下文压缩的隐形杀手所有国产模型在长文本中都存在“位置偏差”越靠近末尾的token注意力权重越低。我们测试发现Qwen2-72B在128K上下文中最后10%内容的推理准确率比前10%低31%。解决方案不是“换模型”而是“改结构”关键信息前置在文档预处理阶段用规则引擎把核心条款如“违约责任”“争议解决”提取到开头分段验证将长文档切成512token区块每个区块独立生成摘要再用主模型融合位置强化在提示词中显式标注“请注意以下第3段内容为本次任务最关键依据”。这个技巧让某集团合同审查项目的准确率提升至96.8%。6.3 “模型输出越来越啰嗦甚至开始编造不存在的条款”——温度值失控的连锁反应这是模型“过热”的典型症状。我们发现当连续多次调用同一模型且未清空历史时其内部状态会累积“创作惯性”。解决方案是强制状态重置每次API调用后发送{role:system,content:reset}指令动态温度衰减设置初始temperature0.3每连续5次调用后自动-0.05最低至0.1输出长度钳制用max_tokens硬限制但配合stop[。, , ]防止截断句子。在某银行客服项目中这套组合拳使平均响应字数从187字稳定在124±8字且0次编造条款记录。6.4 “同样的提示词在不同模型上效果天差地别”——没有银弹只有适配很多团队幻想找到“万能提示词模板”。现实是Qwen2吃透“角色规则格式”Kimi-Max需要“先确认理解再执行”GLM-4则对“安全约束前置”响应最佳。我们的适配口诀Qwen2系“你是XXX必须做YYY输出格式为ZZZ”Kimi系“请复述我的要求确认无误后开始执行”GLM系“根据《生成式AI服务管理暂行办法》第X条禁止YYY现在执行ZZZ”。这个差异源于各模型的训练数据分布——Qwen2更多来自开源代码和学术论文Kimi-Max侧重长文档GLM-4则深度融入政策法规语料。6.5 “模型突然不响应日志显示CUDA error”——显存碎片化的幽灵在RTX4090上部署多模型服务时我们遭遇过最诡异的问题模型运行2小时后突然报CUDA out of memory但nvidia-smi显示显存占用仅65%。根源是CUDA内存分配器的碎片化。解决方案预分配显存池启动时用export CUDA_CACHE_MAXSIZE21474836482GB定期重启worker用Supervisor配置startretries3每4小时自动重启启用内存压缩在llama-server中添加--mlock参数防止内存交换。这个技巧让某区政务云的模型服务连续运行147天无故障。7. 交付物清单与成本测算一份可直接拿去投标的方案7.1 标准交付物所有项目必含交付物说明交付形式模型服务容器预装GLM-4-Air/Qwen2-1.5B的Docker镜像含Nginx网关和监控探针tar.gz压缩包RAG知识库模板Milvus数据库结构政务/教育/医疗三套预置知识库含清洗脚本SQL dump Python脚本提示词工程包27道考题对应的优化提示词变量注入模板如{{policy_year}}JSON文件运维手册包含GPU监控、幻觉率检测、应急降级的SOP流程PDF文档API SDKPython/Java/Node.js三语言SDK含自动重试和熔断逻辑pip/npm包7.2 成本构成明细以10万日调用量项目为例项目Qwen2-72B云APIGLM-4-Air本地部署差异分析首年成本386,000212,000本地部署节省45%硬件投入085,000RTX4090×2服务器一次性投入运维成本120,000云服务费人工42,000电费人工本地化降低65%升级成本每年30%模型免费升级仅需人工适配长期优势明显隐性成本数据出境风险、API不稳定完全可控、可审计合规性溢价提示在