【AI大模型展】CDAI认知域AI大模型——赋能ScanA内容安全云监测，7*24小时打造清朗网络空间

AI大模型展 CDAI认知域AI大模型 ScanA 内容安全云

知道创宇 | 2023-10-30 20:41

【数据猿导读】该AI大模型由知道创宇投递并参与数据猿与上海大数据联盟联合推出的《2023中国数据智能产业AI大模型先锋企业》榜单/奖项”评选。

【AI大模型展】CDAI认知域AI大模型——赋能ScanA内容安全云监测，7*24小时打造清朗网络空间

知道创宇CDAI （Cognitive Domain Artificial Intelligence）认知域AI大模型是业务安全产品线融合了多年业务审核实践经验，联合众多内容安全审核领域专家智囊，使用数十种先进的数据科学算法作为能力核心，研制的一套先进的AI大模型系统。目前，已经取得四大范式先进性成果：

1、数据优先范式

CDAI秉持“data-driven”为信念的开发实践。在该范式加持下，精准把控，算法迭代效率较传统方式提升400%。

2、持续迭代范式

CDAI算法团队设计的AI作业流程开创性地应用了以下两种迭代算法：介入式模型迭代和在线权重学习迭代。

3、算法可解释性范式

根据内容安全模型的特点，结合谷歌的Model Cards以及IBM的FactSheets设计了一套模型训练信息清单，制定了一套模型说明文档撰写规则。

4、灵活部署范式

在工程部署设计上，最终形成“微服务方式部署模型集群、自研模型推理专用微服务框架、先进的模型集成决策权重算法”三个中心点为核心的部署范式。

应用场景/使用群体

知道创宇CDAI算法团队根据产品线多年积累的脱敏标注数据作为底层基座，自研并工程化多种成熟的深度学习模型，辅之以功能完善的数据科学平台及久经考验的模型开发流程，开发出算法微服务集群，为产品线诸多应用提供内容审核相关AI能力。目前已完全接入ScanA监管版、ScanA政企版、ScanA企业版、ScanA AIGC版、资质审核平台、智能审核平台、数据精标平台等诸多产品：

1、ScanA监管版: 为监管单位提供属地网站群、自媒体账号群的内容治理工作

2、ScanA政企版: 为监管单位、企事业单位提供网站、自媒体账号的内容风险自查工作

3、ScanA企业版：为互联网平台提供多种方式的内容安全审查工作

4、ScanA AIGC版：为生成式人工智能服务提供者提供数据标注、模型评估、审核定制、合规评测等服务。

产品功能

1、常态化内容监测：具备对互联网网站中涉及黄、赌、毒、恐、爆、政治敏感等恶意网络内容(含文本、图片、视频)的监测、识别能力。

2、外链违规识别能力：具备识别网站URL(内链、外链)内容是否合规的能力；具备判断外链违规类型的能力；具备监测网站是否存在暗链、黑链、死链的能力；具备监测网站是否被非法植入恶意链接的能力。

3、违规文本识别能力：支持主流格式违规文本识别监测，违规识别类型包含涉黄、涉政、暴恐、赌博、涉毒等，违规识别准确率95%以上。

4、违规图片识别能力：支持AI智能违规图片识别、样例违规图片识别，违规识别类型包含涉黄、涉政、暴恐、赌博、涉毒等违法违规信息，支持主流图片格式监测，AI识别准确率80%以上，样例识别准确率90%以上。

5、违规音频识别能力：支持主流音频格式违规识别监测，违规识别类型包含涉黄、涉政、暴恐、赌博、涉毒等，违规识别准确率95%以上。

6、违规视频识别能力：支持主流视频格式违规识别监测，违规识别类型包含涉黄、涉政、暴恐、赌博、涉毒等，违规识别准确率95%以上。

7、违规文档识别能力：主流主流文档格式违规识别监测，违规识别类型包含涉黄、涉政、暴恐、赌博、涉毒、个人隐私等，违规识别准确率95%以上。

8、政治性错误识别能力：自建领导人职务库，精确识别领导人姓名、职务和领导人排序错误；可识别涉及台湾和其他敏感的政治性错误。

9、文本校对识别能力：基于海量标注数据和深度学习算法实现文本纠错识别，对拼写、语法、标点、数字、量和单位等领域进行专业校对。

10、在线检测能力：基于人工智能技术的在线检测工具，通过对文本、图片、音频、视频、文本校对等多种类型内容进行深度分析和识别，快速发现潜在的内容安全风险。

产品优势

1、与内容安全监管机构保持高度统一的监测策略

• 知道创宇获中国互联网投资基金（由中央网信办和财政部共同发起）、中电科研投基金、中移股权基金等国有资本联合投资。

• 知道创宇北京党支部隶属首都互联网协会党委（北京网信办直管）管理，对中央政策敏感，受政策驱动强。

• 长期为中央网信办、公安部、国家新闻出版署、中宣部、工信部等监管单位提供网络安全、内容安全、重保防护等工作支持。

2、建立百万违规特征的内容安全智库

多年服务领军企业获得天然的大用户规模的内容技术堆砌出的特征词库，定义并积累有害信息7种一级标签，100+种二级分类，数十万垃圾变种，20+个行业应用场景，垃圾特征词库总量级达到300万以上。

3、专业的数据标注团队保障训练专业度

打造了专业化、精细化的数据标注团队，具备高质量的数据标注能力，可以做到专业系统的数据训练支撑。

技术说明

知道创宇CDAI算法团队根据产品线多年积累的脱敏标注数据作为底层基座，数据来源以下：

1、内容安全智库

内容安全智库多年以来积累了百万级别精标违规图片样本，百万级别精标违规文本样本，百万级别敏感词，万级别敏感人物数据，十万级别图像黑库。为模型训练提供了强力支持。

2、图像精标平台

使用以CVAT为主的专业图像精标平台对违规图像进行人工精标，支持目标检测及图像分类等主要训练任务，目前已积累样本200万。

3、文本精标平台

使用以Doccano为主的专业文本精标平台对违规文本进行人工精标，支持情感分类，违规序列生成等训练任务。

4、弱标签数据

机审业务中的所有违规样本以及原始机审得分进行去敏留存，用以支持半监督训练任务。

5、开源数据

使用开放版权公开数据，训练通用检测模型，如OCR, 人脸检测等。

6、企业大数据

通过整合、清洗、规范各渠道数据，形成企业数据图谱，为资质审核提供企业数据真实性识别、风险数据预警。

知道创宇CDAI （Cognitive Domain Artificial Intelligence）认知域AI大模型具有针对图像、文字、音频、视频多种内容模态检测算法的完整算法技术栈，由于内容安全的领域特性，所使用的模型参数量分布为百万级至亿级，使用多模型集成决策的方式进行推理审核。同时在资质审核辅助功能领域，大胆尝试遗传算法、tts算法，提高流程效率。

AI大模型展_CDAI认知域AI大模型_ScanA_内容安全云-1