܄

【AI大模型展】CDAI认知域AI大模型——赋能ScanA内容安全云监测,7*24小时打造清朗网络空间

【数据猿导读】 该AI大模型由知道创宇投递并参与数据猿与上海大数据联盟联合推出的《2023中国数据智能产业AI大模型先锋企业》榜单/奖项”评选。

【AI大模型展】CDAI认知域AI大模型——赋能ScanA内容安全云监测,7*24小时打造清朗网络空间

知道创宇CDAI (Cognitive Domain Artificial Intelligence)认知域AI大模型是业务安全产品线融合了多年业务审核实践经验,联合众多内容安全审核领域专家智囊,使用数十种先进的数据科学算法作为能力核心,研制的一套先进的AI大模型系统。目前,已经取得四大范式先进性成果:

1、数据优先范式

CDAI秉持“data-driven”为信念的开发实践。在该范式加持下,精准把控,算法迭代效率较传统方式提升400%。

2、持续迭代范式

CDAI算法团队设计的AI作业流程开创性地应用了以下两种迭代算法:介入式模型迭代和在线权重学习迭代。

3、算法可解释性范式

根据内容安全模型的特点,结合谷歌的Model Cards以及IBM的FactSheets设计了一套模型训练信息清单,制定了一套模型说明文档撰写规则。

4、灵活部署范式

在工程部署设计上,最终形成“微服务方式部署模型集群、自研模型推理专用微服务框架、先进的模型集成决策权重算法”三个中心点为核心的部署范式。

应用场景/使用群体

知道创宇CDAI算法团队根据产品线多年积累的脱敏标注数据作为底层基座,自研并工程化多种成熟的深度学习模型,辅之以功能完善的数据科学平台及久经考验的模型开发流程,开发出算法微服务集群,为产品线诸多应用提供内容审核相关AI能力。目前已完全接入ScanA监管版、ScanA政企版、ScanA企业版、ScanA AIGC版、资质审核平台、智能审核平台、数据精标平台等诸多产品:

1、ScanA监管版: 为监管单位提供属地网站群、自媒体账号群的内容治理工作

2、ScanA政企版: 为监管单位、企事业单位提供网站、自媒体账号的内容风险自查工作

3、ScanA企业版:为互联网平台提供多种方式的内容安全审查工作

4、ScanA AIGC版:为生成式人工智能服务提供者提供数据标注、模型评估、审核定制、合规评测等服务。

产品功能

1、常态化内容监测:具备对互联网网站中涉及黄、赌、毒、恐、爆、政治敏感等恶意网络内容(含文本、图片、视频)的监测、识别能力。

2、外链违规识别能力:具备识别网站URL(内链、外链)内容是否合规的能力;具备判断外链违规类型的能力;具备监测网站是否存在暗链、黑链、死链的能力;具备监测网站是否被非法植入恶意链接的能力。

3、违规文本识别能力:支持主流格式违规文本识别监测,违规识别类型包含涉黄、涉政、暴恐、 赌博、涉毒等,违规识别准确率95%以上。

4、违规图片识别能力:支持AI智能违规图片识别、样例违规图片识别,违规识别类型包含涉黄、 涉政、暴恐、赌博、涉毒等违法违规信息,支持主流图片格式监测,AI识别准确率80%以上,样例识别准确率90%以上。

5、违规音频识别能力:支持主流音频格式违规识别监测,违规识别类型包含涉黄、涉政、暴恐、 赌博、涉毒等,违规识别准确率95%以上。

6、违规视频识别能力:支持主流视频格式违规识别监测,违规识别类型包含涉黄、涉政、暴恐、 赌博、涉毒等,违规识别准确率95%以上。

7、违规文档识别能力:主流主流文档格式违规识别监测,违规识别类型包含涉黄、涉政、暴恐、 赌博、涉毒、个人隐私等,违规识别准确率95%以上。

8、政治性错误识别能力:自建领导人职务库,精确识别领导人姓名、职务和领导人排序错误;可识别涉及台湾和其他敏感的政治性错误。

9、文本校对识别能力:基于海量标注数据和深度学习算法实现文本纠错识别,对拼写、语法、标点、数字、量和单位等领域进行专业校对。

10、在线检测能力:基于人工智能技术的在线检测工具,通过对文本、图片、音频、视频、文本校对等多种类型内容进行深度分析和识别,快速发现潜在的内容安全风险。

产品优势

1、与内容安全监管机构保持高度统一的监测策略

• 知道创宇获中国互联网投资基金(由中央网信办和财政部共同发起)、中电科研投基金、中移股权基金等国有资本联合投资。

• 知道创宇北京党支部隶属首都互联网协会党委(北京网信办直管)管理,对中央政策敏感,受政策驱动强。

• 长期为中央网信办、公安部、国家新闻出版署、中宣部、工信部等监管单位提供网络安全、内容安全、重保防护等工作支持。

2、建立百万违规特征的内容安全智库

多年服务领军企业获得天然的大用户规模的内容技术堆砌出的特征词库,定义并积累有害信息7种一级标签,100+种二级分类,数十万垃圾变种,20+个行业应用场景,垃圾特征词库总量级达到300万以上。

3、专业的数据标注团队保障训练专业度

打造了专业化、精细化的数据标注团队,具备高质量的数据标注能力,可以做到专业系统的数据训练支撑。

技术说明

知道创宇CDAI算法团队根据产品线多年积累的脱敏标注数据作为底层基座,数据来源以下:

1、内容安全智库

内容安全智库多年以来积累了百万级别精标违规图片样本,百万级别精标违规文本样本,百万级别敏感词,万级别敏感人物数据,十万级别图像黑库。为模型训练提供了强力支持。

2、图像精标平台

使用以CVAT为主的专业图像精标平台对违规图像进行人工精标,支持目标检测及图像分类等主要训练任务,目前已积累样本200万。

3、文本精标平台

使用以Doccano为主的专业文本精标平台对违规文本进行人工精标,支持情感分类,违规序列生成等训练任务。

4、弱标签数据

机审业务中的所有违规样本以及原始机审得分进行去敏留存,用以支持半监督训练任务。

5、开源数据

使用开放版权公开数据,训练通用检测模型,如OCR, 人脸检测等。

6、企业大数据

通过整合、清洗、规范各渠道数据,形成企业数据图谱,为资质审核提供企业数据真实性识别、风险数据预警。

知道创宇CDAI (Cognitive Domain Artificial Intelligence)认知域AI大模型具有针对图像、文字、音频、视频多种内容模态检测算法的完整算法技术栈,由于内容安全的领域特性,所使用的模型参数量分布为百万级至亿级,使用多模型集成决策的方式进行推理审核。同时在资质审核辅助功能领域,大胆尝试遗传算法、tts算法,提高流程效率。

AI大模型展_CDAI认知域AI大模型_ScanA_内容安全云-1

算法脑图

服务客户

10年内容风控AI实战经验,为江苏省、安徽省、江西省、湖南省、北京市、深圳市、成都市、重庆市多个地市网信办提供属地内容风险治理服务;为国务院办公厅、北京市人民政府、陕西师范大学等百余家政府、事业单位提供内容风险自查监测服务;为腾讯、知识星球、英雄互娱等领军互联网企业提供内容安全审查服务。

关于企业

·知道创宇

北京知道创宇信息技术股份有限公司,是一家立足攻防一线,与客户并肩战斗,拥有“实战对抗“能力的网络安全公司。知道创宇成立于2007年,由数位资深的安全专家创办,立足网络空间测绘、网络认知域防御、云防御SaaS服务,为客户在线业务系统和网络边界提供AI高级防御。

知道创宇员工1800多人,总部位于北京,在北京、成都、武汉设有三大技术中心,国内销售和技术服务体系覆盖华北、华东、华南、华中、西部及香港等地区,可随时响应客户突发的各种安全需求。

以上由知道创宇投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的《2023中国数据智能产业AI大模型先锋企业》榜单/奖项

该榜单奖项最终将于11月14日以下活动中进行榜单的首发与奖项的颁发,欢迎报名莅临现场


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

我要评论

数据猿微信公众号
2023第七届上海AI大会暨医药和医疗创新峰会
2023深圳物联网展
人工智能博览会
FMW2023全球闪存峰值
2023世界农业科技创新大会暨世界农业科技博览会
返回顶部