本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件起草单位:云账户(天津)共享经济信息咨询有限公司、云账户技术(天津)有限公司、天津米连网络科技有限公司、天津海天缘生产力促进中心有限责任公司。
本文件主要起草人:杨晖、王宝红、邹永强、华烨姗、毛嘉兴、朱夏贤、陈思安、王陟耕、张颖、计舒依、杨宜、曾思源、刘东昱、赵福宁、张莹莹。
本文件提供了共享经济灵活就业人员管理与服务机构的大数据应用的架构、场景、流程和数据系统与服务等方面的指导。
本文件适用于天津市共享经济灵活就业人员管理与服务机构的大数据应用工作,包括业务诊断、风险管理、分析研究等应用场景。
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求
GB/T 35273-2020 信息安全技术 个人信息安全规范
GB/T 37964-2019 信息安全技术 个人信息去标识化指南
GB/T 37973-2019 信息安全技术 大数据安全管理指南
DB12/T 926-2020 共享经济平台灵活就业人员互联网管理与服务指南
DB12/T 996-2020 共享经济灵活就业人员管理与服务平台基本安全要求
DB12/T 1094-2021 共享经济灵活就业人员管理与服务机构业务风险管理基本要求
3.1 灵活就业人员 the Gig Worker
自我雇佣并以个人身份从事合法合规生产经营活动的具备民事行为能力的市场主体。
[来源:DB12/T 926-2020,定义3.1]
3.2 共享经济平台 the sharing economy platform
利用互联网现代信息技术,整合海量、分散化资源,通过移动设备、评价系统、支付、基于位置的服务(LBS)等技术手段有效的将需求方和供给方进行最优匹配,对数量庞大的需求方和供给方进行撮合,通过撮合交易达到供需双方收益最大化并获得收入,具备法人资格的共享经济行业平台型公司。
[来源:DB12/T 926-2020,定义3.2]
3.3 共享经济灵活就业人员管理与服务(简称:“管理与服务”) management and service for the Gig Worker in the sharing economy
基于互联网现代信息技术,为灵活就业人员(3.1)提供的身份核验、规则宣贯、收入结算、人工智能报税、保险保障等共享经济综合服务。
[来源:DB12/T 926-2020,定义3.3]
3.4 共享经济灵活就业人员管理与服务机构(简称:“管理与服务机构”) management and service institute of the Gig Worker in the sharing economy
提供共享经济灵活就业人员管理与服务(3.3)的平台化的组织。
[来源:DB12/T 926-2020,定义3.4]
3.5 共享经济灵活就业人员管理与服务平台(简称:“管理与服务平台”) management and service platform of the Gig Worker in the sharing economy
[来源:DB12/T 926-2020,定义3.5]
共享经济平台(3.2)在管理与服务平台(3.5)中的企业身份。
[来源:DB12/T 926-2020,定义3.7]
3.7 个人信息 personal information
以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。
注1:个人信息包括姓名、出生日期、身份证件号码、个人生物识别信息、住址、通信通讯联系方式、通信记录和内容、账号密码、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息等。
注2:个人信息控制者通过个人信息或其他信息加工处理后形成的信息,例如,用户画像或特征标签,能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的,属于个人信息。
[来源:GB/T 35273-2020,定义3.1]
在共享经济灵活就业人员管理与服务(3.3)领域中,一旦被泄露或非法使用,可能会对国家安全、公共利益造成危害,或者对自然人的人格尊严或人身、财产安全造成侵害,或者对企业利益造成损害的数据。
API:应用程序接口(Application Programming Interface)
OLAP:联机分析处理(On-Line Analytical Processing)
本文件所描述的数据应用架构如图1所示,宜包含数据采集、数据存储与处理、数据系统及服务和数据应用场景。数据应用场景可包括业务诊断、风险管理和分析研究。数据系统及服务可包括指标管理系统、数据管理系统、智能报表系统、数据可视化和数据推送服务。
图1 数据应用架构:数据采集、数据存储与处理、数据系统及服务和数据应用场景
数据应用场景宜包括但不限于业务诊断、风险管理、分析研究。
a)应支持对灵活就业人员的性别、年龄、籍贯、收入、职业、行业等维度进行多角度分析和交叉分析;
b)宜支持人群细分分析,包括筛选灵活就业人员地域分布、收入区间分布、年龄区间分布、职业分布、行业分布及收入波动情况等重点指标。
a)应支持统计企业用户的月度、年度结算金额、结算人数等业务指标;
c)应支持统计企业用户的各职业灵活就业人员的人数占比、收入占比。
b)宜支持商务洽谈、资料准入、签订合作协议等全生命周期管理,数据记录可追溯。
风险管理系统建设应符合DB12/T 1094-2021第6章的规定。
a)宜具有算法模型能力,自动为共享经济平台和灵活就业人员匹配风险等级标签,风险等级应符合DB12/T 1094-2021 5.4要求;
b)宜支持将历史数据进行聚类分析,并预测结算风险概率。
a)灵活就业人员信息审核应符合DB12/T 1094-2021 5.3.1和DB12/T 926-2020 4.1要求,宜将灵活就业人员姓名、身份证号等数据与名单库数据进行比对,名单库包括但不限于董监高名单库、在逃人员名单库、涉传名单库、非法集资名单库、涉黄名单库、涉赌名单库;
b)企业用户信息审核应符合DB12/T 1094-2021 5.3.2要求,宜聚合企业用户工商信息、营业执照、结算体量、合作场景等数据,形成企业用户风控档案,记录企业用户全生命周期业务期间各类风控数据。
b)宜为风险管理人员提供风险管理分析工具,综合运用数据仓库、数据挖掘等技术进行数据分析,帮助风险管理部门锁定潜在风险。
宜对数据进行收集、建模,对企业用户进行风险筛查判断,过滤风险企业用户推送至风险巡检系统,风险管理部门对推送的高风险企业用户进行巡检排查,挖掘定位相关风险。
a)应支持统计管理与服务机构服务的灵活就业人员累计人数、新增人数等宏观指标;
b)应支持统计管理与服务机构服务的灵活就业人员每月活跃人数、每月人均收入等趋势性指标。
a)应支持统计灵活就业人员的累计行业规模、收入情况等;
c)宜支持分析共享经济领域各行业随时间的发展趋势;
d)宜支持分析共享经济领域各行业对突发情况的适应能力,如新型冠状病毒肺炎疫情、国际形势等。
a)应支持统计灵活就业人员的职业规模、收入情况等;
a)应支持按用户画像进行灵活就业人员收入状况分析;
c)宜对接第三方数据,对比共享经济领域与其他领域从业人员的收入差异;
d)宜支持对比相对落后地区、相对发达地区的灵活就业人员收入情况。
应符合DB12/T 996-2020中7.2要求,应按照不同的级别实施相应的保护。
a)应确保所采集的企业用户信息和灵活就业人员个人信息的准确性;
b)灵活就业人员个人信息采集范围应包括灵活就业人员的姓名、身份证号、年龄、性别、收款账号,宜包括学历、民族等;
c)企业用户信息采集范围应包括企业用户的工商信息、财务信用等级、合作业务场景等;
d)数据采集应符合最小化原则,非业务必需数据不应采集;
e)数据采集前,应主动将数据按照对国家安全、公共利益或者个人、组织合法权益的影响和重要程度进行分类分级,并告知灵活就业人员被采集的数据范围、数据条目、数据用途和数据安全保护措施;
f)数据采集前,应采取措施实现灵活就业人员对数据采集相关文本内容的知情权和自主选择权,依法获得灵活就业人员对个人信息采集的明确授权;
g)数据采集时,宜对接第三方数据接口进行数据验证,以符合业务需求和规范。
a)应符合DB12/T 996-2020中7.6要求;
b)应提供集中式存储或分布式存储功能,支持存储结构化数据、非结构化数据、半结构化数据,支持存储实时数据、历史数据;
d)宜提供2个以上云服务厂商存储数据,并支持数据访问在不同云服务软件间切换;
e)宜采用私有云方案,存储灵活就业人员个人信息、企业用户名单等敏感数据。
a)应提供对结构化数据、非结构化数据、半结构化数据的处理功能;
b)应提供对不一致数据、脏数据、冗余数据的清洗、过滤功能,该功能宜满足以下要求:
1)识别数据的真实性、有效性,非法场景包括身份证号缺失或不合法、身份证号与姓名不一致等;
2)对无法核对真实性、有效性的数据,支持人工核对和数据校准;
3)仅对校验合法的数据进行数据分析,以符合监管和利于科学决策。
f)宜对数据进行分层、分域聚合,构建数据仓库、数据集市。
b)应支持基于大数据和人工智能算法的预测分析功能,并提供多维预测和交互能力,包括但不限于以下要求:
1)应支持聚类、回归、分类等常见算法,并具备算法开发能力;
1)宜通过结构化查询语言对数据进行分布式的联机查询,如OLAP等;
6)宜在交互式分析过程中支持分析结果的保存和发布;
应具备以API接口方式对政府部门开放相应数据的能力。
a)应符合GB/T 22239-2019中8.1.4.3要求;
b)应对敏感数据的删除进行警告并推送到数据管理员,敏感数据如客户信息、收入数据、风控数据等;
c)应支持设置敏感数据的定义规则,如特殊关键词、灵活就业人员的特殊行为等;
d)应对敏感数据的访问进行审计,支持设置规则自动告警;
a)去标识化应符合GB/T 37964-2019中4.2.5要求;
b)敏感数据展示时应进行掩码处理,掩码宜满足如下要求:
1)姓名:保留前一位和最后一位,单名时只保留最后一位,其他替换为*号,如:*伟、王*飞;
2)身份证号:保留前两位和后两位,其他替换为*号,如:37**************17;
3)银行卡号:保留前四位和后四位,其他替换为*号,如:6202***********1232;
4)手机号:保留前三位和后两位,其他替换为*号,如:131******83;
5)邮箱:保留前缀的第一个字母、最后一个字母以及完整后缀,其他替换为*号,如:w****h@qq.com;
6)微信号:保留前一位和最后一位,其他替换为*号,如:w****t;
7)支付宝号:应先判断支付宝的注册类型,若为手机号注册,需按照手机号的规则掩码;若为邮箱注册,则需按照邮箱的规则掩码。
d)数据分析中应使用基于敏感数据生成的具备全局唯一特性的替代标识。
数据加密应符合DB12/T 996-2020中7.3要求。
a)应符合GB/T 22239-2019中8.1.4.2要求;
b)应符合GB/T 37973-2019中5.6要求;
c)应支持设置不同的用户角色,比如超级管理员、用户管理员、数据管理员、一般用户等;
d)应支持对不同分级的数据设置差异化数据权限,比如对一级敏感数据设置超级管理员可访问、可修改权限,设置数据管理员可访问权限;
e)应支持多因素认证或二次授权,并结合业务对数据采取访问时效控制、访问最大行数控制、行级数据权限控制、列级数据权限控制等技术措施;
f)数据访问应符合DB12/T 996-2020中7.4要求。
a)应符合GB/T 37973-2019中6.1、6.2、6.3、6.4要求;
b)应实现数据真实可查,无虚假信息,如身份证号合法、收款账号真实存在、姓名与身份证所载姓名一致等。
应具备数据销毁能力,在灵活就业人员、共享经济平台或政府部门要求下,可进行相关账户的注销、数据删除和数据彻底销毁。
c)宜对指标按照多角度进行分类,包括业务线、使用者等;
b)应单独管理灵活就业人员个人信息、企业用户名单等敏感数据;
c)应支持元数据管理,包括但不限于字段名称、数据类型、定义、负责人、更新时间维度;
d)应支持数据库、数据表管理,包括但不限于名称、库描述、表结构、负责人、更新时间、占用空间维度。
a)应具有集成指标的能力,指标管理系统可作为智能报表的数据源;
d)宜对数据结果有自动化的分析能力,包括但不限于以下维度:
d)宜具备组件化的能力,支持通过拖拽等图形化交互界面构建可视化组件;
c)宜支持配置推送服务的接收人,宜支持按照组群方式进行配置;