跳转至

数据标准

本文档规定了数据收集的标准。本文档中提及的项目应当以本文档为准,文本当中未提及的项目应当咨询技术组相关同学。

1. 表格#

为了便于处理,表格的格式有如下规定。

a. 特殊符号#

特殊符号适用于所有表格。任何情况下,禁止在日常填表中使用特殊符号。

表格中须注意的特殊符号如下规定:

符号 意义
多个项目的分隔
\ 换行

表格是二维结构,无法存储第三维信息。对于第三维的信息,我们通过"、"来表示分隔。

若某地有三个联系人,分别有三个电话号码,则表格应该为:

联系人 电话
张三、李四、王五 13000000000、13111111111、13222222222

我们使用csv来生成页面,固表格有时须包含带有段落的文字。由于表格不支持换行,我们通过"\"来表示换行。

若某表格有一段文字描述,则表格应该为:

联系人
我实在没有说过这样一句话。\--鲁迅曾这样说过

b. 保留字段#

保留字段有的适用于所有表格,有的适用于部分表格。如对该表格的保留字段不清楚,可联系技术组成员。

所有表格的前两列均为保留字段。

所有表格的第一列均为ID。如需根据每一行生成一个页面,则ID为必填项目,并且保证在当前表格中唯一;算法会将ID字段作为该页的路径。

所有表格的第二列均为contributor。贡献人字段可以是一个人的名字、外号,或其他字符、数字以及特殊符号(包括emoji)的组合。如一个字段有多个贡献人,请依据特殊符号,用顿号隔开。

绝大多数表格的第三、四、五列为该行内容的地区,分别是省级行政区、市级行政区与县级行政区。对于直辖市、特别行政区等,其第四、五列内容应当一致。

c. 日期与时间#

日期格式为yyyy-MM-dd HH:mm:ss:SSSSSS。其中,日期不需要补零,时间需要补零。如果部分信息未知,则留空。

日期与时间 格式化日期与时间
2020年1月24日17时4分56秒 2020-1-24 17:04:56
2020年1月24日17时 2020-1-24 17
17时4分 17:04
2020年1月24日 2020-1-24

d. 地址#

地址自省级行政区开始,逐级达到门牌号。地址中尽量避免标点符号,除非其是地址的一部分(比如单元)或下列情况。禁止使用英文符号,除非其是地址的一部分。

  • 门牌号后若有进一步信息,则在其与门牌号之间增加空格。
  • 进一步信息若需补充,则在其后以逗号作为分割。
地址
北京市海淀区颐和园路5号 北京大学
北京市海淀区颐和园路5号 北京大学工学院
北京市海淀区颐和园路5号
北京市海淀区双清路30号 清华大学(北京大学东北侧)
北京市海淀区中关村大街59号 中国人民大学(中国人民大学附属中学南侧,近海淀黄庄)
地址
北京市 海淀区 颐和园路5号
北京市海淀区颐和园路5号北京大学工学院
北京大学工学院
北京市海淀区双清路30号 清华大学(北京大学东北侧)
北京市海淀区中关村大街59号 中国人民大学(中国人民大学附属中学南侧,近海淀黄庄)

e. 电话#

电话号码不保留国别前缀,中间不留空格。具体格式如下:

  • 移动电话:1xxxxxxxxxx
  • 固定电话:0xxx-xxxxxxx
电话
13000000000
18888888888
010-8888888
4008823823
电话
130 0000 0000
188-8888-8888
(010)8888888
4008-823-823

f. 名称#

名称应以官方公布的正式名称为准。

评论