2020年七普长表数据浅析(二):生育水平

2022-06-19 星期日

上一次浅析讨论了七普长表数据所反映的婚姻情况,发现婚姻推迟的现象在普查年出现了明显加速,95后群体进入初婚的情况明显疲软。

在东亚地区,生育与婚姻关联程度相当高。即使不考虑终身未婚率升高的情况,仅是初婚推迟也会直接导致生育水平下行,这在生育部分的数据中体现得也是十分明显,我们继续通过数据来认识这一点。

生育部分的数据来自七普数据-长表数据资料部分的第六卷。

在一般印象里,人口普查是针对所有居民进行的,但面向所有居民的是内容稍简单的“短表”,而登记事项更繁杂的“长表”只在填写“短表”的居民中抽取10%。长表收集的资料包括就业、婚姻、生育、住房等等更加细致的情况,如果发现自己并没有被调查到这些内容也属正常,因为这只是涉及10%的抽查。

一、总和生育率反映了什么?

从最通俗的角度理解,总和生育率可以反映进入育龄期(国际通行标准15-49岁)的女性的平均每人可能将要生育的子女数量。比如若当前的总和生育率是1.5,则表示在当前社会经济等综合情况下,处于15-49岁的女性在其处于这个年龄区间内时,很有可能会平均生育1.5个孩子。

有人也许提出这样的疑问:15-49岁都是“育龄”区间,而人的年龄是动态发展的——有些女性也许选在25岁生育,有些女性也许选在35岁生育;有些女性也许已经在“去年”完成生育,而有些女性也许要在“明年”完成生育……那么单看当前这个“瞬间”的生育情况有说服力吗?其实这是没有问题的,因为就在“现在”这个“瞬间”,就有选在25岁或35岁生育的女性,就有相对于未来的“去年”和相对于过去的“明年”生育的女性。并且中国的人口基数足够大,使得育龄妇女的基数也足够大,因此在“当前”得到的总和生育率足够反映实际情况。

如果某个人群的总和生育率低于2.0-2.1的区间,即一对夫妇生育不到2个孩子,那么这个人群将来面临的趋势必然就是人口逐渐萎缩

二、总和生育率的算法

顾名思义,“总和”生育率需要把育龄期(国际通行标准15-49岁)内每一岁女性的生育水平加和得到。同时,每一岁的生育水平都是一个比值,因此对于地区来说,这项数据实际上并不受到人口迁入迁出的影响(而出生人口与出生率则会)。我们以七普长表数据为例,能够更容易地理解总和生育率的计算过程。

上图是表6-3的一部分。需要注意这是长表数据,抽查到10%的人,所以出生人数是121万多;相应的,育龄妇女数也是总体的10%。

之前已经提过总和生育率的算法,是把“每一岁”女性的生育水平(比值)加和得到。该表第一列里的“生育率”37.26‰,即通过出生人数1213144除以平均育龄妇女数32555388得到的比值,在算术上是正确的,但在总和生育率算法上是错误的。

当然,这里的数据只是要在表里占个位,但却并未给出注释,作为面向公众的数据存在一定的误导性

37.26‰的数据距离真正的“总和生育率”显然还差得远,原因就是这些女性并非在普查年一年之内就要完成生育。15-49岁这个年龄区间中有35个不同的年龄,我们将35称为“组距”。其实,将上述算法加入组距后就是一种粗算总和生育率的方法,为:

当年出生人口数/(平均,即年均,取前一年年末数值与当年年末数值的平均值)育龄妇女数*组距(在这里是35)

通过这样粗算得到的七普长表中的总和生育率是1304.1‰,即1.3041,约1.30

当然,在七普数据公布较齐全的情况下,我们暂时用不到粗算的方法,可以直接在表6-4查到七普时点全国的“精算”的总和生育率,是1300.90‰,即1.3009。可能还会有人产生疑问:前面各个年龄组的生育率都是几十甚至个位数,怎么到总和生育率那里就是一千多呢?与前面一样,在计算“总和”时,这些分年龄组的数据也需要再乘一个组距,由于每个年龄组包含5个不同的年龄,所以组距在这里就是5,即:

(6.07+55.22+98.98+65.05+26.91+6.34+1.61)*5=1300.90

但是,这种“精算”的方法只适用于像普查数据这样能够给出分年龄组生育情况的年份。对于非普查年,如刚过去的2021年,关于出生人口的公开数据只有一个1062万,这时就只能使用前面提到的粗算算法。至于分母即育龄妇女的总数,我们可以通过《中国统计年鉴2021》[1]表2-25或七普短表部分[2]表3-1中的数据中获取。

我本人先前根据这些数据整理了未来几年育龄妇女数变动的大致情况,如下:

诚然,由于全年龄段均有一定的死亡率,七普时点某年龄段的人口数发展到现在肯定是有略微减少的。但15-49岁期间的死亡率很低,所以在粗算时可以将七普时14-48岁人口视同为2021年时的15-49岁人口;同时,随年龄增长的生育情况基本上是呈正态分布的,并且在接下来的内容中会提到:生育水平的下降是全年龄段育龄妇女生育水平的下降。

所以在八普之前,我们可以使用当年出生人口作为分母,以七普数据为基础推算的某年育龄妇女数为分母,并以35为组距粗算某年的总和生育率。比如,按官方数据计算的2021年的总和生育率为

出生人口1062/平均育龄妇女数((32229+31771)/2=32000万)*35=1.1616,即约1.16

当然在计算中也可以不取平均育龄妇女数,而是直接使用对应年份的年末育龄妇女数31771万,这样算出来是约1.17,只差0.01。相比分具体年龄的精算,这样计算得到的总和生育率的误差是非常小的,若只看到小数点后两位,二者几乎可以等同。

三、各地区生育水平的比较——生育水平为何低?

很多媒体都在报道“广东连续四年出生人口位列全国第一”的消息,很多人也说广东人是“最能生的”,事实果真如此吗?下面依据表6-4数据,以总和生育率1.0(超低水平)、1.3(全国平均水平)、1.5(警戒线)、1.8(多年来卫健部门意图达到的目标水平)等为划分标准,将各省级地区生育水平分为几组,如下:

我们可以发现:在七普时点,广东的生育水平(1.36)实际上仅仅比全国平均水平(1.30)高出不到5%的水平,而达到更替水平(2.0-2.1以上)的省级地区只有贵州,不过贵州的出生人口下行较快,很有可能在2021年时当地的生育水平就达不到更替水平了,生育水平第二的广西也面临类似的情况。其他在印象中“能生”的省份如北方的河南、山东,南方的江西、福建等,生育水平均在1.5的警戒线以下。在这种情况下,所谓“能生”仅仅是在较大的人口基数下产生的出生人口相对较多,若用生育率来衡量,是远远谈不上的。而津沪和东北地区的生育水平已经低于1.0,特别是黑龙江和上海的生育水平已经低到0.76、0.74这样的水平。

还是需要再强调一下,总和生育率是将一系列比值相加,可以排除人口流动的因素。那么,同处七普时点,贵州、广西这些省份的总和生育率高在何处?津沪和东北地区的总和生育率又低在何处?若将这些分组的年龄别育龄妇女的生育率放在一起,情况便“水落石出”了。

我们可以发现:无论生育水平高低,贡献最明显的年龄组是25-29岁;随着生育水平的降低,贡献第二明显的年龄组逐渐由20-24岁转为30-34岁;生育率较高地区的分组,其不同年龄组的育龄妇女的生育率都是相对高,反之亦然。那么,随着初婚年龄的进一步推迟,在25-29岁年龄组及之前贡献生育的可能性会进一步降低,虽然会逐渐提高30岁以后生育的比重,但从总体上来看,总和生育率是必然走低的。

有一种相当有市场的观点:像上海这样的地区,低生育水平只是一种非常态的现象,这是由年轻人推迟生育所致,将来他们逐步进入婚姻时会产生新的生育高峰,这样生育率就会“触底反弹”。实际上,上海已经进入超低生育水平多年,并且从数据上来看,这样的超低生育水平是由各个年龄组各自的超低生育水平共同形成的,30岁以后的年龄组的生育水平依然是超低,根本不存在“推迟婚育后的生育高峰”

我们也可以明白,生育水平的降低是所有年龄组育龄妇女的生育水平共同降低,而绝不仅仅是“20多岁推迟、30多岁顶上”。当然,现在确实有不少30多岁才初婚初育的,但若是在生育率较高的地区,在这样的年龄很有可能已经有二孩三孩。所以从结果上看,低了就是低了,没有办法从稍高的年龄组找补。

并且,像南方的江西福建这样因地理因素导致民风民俗相对传统保守的地区的生育水平都已经低于警戒线,所以在生育水平降低的浪潮面前,一切“传统”和“多子多福”都是挡不住的。查看表6-4a、6-4b与6-4c可以发现,在城市地区,仅有个别省级地区的生育水平高于1.5;在乡村地区,也只有少数省级地区的生育水平高于过去目标设定的“1.8”。前面我们已经提到过,2021年中国的生育水平进一步降低到1.16或1.17,这意味着会有更多的省份的生育水平降至1.5以下。

四、关于所谓“出生人口大量漏报”论

在七普以后的2021年,“出生人口大量漏报”论居然还有一定的市场。我本人之前写过一篇关于“漏报”的内容,简单复述一下结论:在过去(2017年以前),出生人口漏报现象确实存在,原因之一是规避计生处罚,原因之二是并未在分娩后及时登记户籍,但现在的低生育水平和连续下降的出生人口并不能用“出生人口大量漏报”论解释

“出生人口漏报”论被提出时是为了什么呢?是为了解释诸如1999年按抽样调查得到的出生人口1909万[3]而五普得到的普查年0岁年龄组人口1379万这样的现象,解释为出生人口漏报了500-600万。漏报当然是存在的,不过绝没有那么夸张。六普10岁年龄组人口是1445万,而七普20岁年龄组人口是1456.3万。将中途夭折因素纳入考虑,2000年五普时点的0岁年龄组人口的真实数据也很难超过1500万。那么,究竟是抽样得到的1900万更准确,还是五普得到的1379万更准确呢?无需多言。

五普存在的8%左右的漏报,能说明七普也存在这种程度的漏报吗?知其然也要知其所以然,过去漏报是因为住院分娩率低,卫健部门根本没有掌握这些婴儿从建档到出生的任何信息,系统内“查无此人”,所以很容易就会漏报。2017年以后,住院分娩率连续保持在99.9%,且对各地的孕产妇建档情况考核的力度也加大了,各级卫健部门得到的一手分娩数据越来越接近实际的出生人口,已经直接采用活产数作为出生人口数。这就使得从原理上已经不存在类似五普这样成规模漏报出生人口的基础。具体请见下文的第二部分。

相反的,对死亡人口的漏报依然大量存在、难以解决。很多知友指出七普数据中普查年的死亡人口只有796万,而国家统计局公布的2020年死亡人口是996万,这是怎么回事呢?很简单,因为死亡人口确实存在大量漏报,并且部分漏报距离实际死亡时间有很长的延迟,这796万只是当年死亡人口中按时完成上报在系统中留下痕迹的部分。六普数据中普查年的死亡人口也只有742万,这是同样的道理。至于在统计公报公布的年死亡人口,是在对各地延报漏报死亡人口的基础上对死亡数据所做的比较保守的修正。

比起对出生人口的漏报,对死亡人口的漏报更是影响人口统计准确性的关键。我们可以比较一下安徽省宿州市埇桥区桃园镇的出生人口与死亡人口的延迟登记/注销情况,就可以发现:死亡人口的延迟和漏报远比出生人口的更为严重。

所以,从可得的数据上说,总人口减少会发生在2022年。但实际情况如何,需要等待八普甚至是九普的回测以及对历年死亡人口的修正,我们才能确切地知道人口总量减少发生的具体年月。产生这种误差也并非出于统计的主观,而是手段不足和客观现实带来的约束。

结论

生育水平的下降处于正在发生且远未结束的阶段,生育水平降到低于1.0的水平并不会很遥远。结合上一篇对婚姻的浅析,随着人数更少、初婚更迟的95后人群进入婚育年龄,出生人口将会呈现持续减少的态势,而生育水平很可能会在经历较快下降到极低水平后长期保持在低位。

参考

  1. ^中国统计年鉴2021 http://www.stats.gov.cn/tjsj/ndsj/2021/indexch.htm
  2. ^中国人口普查年鉴-2020 http://www.stats.gov.cn/tjsj/pcsj/rkpc/7rp/zk/indexch.htm
  3. ^中华人民共和国 1999年国民经济和社会发展统计公报 http://www.gov.cn/gongbao/content/2000/content_60106.htm
原文地址:点击