要不是我媽突然在家庭群里失去了往日的活躍,我應(yīng)該是不會關(guān)注到人口普查的。
10月底,一向熱衷于短視頻或者淘寶購物的母親,沒有像往年一樣在群里給我們各種推薦,積極備戰(zhàn)“雙十一”,相反,她晚上時間都被一張張表格填滿了。
幾天之后,我才知道,身為多年黨員的她,被征集去做了人口普查員。今年已經(jīng)50歲的母親現(xiàn)在已經(jīng)有些眼花了,面對字如螞蟻的人口普查表,她只能付出更多的時間和精力,甚至要搭上我爸。
由于長期關(guān)注云計算,我早就聽聞有一些科技公司中標(biāo)了這次人口普查項目。但既然技術(shù)助力,為何還需要這樣如此原始的填報方式?
帶著質(zhì)疑,我們開始好奇2020年人口普查背后,到底做了什么樣的技術(shù)革新。
每10年一次的中國人口普查
在談這次人口普查之前,我們不妨先來了解下關(guān)于人口普查的歷史。
公開資料顯示,人口普查可以回溯至很久以前。事實上,它幾乎與國家一樣古老。
歷史的經(jīng)驗告訴我們,人口普查證明了各國了解其居民的固有愿望,而其動機(jī)有時候主要出于軍事目的,有時則出于稅收,數(shù)千年前的古埃及和古中國就開展過人口普查。
而伴隨著時間的推移,人口普查也變得越來越振奮人心。
每10年一次的人口普查,如果把一次次的數(shù)據(jù)匯總起來,其實可以看出社會的變化。
而這些數(shù)據(jù)不過是萬千個體故事的集合,這些故事與年邁父母、前途未卜的嬰兒的命運(yùn)以及做出在新地方開始新生活的抉擇有關(guān)。
所以不可否認(rèn),每一次普查都是一次橫向分析,是對社會的一次必要解剖。而解剖的時間,是人為決定的。
一般地,近年來每次人口普查基本上都會問兩次,第一次主要是調(diào)查每次都會問到的基本問題,比方問“有幾口人,有沒有在這里住,學(xué)歷什么的”。
另外,每一次人口普查也都會增加一些新問題。各個部委,比方說像人社局、民政部、人社部,甚至工信部,都會跟統(tǒng)計局去申請,能不能在人口普查里面搭一些他們關(guān)心的問題。
但這部分問題是在正式登記的過程中發(fā)生,在進(jìn)行普查之后,會抽查10%的人群再問一次。問的就是上面提到的特殊問題。
據(jù)公開資料記載,新中國成立后,我國先后共進(jìn)行了六次人口普查,今年的人口普查是第七次。這七次人口普查具體情況及變化如下表所示:
其中,2000年進(jìn)行的第五次中國人口普查,首次采用光電錄入技術(shù),為中國經(jīng)濟(jì)社會進(jìn)一步發(fā)展提供重要的人口依據(jù)。這次人口普查在中國普查史上添加了厚重的一筆。
但是,人口普查如此全面系統(tǒng),也具有一些局限性。
人口普查涉及范圍廣、調(diào)查單位多,因而人口普查相對較為耗時、耗力,而且成本也很高。同時,人口普查多是十年進(jìn)行一次,因而數(shù)據(jù)的時效性不夠強(qiáng),不能有效并及時地反映人口動態(tài)變化。
與以往不同,此次的人口普查首次采用了移動端的電子化普查手段,一來是為了提高普查效率,二來也為了對手機(jī)進(jìn)行更好的儲存和分析。
今年年初,騰訊以4541.7萬中標(biāo)了第七次全國人口普查數(shù)據(jù)處理環(huán)境建設(shè),主要承接的便是技術(shù)保障工作。
關(guān)于這個項目,統(tǒng)計局提出了兩個要求,一方面,希望通過云計算、大數(shù)據(jù)等手段提高人口普查的效率和準(zhǔn)確度,另一方面,希望數(shù)據(jù)收集上來后,數(shù)據(jù)在后臺,系統(tǒng)的安全性、可靠性上能夠支撐住。
當(dāng)時騰訊給出的一套方案,是希望14億老百姓用已有的微信、700萬普查員用企業(yè)微信這個現(xiàn)成產(chǎn)品,同時把數(shù)據(jù)審核關(guān)系放在上面,并定制一套數(shù)據(jù)審核關(guān)系。
雖然戶籍?dāng)?shù)據(jù)整理看起來很容易,但人口普查,是要求15天之內(nèi)14億人的信息全部到位。所以從交易量上來講,騰訊的壓力并不小。
再加上疫情的影響,雙方在實施過程中遇到了意想不到的困難。
不過,橫向來看,相比于國外人口普查基于PC的電子化采集模式,我國用智能終端做普查,在技術(shù)上相對比較先進(jìn)。
簡言之,即便技術(shù)應(yīng)用到人口普查領(lǐng)域已經(jīng)小有成就,但在技術(shù)幫助人口普查更快更好落地,就事實來看,困難仍然很大。
當(dāng)中標(biāo)遇上疫情:15天,14億
“我們2月14日開標(biāo),3月5日集中。那時候疫情還沒有結(jié)束,要把一個隊伍集中起來做應(yīng)用開發(fā),做技術(shù)方案,很艱難。”騰訊云相關(guān)負(fù)責(zé)人王景田如此談到。
據(jù)悉,當(dāng)時全北京都找不到飯店,沒有地方。
禍不單行。
項目剛開始不久,原定交付團(tuán)隊又全部撤出了。于是,在3月20日,架構(gòu)師王飛所在的部門接到通知,被臨時派遣過來承接統(tǒng)計局第七次人口普查的項目。
雖然標(biāo)準(zhǔn)的普查時間是11月1日,但很多工作需要在疫情期間完成,包括軟件的功能設(shè)計、開發(fā),整個云架構(gòu)的設(shè)計,云產(chǎn)品的組裝以及一些壓測,功能儀式點的保障。
關(guān)于入駐之后的經(jīng)歷,給王飛留下肌肉記憶的可能就是接二連三地?fù)Q辦公酒店了。據(jù)王飛回憶,一開始接到任務(wù)的時候客戶只說封閉20天,但實際上封閉時間一直從3月份持續(xù)到了9月初,長達(dá)200多天。
當(dāng)然,辦公地點只是眾多困難中的一小項。更多更復(fù)雜的困難,則體現(xiàn)在業(yè)務(wù)上。
王飛認(rèn)為,最一開始大家對這個項目的預(yù)計是不足的,主要是由于困難程度的評估多來自于聽別人說,因此,在項目試點前期出了很多問題,包括很多功能沒有上線,上線不符合預(yù)期,各種各樣的前端去反饋等等。
另一個困難是,最初人手嚴(yán)重不足,直到后來,以黃謙代表的新的優(yōu)化團(tuán)隊進(jìn)來,情況才得以好轉(zhuǎn)。
不過,對于黃謙來講,當(dāng)時的情況也非常艱難,他談到,“比如我們最開始去盤一些性能問題的接口。最初有問題的接口只有30多個,可隨著不斷地深入,這個數(shù)字由30變?yōu)榱?0,又變?yōu)榱?00,知道最后一輪發(fā)現(xiàn)有超過150多個問題接口。”
他接著補(bǔ)充道:“當(dāng)時就我一個人在,要負(fù)責(zé)三、四十款產(chǎn)品所有的配置,包括跟客戶的溝通,架構(gòu)的設(shè)計、運(yùn)維保障等等。確實是完全超負(fù)荷的。”
屋漏偏逢連夜雨。
在客戶側(cè),隨著合作的深入,需求也在不斷地更改和增多,這樣一來,包括應(yīng)用、架構(gòu)、資源都要跟著變,十分耗時耗力。
好不容易,終于一路闖關(guān)捱到了試點上線,新的問題又出現(xiàn)了。
根據(jù)計劃,這次人口普查主要分為五次試點,第一次是在福建,第二次是在江蘇鎮(zhèn)江,第三次、第四次、第五次都是十幾個省在普查,這幾次試點工作主要集中在五六月份進(jìn)行。
其中,最為驚險的一次發(fā)生在第三次試點上線的時候。
“我印象中到第三次,這是小程序離線模式第一次正式上線,而且是十幾個省第一次一起上線試點,當(dāng)時暴露出非常多問題。”王飛現(xiàn)在提起這段,還有點心有余悸。
在統(tǒng)計局看來,有兩個底線是不能突破的——第一個,小程序不能有大范圍的登錄不上;第二個,采集的數(shù)據(jù)不能丟,因為丟一條數(shù)據(jù)證明少一個人。
但是,這次試點測試時,一線普查員反饋出現(xiàn)了漏報問題。而這種情況使得統(tǒng)計局直接質(zhì)疑了騰訊的設(shè)計:以小程序的模式去做采集是否OK,以至于想把整個方案推翻掉重做。
對此,黃謙談到,這次是首次進(jìn)行的嘗試,所以沒有太多前面可參考的東西,大家也是摸石頭過河。
另外,統(tǒng)計局沒有給一個線上架構(gòu)優(yōu)化的空間,上來就這么多量。它不是一個逐步迭代的過程,而是一步到位的過程,所以要考慮到太多突發(fā)并發(fā)的情況。
找一個14億人的通解
在整個大體框架搭建進(jìn)行的同時,騰訊的另一只隊伍也在如何更好地交互和使用上進(jìn)行探索著,因為這涉及到要包容14億人口。知情人士透露,在第六次人口普查的時候,其實嘗試過能夠部分進(jìn)行電子化采集,但當(dāng)時好像效果不是很好,就沒有繼續(xù)進(jìn)行。
作為統(tǒng)計局,則需要考慮一些很實際的問題,比方說一個普查員負(fù)責(zé)80到100戶,那如何在一個普查小區(qū)里把這些戶分配給不同的普查員,一棟樓是按一個樓梯間分80戶還是一樓到十樓是80戶。
騰訊團(tuán)隊人員Afina回憶稱:“當(dāng)時有一個很具體的問題,南方跟北方樓門的叫法是不一樣的。我們討論了好久,一直都發(fā)現(xiàn)那個表數(shù)沒有對上,最后才明白說的不是同一個東西。”
像這樣的問題,統(tǒng)計局也會比較擔(dān)心,想找到一套標(biāo)準(zhǔn)能夠全國通用的方法。但是,另一個困難的地方在于客戶都不確定是不是要開放自主填報,因為從來沒有試過。
從騰訊角度,希望給到更開放的自主填報模式,比如不需要通過普查員,在電梯上面或者其他渠道掃二維碼就能夠自己填。
但最終實行的自主填報模式,必須要普查員找到本人后,提供一個獨立密碼,甚至還要加一下微信,才開始自己去填。這其實是在一定限度里一個沒有完全放開的自主填報。
而統(tǒng)計局的擔(dān)心也不無道理,畢竟并不是每個人都能很好地完成自主填報。
關(guān)于這一點,一直跑在一線調(diào)研的Afina感受尤其明顯。她談到:“部分用戶操作能力差一些,有一些上了年紀(jì)的用戶,他們使用各方面都有問題。”
實際上確實是有很多大爺大媽,譬如有一個環(huán)節(jié)是教大家去打開iPad,真的是連開機(jī)都不會開。工程師們心里面是很涼的——按照老人對智能化工具的理解與操作水平,怎么用數(shù)字化的工具完成普查呢,他們非常害怕。
后面隨著調(diào)研的深入,還有驚訝的情況出現(xiàn)。
有一些基層普查員表示,按照以往普查的經(jīng)驗,要求他們先填在紙上面,再填到機(jī)器上面。
實際上這次應(yīng)該是由機(jī)器去錄的,但他們還是依照了固有的經(jīng)驗,并沒有使用機(jī)器。背后原因則在于,普查員覺得同一時間發(fā)表、收表能夠節(jié)約時間,其次,他們并不熟悉機(jī)器錄入的操作。
這樣的情況,也就有了很多像開篇我老母親一樣的普查員的操作。
另一方面是面向普通大眾的,Afina坦言“很多信息是存在缺失的。比如去棚戶區(qū)的時候,我們進(jìn)去需要打著手電,就像一座廢棄的大樓,里面是一個已經(jīng)拆掉的地方,普查員帶著我們走過很黑很黑的房間,完全空曠的房間,突然發(fā)現(xiàn)這兒有一個燈,居然還有個床,有人住在這里。”
隨之而來的,Afina當(dāng)時還有一個念頭,“就覺得可能普世化調(diào)查中很多人群,我們原先設(shè)定的那種上報條件在他們看來還是比較高端或者是不太好實現(xiàn)。”
所以,這就要求在設(shè)計高頻操作,就是錄常規(guī)信息的時候,要盡量把這個過程便捷性上做到極致,操作的容錯做到極致。
這樣,不管是上年紀(jì)的叔叔阿姨,還是其他被調(diào)查者,都能夠在很大程度上接納這樣一種數(shù)字化的錄入方式。
企業(yè)微信是除了騰訊云團(tuán)隊之外,另一個自始至終參與這個項目的團(tuán)隊。
一個有意思的事情是,雖然雙方已經(jīng)明確要用企業(yè)微信來管理普查員,但具體的普查人數(shù),一直也沒有明確的數(shù)量級,直到后來才預(yù)估出了這樣的數(shù)目。
企業(yè)微信的壓力主要就來自于這突然上來的700萬人。
舉一個最簡單的例子,如何能讓這700萬人順利地把企業(yè)微信應(yīng)用安裝在手機(jī)上?這個通知用什么手段發(fā)下去,讓每一個普查員知道且會用?
全都是難題。
另外,因為企業(yè)微信是一個公開的平臺類產(chǎn)品,對于統(tǒng)計的業(yè)務(wù)、普查的一些具體場景,一開始會有能力上的不足。
還有個細(xì)節(jié)是,每次的人口普查都會有一些不法分子冒充普查員。
為了避免這種情況發(fā)生,今年的普查員都會佩戴一個證件,而這個證件上面印有普查員的企業(yè)微信二維碼。老百姓可以通過掃這個二維碼看到普查員的真實身份信息。
同樣,在如果有需要的情況下,他還可以去加普查員的好友,比如說去預(yù)約一個上門時間。
總之,在2020年人口普查中,普查員仍然是一個必不可少的崗位,甚至仍然耗費(fèi)著人的大量精力。而技術(shù)在這其中,則偶爾扮演著一個吃力不討好,但正在緩慢適應(yīng)的角色。
結(jié)尾:
轉(zhuǎn)眼之間,2020年人口普查已經(jīng)進(jìn)入抽查階段,到12月幾乎接近尾聲。
當(dāng)被問及,內(nèi)部是如何定位這個項目時,譚旭表示,可以用他們一個群名來概括,那就是“TOP1重點保障”。
據(jù)悉,對于這次人口普查,馬化騰也有話說。
他曾在朋友圈發(fā)文稱:“企業(yè)微信+小程序:700萬B端內(nèi)部組織,連接14億C端,這個規(guī)模罕見了。”
但是,技術(shù)的局限性,也在這場浩浩蕩蕩的社會大解剖中,暴露無遺。
關(guān)鍵詞: