文 | 張一弛
(資料圖片)
編輯 | 蘇建勛
2022年人工智能大會(huì)上,合合信息使用智能文字識(shí)別技術(shù)挑戰(zhàn)鐘鼎文識(shí)別。在沒(méi)有人工干預(yù)的狀態(tài)下,鐘鼎文從內(nèi)凹狀態(tài)被拉平,并被轉(zhuǎn)譯成簡(jiǎn)體字,“克曰穆朕文且?guī)熑A父悤譲氒心寧?kù)o于猷淑哲氒”等原本連在一起的復(fù)雜語(yǔ)句,也經(jīng)過(guò)“AI斷句”功能自動(dòng)處理后被區(qū)分開(kāi)來(lái)。
2010年合合信息正式上線(xiàn)掃描全能王,后者是最早將AI、OCR等技術(shù)綜合運(yùn)用的APP之一。通過(guò)技術(shù)迭代,掃描全能王目前印刷體文檔字符平均識(shí)別率能達(dá)到99.77%,手寫(xiě)體文檔字符平均識(shí)別率達(dá)到97.00%。
本次識(shí)別鐘鼎文,是合合信息繼去年在人工智能大會(huì)挑戰(zhàn)識(shí)別甲骨文后追求的新挑戰(zhàn)。合合信息掃描全能王事業(yè)部負(fù)責(zé)人曹超陽(yáng)向36氪表示,古文的識(shí)別會(huì)涉及到OCR行業(yè)兩大典型難點(diǎn)——圖像優(yōu)化處理與文字準(zhǔn)確識(shí)別。
圖像優(yōu)化處理方面,古文字的載體與常規(guī)平面差異較大。甲骨文與鐘鼎文對(duì)應(yīng)的載體是龜殼和青銅器,表面存在不同程度彎曲、反光、凹凸不平的情況。進(jìn)行文字識(shí)別前,首先需將拍攝到的圖片素材進(jìn)行智能圖像處理,進(jìn)行“拉平”等矯正工作,并排除掉陰影、噪點(diǎn)的干擾,達(dá)成增強(qiáng)圖像質(zhì)量的目的。
文字準(zhǔn)確識(shí)別方面,以《桃花源記》古籍識(shí)別為例,古書(shū)的紙張比常規(guī)印刷用紙更薄,會(huì)有“毛邊”、“透字”現(xiàn)象,對(duì)文字識(shí)別產(chǎn)生干擾,這時(shí)AI就需要去區(qū)分哪些是使用者需要的文字內(nèi)容,遇到個(gè)別顯示不清晰的文字,還要通過(guò)智能算法去理解判斷這個(gè)文字是什么。
來(lái)源:采訪(fǎng)供圖,掃描全能王識(shí)別《桃花源記》
曹超陽(yáng)認(rèn)為,解決古文識(shí)別中面對(duì)的挑戰(zhàn),實(shí)質(zhì)上是解決文檔圖像質(zhì)量退化(頁(yè)面不清晰)、文字檢測(cè)及版面分析困難、非限定條件文字識(shí)別率低、結(jié)構(gòu)化智能理解能力差等行業(yè)性難題,這些技術(shù)迭代帶來(lái)的服務(wù)體驗(yàn)優(yōu)化將更廣泛地服務(wù)日常用戶(hù)。
對(duì)于用戶(hù)日常需求的挖掘,曹超陽(yáng)表示公司十分重視用戶(hù)反饋以發(fā)現(xiàn)產(chǎn)品迭代點(diǎn),主要從類(lèi)似場(chǎng)景下的用戶(hù)規(guī)模以及需求底層邏輯兩個(gè)方面考量。2019年起開(kāi)始,掃描全能王發(fā)布一系列核心功能,包括“老照片修復(fù)”,“書(shū)籍掃描”,“拍PPT”等,切中了學(xué)習(xí)、生活、工作場(chǎng)景中被忽視的隱形需求,為公司產(chǎn)品商業(yè)化做好鋪墊。
更多功能的迭代幫助掃描全能王在商業(yè)化道路上更進(jìn)一步,掃描全能王在繼續(xù)免費(fèi)為用戶(hù)提供內(nèi)容掃描、識(shí)別解決方案的同時(shí),將比較深入、精細(xì)的功能作為付費(fèi)功能提供給用戶(hù)。
近年來(lái),因疫情影響,遠(yuǎn)程辦公的需求量和需求種類(lèi)迎來(lái)爆發(fā)式增長(zhǎng),文檔數(shù)字化重新成為各界關(guān)注的議題。大環(huán)境利好人工智能技術(shù)發(fā)展的同時(shí),文字識(shí)別商業(yè)化需求激增。提前布局細(xì)分需求功能,成就了掃描全能王在智能識(shí)別領(lǐng)域的“搶灘登陸”。
掃描全能王的母公司合合信息布局“人工智能+大數(shù)據(jù)”兩大技術(shù)領(lǐng)域,在“B+C”端同時(shí)取得商業(yè)化落地成效。
C端方面,掃描全能王目前不僅發(fā)力于國(guó)內(nèi)市場(chǎng),產(chǎn)品推出后免費(fèi)版曾在120個(gè)國(guó)家App Store效率類(lèi)榜單上排名第一;B端方面,通過(guò)迭代智能文字識(shí)別技術(shù),合合信息成功與世界 500 強(qiáng)公司中超過(guò) 80 家頭部企業(yè)達(dá)成合作,這些頭部公司為合合信息提供了重要的營(yíng)收支持。
合合信息目前正在科創(chuàng)板擬上市階段,為進(jìn)一步了解合合信息“AI+OCR”產(chǎn)品的特征,36氪對(duì)掃描全能王事業(yè)部負(fù)責(zé)人曹超陽(yáng)進(jìn)行專(zhuān)訪(fǎng)。以下為專(zhuān)訪(fǎng)對(duì)話(huà)內(nèi)容,經(jīng)編輯:
36氪:目前OCR市場(chǎng)增長(zhǎng)較快,您覺(jué)得掃描全能王從布局開(kāi)始到現(xiàn)在有哪些關(guān)鍵時(shí)間節(jié)點(diǎn)?分別是什么?
曹超陽(yáng):第一個(gè)重要節(jié)點(diǎn)是2010年前后,掃描全能王正式上線(xiàn)。掃描全能王母公司合合信息為產(chǎn)品提供了“智能文字識(shí)別”技術(shù)支持,使得掃描全能王成為最早將AI、OCR等技術(shù)綜合運(yùn)用的APP之一。
第二個(gè)節(jié)點(diǎn)是海外業(yè)務(wù)的蓬勃發(fā)展,掃描全能王屢次在海外App Store效率類(lèi)榜單上排名第一,讓歐美廠(chǎng)商也做起了“國(guó)產(chǎn)替代”。
第三個(gè)節(jié)點(diǎn)是2019年起開(kāi)始,掃描全能王發(fā)布的一些核心功能,比如“老照片修復(fù)”,還有后來(lái)發(fā)布的“書(shū)籍掃描”,“拍PPT”等,都切中了學(xué)習(xí)、生活、工作場(chǎng)景中被忽視的隱形需求。
現(xiàn)階段也很關(guān)鍵,文檔數(shù)字化已經(jīng)迎來(lái)了的發(fā)展高峰期。19年底20年初的疫情催化和數(shù)字化轉(zhuǎn)型大潮,讓文檔數(shù)字化重新成為各界關(guān)注的議題。近五年來(lái)政策在人工智能領(lǐng)域的利好和文字識(shí)別商業(yè)化需求的激增,也是公司“搶灘”市場(chǎng)的可貴機(jī)會(huì)。 目前,C端APP的月活全球已經(jīng)過(guò)億,其中有疫情催化的原因,例如公司的技術(shù)為遠(yuǎn)程辦公和生活場(chǎng)景中的各種識(shí)別、掃描提供了支持。究其根本,企業(yè)及政府的數(shù)字化轉(zhuǎn)型大潮已至,文檔的數(shù)字化對(duì)于業(yè)務(wù)沉淀、效率提升十分重要,智能文字識(shí)別技術(shù)正在不斷創(chuàng)造著市場(chǎng)的新增量。
36氪:使用場(chǎng)景方面,您發(fā)現(xiàn)OCR方面各個(gè)功能哪幾項(xiàng)是特別受歡迎的,一般是吻合了哪些痛點(diǎn)?
曹超陽(yáng):在掃描全能王產(chǎn)品迭代中,我們觀(guān)察到有如下功能點(diǎn)很受歡迎:
比如“拍PPT”功能。該功能用到了智能圖像處理模塊中的自動(dòng)切邊技術(shù),使圖像更清晰。拍完后跟原始PPT保持一致的閱讀與體驗(yàn)。主要是通過(guò)去除多余的背景和陰影干擾,為用戶(hù)提供更直觀(guān)的文檔閱讀體驗(yàn)?!芭腜PT”不僅能對(duì)拍攝到的PPT做圖像處理,讓其以完整的、被優(yōu)化過(guò)的圖像形式被保存,如果有文字識(shí)別需求,還能精準(zhǔn)地把PPT圖像里的內(nèi)容提取出來(lái)。
還有“書(shū)籍拍攝”功能。用到了智能圖像處理中的彎曲矯正和抗干擾技術(shù),可以把不平整的書(shū)頁(yè)拍成掃描儀掃出來(lái)一樣平整的頁(yè)面,把書(shū)上的手指、陰影去掉,盡可能還原平面閱讀體驗(yàn)。
“手寫(xiě)擦除”功能現(xiàn)在也很受關(guān)注,我們用“字跡擦除”技術(shù)幫助廣大家長(zhǎng)、學(xué)術(shù)“解放雙手,在家庭作業(yè)等場(chǎng)景里很受歡迎。掃描全能王用神經(jīng)網(wǎng)絡(luò)技術(shù)將待處理圖像劃分為手寫(xiě)“擦除區(qū)域”和印刷題干等“非擦除區(qū)域”,對(duì)噪點(diǎn)、陰影、背景雜亂等復(fù)雜場(chǎng)景進(jìn)行處理,同時(shí)運(yùn)用切邊矯正、圖像增強(qiáng)等濾鏡技術(shù),讓舊的卷子像剛發(fā)下來(lái)一樣,為用戶(hù)呈現(xiàn)清晰美觀(guān)試卷圖像。
36氪:商業(yè)化方向,掃描全能王20年開(kāi)始盈利營(yíng)收增長(zhǎng)迅速,原因是什么?
曹超陽(yáng):通過(guò)產(chǎn)品的不斷打磨,在日常辦公、生活領(lǐng)域,掃描全能王為公眾提供“口袋里”的便利。比如從2019年開(kāi)始推出拍攝證件照,只需在相對(duì)清晰干凈背景下拍攝人像,即可自動(dòng)生成不同尺寸,適用于各類(lèi)報(bào)名、簽證等場(chǎng)景的證件照,還能根據(jù)需求切換背景底色。除此之外,掃描全能王還上線(xiàn)了包括PDF加密、一鍵添加水印等功能,滿(mǎn)足了用戶(hù)在不同場(chǎng)景里的需求。這些都成為拉動(dòng)營(yíng)收增長(zhǎng)的關(guān)鍵。
掃描全能王的母公司合合信息是行業(yè)中少見(jiàn)的在“人工智能+大數(shù)據(jù)”兩大技術(shù)同時(shí)布局,“B+C”兩大領(lǐng)域同時(shí)取得商業(yè)化落地成效的企業(yè)。所以,除了在C端場(chǎng)景的應(yīng)用,智能文字識(shí)別技術(shù)做得越來(lái)越好,為也企業(yè)客戶(hù)帶來(lái)更好的體驗(yàn)感,已經(jīng)獲得了超過(guò)30個(gè)行業(yè)的客戶(hù)的認(rèn)可;世界 500 強(qiáng)公司名單中有超過(guò) 80 家與合合信息達(dá)成合作,這些頭部客戶(hù)為公司提供了重要的營(yíng)收支持。
36氪:掃描全能王梳理用戶(hù)場(chǎng)景的方法論有哪些?
曹超陽(yáng):從來(lái)源上,掃描全能王特別重視用戶(hù)反饋,會(huì)實(shí)時(shí)跟進(jìn)分析,每周也會(huì)分門(mén)別類(lèi)做匯總,幫助我們發(fā)現(xiàn)產(chǎn)品機(jī)會(huì)的迭代點(diǎn)。用戶(hù)的反饋實(shí)質(zhì)上是他們?cè)谑褂眠^(guò)程中想到的,能對(duì)我們產(chǎn)品精進(jìn)有幫助的點(diǎn)。我們會(huì)從這些點(diǎn)里去分析:有類(lèi)似場(chǎng)景的用戶(hù)多不多?他究竟需要什么?以此去提煉用戶(hù)的痛點(diǎn)來(lái)迭代產(chǎn)品。
比如拍PPT這個(gè)功能,就來(lái)自于用戶(hù)反饋。之前課堂上授課多用黑板,現(xiàn)在會(huì)用電子屏、投影來(lái)展示PPT。拍PPT的人時(shí)候通常離顯示屏比較遠(yuǎn),而且照片拍出來(lái)會(huì)有水波樣的底紋,也就是常說(shuō)的“摩爾紋”。我們就在嘗試:如何讓用戶(hù)拍攝時(shí)去掉底紋,以及在相對(duì)比較遠(yuǎn)的距離上拍出比較好的效果。
接下來(lái)我們也將繼續(xù)為免費(fèi)用戶(hù)提供高價(jià)值的功能,去解決他們?cè)谌粘I詈凸ぷ髦杏龅降膬?nèi)容掃描、識(shí)別問(wèn)題;有些用戶(hù)的需求比較深入、也更精細(xì),我們會(huì)作為付費(fèi)功能來(lái)對(duì)待。比如用戶(hù)拍完之后要發(fā)給同事,掃描、發(fā)送本身是免費(fèi)的。更進(jìn)一步,發(fā)送時(shí)要對(duì)PDF加密,這個(gè)加密就是一個(gè)付費(fèi)功能。
36氪:掃描全能王此前展示了很多利用AI將古文原文轉(zhuǎn)文字的案例,會(huì)涉及到識(shí)別率的問(wèn)題,這當(dāng)中需要解決的難點(diǎn)有哪些?
曹超陽(yáng):智能文字識(shí)別技術(shù)主要包含了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場(chǎng)景文字識(shí)別、自然語(yǔ)言處理三個(gè)核心技術(shù)層。就古文的識(shí)別而言,通常會(huì)涉及到行業(yè)存在兩大典型難點(diǎn),一個(gè)是圖像的優(yōu)化處理,再者是古文字的識(shí)別,具體要解決的問(wèn)題有下面幾種:
先說(shuō)古文字多種多樣的載體帶來(lái)的識(shí)別挑戰(zhàn)。公司曾在世界人工智能大會(huì)上展示過(guò)對(duì)甲骨文、鐘鼎文的識(shí)別,無(wú)論是龜殼,還是青銅器,它們的表面都會(huì)不同程度地存在彎曲、反光、凹凸不平的情況。在進(jìn)行文字識(shí)別之前,首先要將拍攝到的圖片素材在技術(shù)上進(jìn)行“拉平”等矯正處理,并做好對(duì)于陰影、噪點(diǎn)的處理,這部分就是智能圖像處理,也就是增強(qiáng)圖像的“質(zhì)量”。
除了硬質(zhì)的表面外,紙質(zhì)載體的識(shí)別也存在難點(diǎn)。比如在大會(huì)展出的《桃花源記》古籍識(shí)別項(xiàng)目中,古書(shū)的紙張比常規(guī)印刷用紙更薄,而且會(huì)有“毛邊”、“透字”現(xiàn)象,都會(huì)對(duì)文字識(shí)別產(chǎn)生干擾,這時(shí)AI就需要去區(qū)分哪些是使用者需要的文字內(nèi)容,遇到個(gè)別顯示不清晰的文字,還要通過(guò)智能算法去“理解”去判斷這個(gè)文字是什么。
36氪:古文識(shí)別率的難點(diǎn)是日常使用場(chǎng)景的難點(diǎn)的升級(jí)版嗎?AI技術(shù)還可以怎樣賦能我們的生活生產(chǎn)?
曹超陽(yáng):古文的研究是掃描全能王用技術(shù)促進(jìn)文化傳承和文物保護(hù)的社會(huì)責(zé)任體現(xiàn),也是產(chǎn)學(xué)研研究中的一個(gè)方向,古文識(shí)別中面對(duì)的樣本量小、非常規(guī)載體識(shí)別干擾因素多,是全行業(yè)面對(duì)的挑戰(zhàn)。
解決古文識(shí)別中面對(duì)的挑戰(zhàn),實(shí)質(zhì)上是解決文檔圖像質(zhì)量退化,比如頁(yè)面不清晰的情況,文字檢測(cè)及版面分析困難、非限定條件文字識(shí)別率低、結(jié)構(gòu)化智能理解能力差等全球性的難題。這些問(wèn)題的解決將為更廣泛的受眾帶來(lái)服務(wù)體驗(yàn)的優(yōu)化。
AI技術(shù)還幫助我們實(shí)現(xiàn)了多語(yǔ)言識(shí)別。實(shí)際上,針對(duì)古文的識(shí)別僅是智能文字識(shí)別應(yīng)用場(chǎng)景之一,掃描全能王還可識(shí)別中、英、俄等56種語(yǔ)言文字,被應(yīng)用于全球不同國(guó)家、不同行業(yè)的票據(jù)、證件、定制識(shí)別等多個(gè)場(chǎng)景。
通過(guò)挑戰(zhàn)并解決技術(shù)難點(diǎn),我們?cè)谛袠I(yè)中也落地了很多創(chuàng)新功能,比如已經(jīng)在掃描全能王中上線(xiàn)的“去屏幕紋”、“老照片修復(fù)”,以及上述提到的“手寫(xiě)擦除”功能,都是通過(guò)解決一個(gè)個(gè)“小眾”場(chǎng)景里的難題,最終服務(wù)于大眾;
還有一些功能已經(jīng)研發(fā)出來(lái),進(jìn)入許多大型企業(yè)的評(píng)估過(guò)程中了,比如“PS篡改檢測(cè)”,運(yùn)用了一種直接針對(duì)圖像特征信息的篡改檢測(cè)方法,在行業(yè)中屬于創(chuàng)新應(yīng)用,可稱(chēng)得上是“像素級(jí)”反詐工具?!癙S篡改檢測(cè)”技術(shù)能對(duì)身份證、護(hù)照、駕駛證、港澳通行證等證照類(lèi)別,以及增值稅發(fā)票、普通發(fā)票、小票、合同等多種文檔類(lèi)別進(jìn)行檢測(cè),在金融等很多行業(yè)都有廣泛的需求。
36氪:掃描全能王的技術(shù)應(yīng)用與行業(yè)相比有什么突出的地方?
曹超陽(yáng):母公司合合信息對(duì)AI底層技術(shù)的重視為掃描全能王承載億級(jí)別用戶(hù)的高頻使用提供了支持。目前,經(jīng)權(quán)威機(jī)構(gòu)檢測(cè),合合信息的印刷體文檔字符平均識(shí)別率為99.77%。在產(chǎn)品做小做輕的同時(shí),公司技術(shù)的識(shí)別精度仍然穩(wěn)居第一梯隊(duì)。這些都是對(duì)底層AI技術(shù)重視帶來(lái)的。
目前我們產(chǎn)品在全球范圍內(nèi)被廣泛使用,支持超過(guò)五十多種語(yǔ)言的識(shí)別。同時(shí)我們特別貼近用戶(hù)的場(chǎng)景需求,比如我們推出的高級(jí)文件夾,教資文件夾、考研文件夾,可以幫助用戶(hù)在掃描之外,一鍵實(shí)現(xiàn)文檔收納。
36氪:用戶(hù)使用便捷性方面,掃描全能王是怎么去優(yōu)化使用體驗(yàn)?
曹超陽(yáng):掃描全能王十分關(guān)注用戶(hù)痛點(diǎn),并針對(duì)性地進(jìn)行產(chǎn)品優(yōu)化。掃描全能王積累了龐大的用戶(hù)基數(shù),覆蓋各個(gè)職業(yè)和群體,幫助我們一起打磨產(chǎn)品,比如:
團(tuán)隊(duì)非常重視用戶(hù)反饋,每一條用戶(hù)反饋都會(huì)由客服、技術(shù)人員、產(chǎn)品經(jīng)理等實(shí)時(shí)跟進(jìn)和分析;在改善用戶(hù)體驗(yàn)的同時(shí),也會(huì)進(jìn)一步發(fā)現(xiàn)產(chǎn)品的機(jī)會(huì)和迭代點(diǎn)。
我們還升級(jí)了千元機(jī)功能體驗(yàn),直面畫(huà)質(zhì)與像素的挑戰(zhàn)。有不少老人、學(xué)生群體在使用千元機(jī),攝像頭、CPU和內(nèi)存等硬件條件比較差,因?yàn)镃PU限制,這些相機(jī)拍攝出來(lái)的圖片質(zhì)量不夠清晰,處理速度也比一般手機(jī)慢很多。技術(shù)團(tuán)隊(duì)為此特別成立了攻堅(jiān)項(xiàng)目組,針對(duì)千元機(jī)用戶(hù)的使用問(wèn)題進(jìn)行了一系列優(yōu)化,保障不同設(shè)備條件的用戶(hù)在使用掃描全能王時(shí)都能得到流暢的體驗(yàn)。從中也發(fā)現(xiàn)了很多迭代產(chǎn)品的機(jī)會(huì)。
關(guān)鍵詞: 識(shí)別古文字、修復(fù)老照片 AI讓OCR玩出新花樣 |36氪專(zhuān)