中国资本网 > 资讯 > 科技频道 > 正文
文本智能处理技术创造出“数字白领” 未来有望发挥出更多积极作用
2022-05-18 08:19:36来源: 南方都市报

“当你觉得这份工作非常枯燥,工作时觉得自己像个机器人,那这个工作其实就适合机器人完成。”近日,达观数据CEO陈运文在接受南方都市报记者专访时,分享了他对智能办公机器人未来发展的看法。他表示,达观数据今天所做的事,就是要帮助格子间里的白领完成繁琐重复的工作,把人类从枯燥的工作中解放出来。

在科技高速发展的今天,计算机已经学会自动收集数据撰写报告、根据材料自动撰写公文、自动录入财务报单等工作,而人类员工只需在审核无误后轻点鼠标,繁琐重复的工作便轻松完成了,这些看似科幻的图景已出现在现实生活中。

达观数据便是一家专注智能文本处理技术和智能办公机器人服务的公司,是国内文字资料智能化处理领域的第一家国家级专精特新“小巨人”企业。该公司打造的“数字员工”已经走进银行、海关、政务部门等多个机构与行业,协助人工完成业务流程自动化,提高企业效率与智能化水平。

陈运文告诉南都记者,技术发展会代替很多的工作岗位,但同时也创造了新的工作岗位,而技术的发展最终是要将人类从繁复的工作中解放出来。

一 当你工作时觉得自己像个机器人,这个工作就适合机器人

南都:在国内,文本处理技术的主要应用场景和技术门槛在哪里?

陈运文:百度、搜狗、阿里巴巴、腾讯等互联网巨头的应用比较早,也比较全面的应用了文本处理技术。比如搜索引擎,底层核心技术就是文本处理技术,在搜索引擎输入文字,文本处理技术在后台理解输入文本的意思,并从海量数据中将相关内容找出来。

我们认为文本处理技术在TO B企业服务界的价值更高,但TO B领域的文本处理技术难度和门槛也更高。文本处理技术的难点有两个方面。其一,文字非常抽象与凝练,短短几个文字就能表达非常丰富的含义,计算机解读高度凝练的中文语言,难度是非常大;其二,语言文字处理是人类的高级认知,机器人要掌握行业的“知识图谱”,具备专业的阅读能力才能够阅读专业的文档资料,这些技术门槛使得文本的自动化处理和应用存在很多难点。

不过,文本自动化处理的应用场景非常广阔。文字资料的处理普遍存在于每天的工作中,而智能化的文字资料处理技术可以大幅提升人类日常文字办公的效率,为很多行业带来颠覆性创新。虽然非常难,但非常有价值,所以我们下决心把它做好。

南都:每天,我们的工作生活都产生海量的数据,其中有大量的无用信息,达观数据如何完成价值提取?如何开拓场景应用?

陈运文:首先要让机器人阅读大量人类写作的文字资料,训练它的语言模型。“读书破万卷,下笔如有神”,这句话对智能机器人也适用,在计算机看来,大量的文档资料其实是以文字形式承载的数据,系统会从大量数据提炼出语言模型,语言模型构建完成后,就可以训练机器人完成日常工作。

读和写是人类日常重要的操作,我们分别训练了不同的语言模型,去完成读和写的工作,在很多行业里面得到了应用。比如帮助银行完成信贷审查的工作,帮助航运物流企业处理订单,完成货运订仓工作,自动化完成海关的进出口报关工作。

而在文字创作领域,我们开发了AI机器人,通过学习人类写作的大量文档资料,总结写作方式,完成相应的工作。如政务办公需要写作公文,而公文写作有非常严格的规范,字体、字号、段落等都有严格标准,机器人学习大量优质的公文后,就可以自动起草公文或报告。目前,我们的系统已经在很多地方发挥作用,在税务局、人社局、公安局、食品药监局等,完成审批、核验、制证等工作,完成原来依靠大量人工才能完成的工作,提升政府的行政效率。

南都:目前,达观智能办公机器人主要应用到哪些场景?

陈运文:主要有三类场景,第一类场景是大量的重复性工作。如财务工作,工作人员要理发票,并将发票内所有详细信息录入到系统中。再如海关报关工作,每个商品都要填报关单,工作量非常大,而且繁琐重复,这些量大繁琐的工作就适合机器人完成。

第二类对准确率要求非常高的工作,常见于金融行业。银行、证券、基金、保险等领域对文本数据的准确率要求非常高,由人来处理这些事务非常辛苦,所以,我们可以将复核等工作交给机器人做。另外,政务公文对准确率要求也非常高,姓名、职级、顺序不能搞错,公文的段落篇章都有严格的规范,机器人也可以完成稿件的复核或政府公文的复核工作。

第三类是跨系统的工作。在办公过程中,我们常常要在 A系统查询数据,B系统核验,再到C系统下载相关文档等,需要同时使用多个系统。智能办公机器人可以自动到各个系统完成数据的查验、读取、分析、录入等工作,提升需要横跨多系统的工作的效率。

我们有个常见的评判标准,当你觉得这份工作非常枯燥,工作时觉得自己像个机器人,那这个工作其实就适合机器人完成,这是这些场景的共性所在。

二 人工智能技术需要新突破,把情感做到比较好的仿真水平

南都:利用智能办公机器人参与到具体的工作中,一旦出现差错,这种权责如何界定呢?

陈运文:所有人工智能系统落地过程中,都会面临此类问题,我们的解决方法是把1%的最终决策工作交给人来做,把99%的前期的处理工作交给计算机来做。可以把计算机看做助手,帮助人类完成繁琐的前期工作,最终的决定由人来做,如此可以把权和责划分清楚。

南都:我注意到,达观数据的智能办公机器人能自动阅读,也能自动写作,这样的创作如果对比人类的创作水平,能达到什么样的水平?

陈运文:我们把自动写作分成两类,一类是套路性写作,一类是自由式写作。套路性写作是工作中遇到的比较多的类型,如工作汇报、企业月度或季度总结、会议纪要等。套路性写作的特点是题材相对固定,格式规范有相对明确的套路,而且有过往大量的文章资料参考,因为有大量数据的规律可循,所以我们的机器人在套路性写作方面可以达到和日常办事人员完全一致的写作水平。

而自由式写作,仅让计算机来写,很难达到人类可以认可的水平。所以我们采用启发式的写作方式,这种方式能够让机器人达到比较高的创作水平。具体方法是,机器人先写100字,如果这100字和人类要求的写作风格匹配,就让机器人沿着100字续写。如果这100存在细节问题或者偏离主题,人类可以在100字的基础上修改,修改后让计算机沿着改好的内容再续写100字,人类再针对写出来的100字修改,改完以后再写,这是人类写作和计算机写作相互交互的过程。换句话说,机器人的写作方式和小学或者初中生的写作方式不一样,机器人是人机充分结合的写作方式。

我们的技术已经在小说写作领域得到了初步应用,主要在稿件润色方面发挥作用。就目前而言,小说梗概由人类作家来完成,但故事梗概完成之后,要填充很多细节,这些细节的填充是由机器人完成的。

南都:在您看来,制约机器人的感性创作的因素是什么?

陈运文:机器人很难突破过往的写作框架,也很难像人类一样写得出彩生动。因为这需要把人类的情感注入到文字中,而情感是一件很难标准化的东西,比如我们看一句话,有人有点感动,有人非常感动。我们今天讲,所有的文字处理技术都需要大量的数据建模工作,数据建模的工作第一步是建立标准,然后量化,然后开发数学模型完成建模工作。但情感恰恰难以量化分析,不能建立标准,就很难用一套自动化的方式完成这项工作。所以,我认为需要想出更好的方法突破现有的人工智能技术框架,才能够把情感做到比较好的仿真水平。

三 “数字白领”将有长足发展,但机器人仍难以取代创造性工作

南都:技术到底给人类带来什么?自动化对于蓝领工人而言,或从事产业链下游工作的人,技术对他们来说是很残酷的,因为他们面临着被取代。“数字员工”似乎也在抢夺白领的工作机会。

陈运文:其实今天我们觉得一些很残忍的事情,如果到未来50年再回头来看,会发现只是稀松平常的事情。我经常举一个例子,在家庭洗衣机发明之前,无论美国,还是欧洲都有大量专门洗衣服的洗衣工厂,很多富裕家庭不洗衣服,而是把脏衣服交给洗衣工厂,芝加哥的洗衣工厂最多有2000多个女工。在洗衣机发明并被日本人轻量化和批量生产后,那个时候大家也有同样的顾虑,洗衣女工要何去何从?但在今天看来,这些话题不值一提。

我们相信,技术发展会代替很多的工作岗位,但同时也创造了新的工作岗位,技术发展会将人类从重复的工作中解放出来,这是非常人道的事情。我们不希望人们就像《摩登时代》里所演出的那样,工人们每天在流水线上拧螺丝。今天我们做的工作,就是希望能够代替格子间里的白领完成繁琐重复的工作,把人类从这些枯燥的工作当中解放出来。

南都:试问,未来的哪些业务场景是智能办公机器人难以取代的?

陈运文:我们的技术对自由式和创造性的写作,或者说创造性的文字资料处理工作涉足不多。我们人类非常聪明,有创造性,只有没有任何创造力的工作,每天像机器人一样重复机械、有规律的工作需要得到变革。人类智慧的结晶,一定的是充满创造、充满情感、充满想象的,这是智能机器人难以取代的。

南都:在数字经济时代,您如何看待智能办公机器人的未来发展前景?

陈运文:我们看到,全球数字化的竞争愈演愈烈,如果企业率先采用新技术,就可以迅速降低企业成本。类似技术在北美地区发展得非常迅速,有很多“数字白领”的金融企业得到了长足的发展。我们作为中国的科技企业,也需要尽早地突破智能办公领域的技术壁垒,把这些技术应用到更广阔的场景里去。

在中国,以文字资料处理为业的相关人士,初步统计超过了4000万人,包括600万的公务员和3000多万的白领,市场非常广阔。而且,新一代年轻劳动力短缺,让人类陷入繁琐重复机械化的工作没有价值,我们应该把人解放出来做真正有创造性、前瞻性的工作,重复的工作应该让机器人去完成。无论从市场需求的角度,还是从现实的劳动力市场情况的角度来看,都非常有前景。

南都:达观数据近期完成了5.8亿元的C轮融资,公司未来的发展规划是怎样的?战略目标是怎样的?

陈运文:作为中国在文字资料智能化处理领域的第一家国家级专精特新“小巨人”企业,我们希望能够扛起文字资料智能化处理的大旗,向学术界的专家教授们请教前沿技术,向产业应用界的专家学习专业知识,把文本智能处理系统开发好,能够落地应用,为整个社会更高效率的运转贡献我们自己的力量,这是我们的目标。

南都:中文世界的专业术语非常多,让机器人理解这些文本的投入会不会非常大?

陈运文:在以前,每个领域需要非常漫长的积累,才能够建立几个语言模型,而在大数据时代,获取语料数据的难度和门槛低了很多。在过去的6年多的发展过程中,我们已经积累了超过200多亿字的语料数据,一个人一辈子都看不完,但机器人可以对200亿字的数据反复的从头到尾阅读、分析、建模,对文字提炼和建模的效率比以前要高很多。

我认为,大数据时代能够让智能技术的推进速度提升很多,数据智能就是有多少数据就有多少智能,今天的计算机能完成很多文字处理工作,也有赖于积累的大量数据,并且对它做反复的建模。现在是数据爆炸的时代,我们相信未来能够攻克很多技术难关。

南都:贵公司将文本智能处理技术类比活字印刷术,您是如何看待二者的相似之处?

陈运文:活字印刷术是宋代毕昇发明的技术,无论是活字印刷,还是雕版印刷,都是文字处理的新技术。新技术带来意想不到的应用价值,印刷术中国普及后,中国社会的繁荣、经济的发达、文化艺术的昌盛,都在明清时期进入高峰。四大名著之所以出现在明清,也是因为印刷术让小说广泛传播有了非常好的技术基础。

所以,我们认为,文本智能化处理技术和宋代活字印刷术类似,表面上只是文字处理领域的科技创新,但我们相信通过科技创新的力量,能够推动下游行业的变革和发展,带动深远的行业变革。我们今天做的事情,就是难而有意义的事情。文本语义理解因为高度抽象,是人工智能领域中技术难度最高的领域,被微软创始人比尔·盖茨称为“人工智能皇冠上的明珠”。我们希望能够把这件事情做好,做成行业的标杆。

关键词: 活字印刷术 文本智能处理技术 数字白领 技术发展替代工作岗位

相关新闻
专题新闻
  • 河南最大扶贫搬迁社区飘起幸福“年味儿”
  • 虽说万物皆可盘 但盘得住时光的才是王牌
  • 霍尔果斯:冯小刚等明星资本大撤离
  • 开心麻花电影频出
  • 男频IP为何“武不动乾坤,斗不破苍穹”
  • 《铁血战士》北美市场票房跳水 又玩坏一个大IP?

豫ICP备20022870号-9

Copyright © 2011-2020  资本网   All Rights Reserved. 联系网站:553 138 779@qq.com