点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
图书馆源于保存记事的习惯,经历了早期以神庙为代表的古代图书馆,以藏书楼为标志的近代图书馆,利用数字化等科学技术的现代化图书馆三个发展阶段。如今,随着信息技术的发展以及人工智能的出现,图书馆开启了走向智能、智慧的演进和发展之路。2003年,芬兰奥卢大学图书馆正式提出智慧图书馆,并以“Smart Library”命名,解释为“能够被用户感知,且不受空间限制的移动图书馆”。
1月22日,论道第24期“AI时代,智慧图书馆该如何重构”,AI TIME特别邀请了清华大学图书馆副馆长窦天芳、浙江大学图书馆副馆长黄晨、南京大学图书馆副馆长邵波和智谱•AI CTO张鹏,由AI TIME负责人何芸主持,共话AI时代的智慧图书馆!
一、人工智能与智慧图书馆
近年来,国内外众多学者开展了人工智能在图书馆领域的研究和应用。1990年,国外学者Riddick JF将人工智能技术引入到图书馆的参考服务中。国内图书馆界对人工智能的研究起步较晚,先后有王世伟、吴建中、邵波、张兴旺等学者对人工智能与图书馆开展了相关理论研究。中国国家图书馆利用人工智能技术通过人脸识别实现图书借还,南京大学图书馆、深圳图书馆等也在图书馆智能机器人方面开展应用性研究。
1.1 技术背景——知识图谱
知识图谱最早源于谷歌的一个项目,目的是为了构建知识的表达方式,帮助搜索用户提高检索的效率。赋能智能化查找利用的主要是结构化的知识,充分让检索系统或知识导引系统理解用户的意图。图书馆在某种程度上还是要解决用户能够找到相关信息,以及能够很好地利用这个信息的问题。邵波表示人工智能进入图书馆行业,更像是图书馆数字驱动的过程,还需要大量的劳动密集型的工作来促进它的发展。
目前对数据集合进行搜索的技术在图书馆领域是比较成熟的。一方面是基于用户行为的关联,通过这些关联来做智能推荐;另一方面是基于文献内容的挖掘,这跟知识图谱密切相关。但当前还没有一些特别成熟的产品。张鹏立足于技术的角度,阐释了知识图谱想要真正发挥作用,需要着手的两个层面:规模和精度。而人机协同的工作模式,既可以利用机器强大的算力快速大量产生知识,又可以利用人已有的先验知识帮助机器提升,从而形成一个正向循环。
1.2 图书馆助力学科建设之碍
当前大多数做情报分析的学校都是使用Elsevier或者WOS的工具和数据,由于应用的工具和数据都来自同一厂商,最终的分析结论必然不会有什么差异性,对其价值黄晨持怀疑态度。如果图书馆能和国内人工智能领域的专家或公司合作,做出自己的分析工具,跟踪学科数据和学科前沿,产出一些实在的报告,更具有参考价值。智库的真正作用,或者AI对学校决策参考咨询所起的作用,关键在于是从不同的角度和维度做出来的,而且在逻辑上自恰,在实践当中被证明有一定的预见性,这个才真正有价值。
邵波认为我们当前对人工智能赋能高校重点学科建设态势分析的想象空间有点大,实际上更应该关注人机网络方面的东西。很多报告往往是初始阶段很有震撼力,经过两个月或者几个月的数据更新,我们再做一个报告,它的价值会往下递减。当然从技术发展上来讲,未必不能够预知将来。
1.3 多源异构知识融合路漫漫
目前图书馆的基础工作有一大部分要做多元异构数据融合,窦天芳提出,知识是观点,是对数据加工整合之后形成一种结论性的有价值的观点。图书馆目前做的更多的是数据融合。数据是对客观事实的表现图书馆目前处理大数据的能力不足,但是可以识别并做好“小数据”建设,用“小数据”来撬动“大生态”,或者是改变知识传播生态。准确识别这个小数据需要图书馆行业的智慧,使得这个小数据不仅能够服务图书馆行业,还能够与目前的大数据环境相融合来产生更多的价值。
如果想要做到多元异构知识融合,要让机器能够自动分析,就得让做出来的数据和成果是能被机器读的,但这个前提是有人去做大量的标记。人工智能的光鲜结果都是基于后台有人去做很多的脏活累活,黄晨进一步揭示道。有监督学习,也是基于大量的标引,更令人期待的是无监督学习。我们还需要做大量的基础工作,并不是说一个人工智能算法,一个技术引入,就一定能够很好地发挥它的作用。一个人工智能的设备引入到图情领域,引入到图书馆,前期阶段往往是最痛苦的。
二、AI时代图书馆知识服务场景
2.1 千人千面与读者行为分析
千人千面的个性化服务,是基于读者行为分析做出来的。读者行为数据的来源呈现多元化特征,主要是用户和图书馆之间产生的交易数据维度比较多,包括使用文献、进出入图书馆,还有一些个性化空间。但是真正涉及到行为分析,里面还有很多模式或者算法的问题,需要图书馆与其他部门的联动,或者结合某一个应用场景,来提炼读者的行为。我们有必要把读者尽可能多的信息整合起来,但是图书馆外的信息获取是一大难点。
邵波认为在已有的体系中,读者行为分析更多的只是停留在理论探讨上,即便去做也只能基于读者在馆的行为做不完整的分析,它的应用广度或者价值怎么样,可以打一个问号。不过学生在图书馆产生的行为数据,和其他的行为数据做叠加,共同支撑某应用场景下的行为分析非常有可能,也是目前在做并且产生了一些积极影响的。目前国内外部分图书馆已有成功的实例,如清华大学的“小图”通过AIML语料库进行人机交互,南京大学图书馆的支持图书定位、检查书架排放的智能盘点机器人等。
从文献层面上,窦天芳诠释了千人千面需要基于文献或信息构建一个以用户为中心的检索工具,处理海量信息来精准满足用户需求。一方面是学者画像,找到与他匹配的文献数据,切实为学者提供真正贴心个性化的服务;另一方面是读者画像。用户画像最早是由交互设计之父Alan Cooper提出的,他认为用户画像是建立在一系列真实数据之上的目标用户模型,而有关读者的相关数据沉淀在图书馆的不同系统里,我们要把这些数据提炼出来,通过一些主数据关联到一起,从而为读者做一个行为数据画像。现在图书馆更多的是面向学院,甚至面向学院的某类学科,图书馆针对相应的学科提供一些特有的服务,这也是一个走向。
从个人层面讲,读者的偏好和需求不是固定不变的,同一个读者的数据画像也会随着时间推移不断调整,图书馆很难把握这个动态的变化过程。即便能实时更新数据,并且实时调整读者画像,也会大大增加终端服务器的运算量,使得系统运行缓慢,延迟推荐时间,降低用户使用体验。搭建云服务平台未尝不是办法,但也要考虑到云端处理技术、读者信息安全等诸多问题。总之,提高智慧图书馆的个性化服务水平,做到千人千面,目前来讲还是一个理想状态。
2.2 治理与开源数据的构想
数据治理是我们国家正在考虑的问题,其中一个重要部分是数据的权属、共享和应用。用户在图书馆的行为数据,权属应该归到图书馆还是用户本身,是要讨论的问题。图书馆掌握了大量的用户行为数据,能够开放应用到什么程度,也有法律层面的问题,而且图书馆沉淀的行为数据和其他机构的行为数据之间可能会做互联互通。窦天芳认为打通这些数据的过程可以从两个方面考虑。一是立法和制度上的保障,这些保障除了要有隐私保护,也要给出数据共享的渠道,我们要考虑在何种框架或场景下下,支持不同机构或者不同权属的数据共享和集成。二是技术层面,不同机构针对同一个群体的数据做叠加应用,双方互相交换数据时要做好信息安全和隐私保护,既不不暴露用户个人隐私,又能相互信任实现数据共享。这需要在技术层面有所突破,比如利用区块链技术增强信息的安全性等。
开源数据服务这种方式也是一种尝试,前提是我们能保证用户的信息隐私安全,利用这样一些数据对用户进行个性化的画像,还有后续的服务。张鹏解释开源数据的好处在于它不是一个封闭的系统,而是一个开放性的系统,大家会更倾向于自由使用开放性资源。我们也希望以后能通过数据的开源,吸引更多的用户行为,从而收集到更多的用户行为数据,基于这些数据做更准确的个性化服务。但是目前真正有价值的数据几乎都没有开源。在这种情况下,个性化服务就是一个近似个性化的服务。图书馆可以在理论以及理想上提出很多愿景,但是真正落地到实现困难重重。
近几年大家比较看重联邦学习技术,它的解决方案是让所有数据不离开它所隶属的权属技术,在本地和其他数据中进行联合分析和挖掘,通过联邦学习方法可以保证数据私有性、保密等问题。当然这个技术目前应用比较多的还是在金融等行业里,在图书馆场景当中,是否有可能存在应用和落地的可能,是后续大家会继续探讨的方向。
三、展望智慧图书馆的未来
未来的智慧图书馆,无论技术发生怎样的变化,无论它的职能地位会根据不同时代的需求有所变化,都会以某种形式存续下去。AI有可能只是图书馆发展过程中的一个环节,将来还会出现其他的方式跟图书馆打交道。哪些岗位会被AI所淘汰,学者都在讨论这个问题,黄晨认为图书馆里凡是基于规则和数据的工作,凡是重复性无创造力的工作都有可能被替代。他开玩笑说第一个被替代的可能就是馆长,按照管理学的说法,一个领导者最重要的是做好找钱、找人和承担责任三件事,但是能做这三件事的馆长比较少。图书馆的职位在不断变动,AI只是一种新的形式替代,它不是竞争性的替代,而是解放式的替代,被替代的这些人会去做人工智能目前还做不了的有更高价值的事情。图书馆到最后留下的可能就只是纸制本资源。
不管是图书馆,还是社会,在物理世界和虚拟世界之间,会有一个更好的融通互动的过程。以后的人可能会人机共生,所有数据极尽具体化和个性化,最了解你的是你身上的芯片。如果选择让渡这部分隐私,也有据此来为你提供个性化服务的公司。从这个角度来讲,图书馆不需要自己去开发人工智能工具和引擎,今后一定是商业来做,商业才是推动技术发展的关键要素。同时图书馆也要发挥自己的优势,并且从技术上接受互联网以及外来技术的引进。
图书馆智能分为三类,一是保存人类的智慧结晶,如书籍、资料、数据;二是研究,基于这些数据为输出研究成果,包括辅助学科建设工作;三是服务,服务于机构,但更多的可能是服务于个人,我们如何去利用技术来改进服务形式。张鹏认为不管技术如何变化,以及跟图书馆如何结合,还是会在这三个职能当中产生作用。
e m t
往期精彩
AI i
整理&排版:岳白雪
审稿:黄晨、窦天芳、邵波、张鹏
AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!
请将简历等信息发至yun.he@aminer.cn!
微信联系:AITIME_HY
AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。
更多资讯请扫码关注
(直播回放:https://b23.tv/HdFBOo)
转载:https://blog.csdn.net/AITIME_HY/article/details/113409665