《研究生通讯》 2020年第2期(VOL68).pdf
……29 用点子智慧 “ 说出我们心底的爱 逛博物馆也要 】 ”……27 ……23 【生活篇 机器学习在图书情报领域的应用研究 ……04 自驾游 【光影篇 ……08 ……12 ……18 的新闻文摘生成方法 TextRank 生鲜农产品电子商务客户满意度研究 基于加权 国内公共图书馆创客空间构建研究及启示 ……01 环境下高校图书馆数字参考咨询面临的困境与思考 web2.0 】 基于高校图书馆的科技成果转化平台构建 【学术篇 新疆 阮 —— / 伟南 】 ……31 目 CONTENTS 录 年新生开学典礼暨回馆教育 2019 ……39 中国科学院 ……35 】 中国科学院文献情报中心研究生会竞选大会 【简讯篇 中国科学院文献情报中心 主编:刘敬仪 执行主编:阮伟南 副主编:郝雪丽,杨晓 美编:阮伟南,任娇菡,徐曾旭林,张敏 封面:阮伟南 封底:阮伟南 基于高校图书馆的科技成果转化平台构建探析 2018级硕士研究生 贾玲玲 摘要:[目的/意义]我国科技投入大,但成果转化率不高,而高校的科技成果转化现状更差强人意。以 转型后的图书馆为中介,搭建科技成果转化平台,解决高校与企业信息不对称问题,提高科技成果转 化率。[方法/过程]本文深入分析了科技成果转化现状、图书馆新型服务模式以及从外部政策、内部优 势和特色服务等方面分析以高校图书馆为桥梁,搭建高校科技成果转化平台的优势,并提出了科技成 果转化平台的构想。[结果/结论]以高校图书馆为中介支撑搭建科技成果转化平台,一方面提高了图书 馆的核心地位,另一方面为科研人员和企业提供了科技信息传递、科技成果交易、科技成果评估等服 务,能够提高科技成果转化效率。 1 引言 政府将“提高自主创新能力,建设创新型国家”作为“国 家发展战略的核心,提高综合国力的关键”。国家着力于科研成 果建设,注重科技成果的转化,鼓励全方位、多角度的提供科研 成果转化渠道和途径。高校作为科研成果的重要发源地,其每年 的科研项目较多,但很多项目立足于教育领域缺乏对市场需求的 把握,科研项目脱离市场,且项目进展情况不明确,科研质量无 把握,导致了高校科研成果停滞不前,无法转化和推广。与此同 时,企业为应对挑战,需要把握市场最新动态,需要情报咨询服 务,需要大力投资,引进先进技术,提高自己的核心竞争力,因 此企业对高校科技成果的需求较大,但对高校科研成果进展不明 确,缺乏对最新成果的掌握,更无法引进。基于现状,在科技兴 国的政策背景下,政府提出产学研一体化的理念,建立孵化器、 科技园、科技中介等机构促进成果转化,但效果不佳。为此,笔 者提出让高校图书馆参与到科技成果转化研究中,图书馆对高校 而言,能与科研人员接触较深,通过文献服务、嵌入式学科服务 了解科研进程,能够把控科研质量;对企业而言,图书馆为企业 提供专业化情报服务而了解市场需求,为政府提供智库服务而了 解政府政策,因此,高校图书馆与科研人员和企业均有深入了解 和接触,能够作为桥梁,引导高校科技成果转化、为企业提供战 略建议。 本文从高校图书馆视角处罚,搭建科技成果转化平台,该平 台主要由嵌入式知识服务系统、前沿动向互动系统、项目进展服 务系统等三个模块组成,并对平台的功能、平台实施路径和保障 机制进行了详细阐述,力求最大化提高科技成果转化效率,实现 企业技术需求和高校科技成果的“无缝”对接,并积极探索供求 双方的交易模式。 形成产业规模的仅有5%,科技成果转化率仅为10%左右,远低于 发达国家40%的水平,更低于美国80%的科技成果转化率水平。 而科技成果对经济增长的贡献仅为39%,离达到创新型国家的 70%仍有较大差距。 高校科技成果转化是国家创新体系的核心内容,是高校与社 会接轨的桥梁。通过数据我们可以发现,我国科研投入巨大,但 成果产出较小,创新能力不足,科技成果转化水平不高。究其原 因,是因为创新成果的科技市场转化体系未真正建立,很多成果 并没有转化为企业的生产力。因此,当前急需打破传统模式,基 于互联网的新理念,以转型后的图书馆为支撑,搭建科技成果转 化平台,解决高校企业信息不对称的问题。 3 图书馆新型服务模式 图书馆是大学校园中信息资源的提供者,是创新成果的发 源地,为科研、教学提供优质的资源与服务。高校图书馆隶属于 特定的高等教育机构,其基本职能是满足教学、科研、社会服务 情境下的信息查询与获取。在互联网技术发展浪潮中,图书馆积 极适应环境进行了颠覆式变革,在接受挑战的过程中也迎来的各 种机遇,扩展领域范围,提升业务水平等。高校图书馆能够直接 接触到科研人员和科技成果机构,以自身的优势提供文献服务、 情报服务、嵌入式学科服务、智库服务、智慧服务等一系列服务 ,在建立数据库、信息平台等方面积累了丰富的经验。 3.1信息资源多样化 从传统的纸质资源到电子化资源,从馆藏资源到网络资源 ,从书本资源到多媒体资源,图书馆信息资源在不断的丰富。图 书馆已不仅仅是馆藏资源的整合组织,需要对网络资源、开放的 信息、多媒体非结构化的信息资源等进行组织整理。 3.2 空间布局创新化 2 科技成果转化现状 创新能力关系着国家经济命脉,是国家软实力的重要体现 。十八大以来,习近平总书记提出建设创新型国家和科技强国的 战略目标,国家出台了一系列落实和完善支持创新的政策措施, 以鼓励新思路新视角实现科技创新,而科技成果转化的数量、质 量和速度则成为科技创新的重要参数。 迄今我国有科技人员3000万人,有从事科技研发的人员106 万人,分别占到世界的的第一位和第二位。我们的研发投入近年 来每年都以两位数的增速快速增长,2017年全社会R&D支持预计 达1.76万亿元,比2012年增长70.9%,研发总投入已占到GDP的总 量的1.98%,这同中等发达国家对科技的投入基本相当。科技进 步贡献率从2012年52.2%升至57.5%,国家创新能力排名从2012年 第20位升至第17位。 据资料显示,我国每年至少有3万项科技成果问世,有7万项 专利成果诞生,但其中能够转化并批量生产的仅有20%左右,能 信息数字化资源的普及,突破了时空的限制,人们开始习 惯随时随地阅读电子资源,到馆阅读开始边缘化,同时大量的电 子化资源也为图书馆节省出更多空间。新型图书馆有必要进行空 间布局再造和创新,提供信息共享空间、阅读推广等特色服务, 吸引到馆用户并为他们提供优质创新化服务。 3.3 网络技术应用化 数字图书馆的建设为图书馆带来了新的技术,从信息获取、 存储、利用、处理等各个方面都能够感受到网络技术带来的便利 。现在新型图书馆已经具备了语义网技术、物联网技术、跨库检 索技术、个性化定制技术、情报咨询服务技术、平台架构等技术 ,适应社会需求,有创新和转变搭建各种平台的技术支撑。 3.4 复合人才涌现化 图书馆的发展已不仅仅是提供简单的信息搜索服务,而是 需要具备信息组织的专业化知识和了解追踪不同科技发展趋势及 市场需求的能力,不仅仅是简单的文献服务工作者,而是高层次 的情报服务人员、知识服务人员、市场分析人才。 1 /page 3.5 角色地位转变化 传统的图书馆作为用户与文献服务商之间的中介,但数字 化网络信息的发展使图书馆的中介职能弱化,核心地位边缘化, 文献服务商开始与用户直接建立关系。基于此,图书馆必须迅速 转变自己的角色地位,开始寻求其立足之本。深入用户,提供嵌 入式服务、个性化不可缺少的特色服务;深入服务商,为用户提 供从科研发现到出版发行的一条龙服务。 3.6 服务理念重要化 以用户为中心,以需求为导向,将服务作为主要工作。不 仅提供到馆服务,而是需要走近用户,提供嵌入式服务、专业化 服务,以文献信息服务为基础,提供新型的分析服务、情报服务 、可视化服务等智慧服务。 4 图书馆搭建科技成果转化平台 的可行性分析 4.1 外部环境共建平台 近年来国家对于高教事业高度重视,从政策上看,先后颁 布了一系列政策方针,注重普通高校向应用型大学的转型,强调 高校发展科技产业,以转化高新技术成果并实现产业化为目的, 实现产教融合发展,充分发挥大学科技园在成果转化中的作用; 从经济上看,国家教育经费投入逐年增加,从教师工资到科研基 金项目费用以及财政教育拨款,政府高等教育投入高。近年高校 在校生和专任教师数目增长,科研项目数量增多,对信息资源的 需求不断增加。面对良好的政策和扩大的需求,图书馆作为高校 事业发展的核心、科研成果的发源,正成为了其发展的高峰期。 学科馆员嵌入到科研不同阶段,提供立题查新、学术跟踪、成果 展示等,学科馆员嵌入到科研团队,对科技成果提供人员和专业 技术帮助。图书馆通过嵌入式的学科服务了解科技成果的进展阶 段,把握项目动向,为科技成果转化平台提供了成果动向追踪的 保证。 (3)智库服务 图书馆提供的智库服务,能够跟踪市场政策体制动向,向科研人 员、企业提供政策指引。智库服务是图书馆走出去的一个重大体 现,是知识服务产生经济价值的表现。智库服务为搭建科技成果 转化平台提供了政策动向支持。 (4)出版服务 出版服务是科研成果展示的过程,是一个扩展的新的业务增长点 ,是图书馆迈向市场的重要战略。出版服务中涉及的知识产权问 题、版权归属问题、利益分配问题为搭建科技成果转化平台中涉 及的这些问题提供了参考。 5 高校科技成果转化平台构建 5.1 平台框架设计 4.2 独特的优势助力平台 (1)丰富的馆藏资源 高校图书馆是学校的文献信息中心,收藏着大量的书籍、 报刊、杂志、期刊等资源,具有文献齐全、专业面广、信息量大 、知识性强、传播度高等特点。图书馆致力于服务教育科研工作 者,因此是科研人员信息数据源的主要来源。社科院新闻所的调 查表明,我国企业所需经济信息中68%来自报刊,36.1%来自广 播、电视,可见服务于社会经济信息的绝大部分是图书馆所拥有 的文献资源。无论是科技成果的研发人员还是科技成果转化的接 受单位企业,都需要以图书馆信息资源为依托,创造科研成果、 转化科研成果,以图书馆为纽带,疏通科研成果转化过程中的障 碍。 (2)先进的技术支撑 互联网环境下的图书馆已具备了先进的技术设备。包括科研 工作者所需的信息搜索技术、信息分析可视化工具、前沿热点分 析技术、个性化推荐跟踪技术;企业发展研究所需要的专利分析 技术、市场数据分析技术、语义网、云计算、大数据、人工智能 等技术。已具备能够向科研工作者读者和企业用户提供高质量、 高效率、安全性较高的技术基础,更具有搭建信息平台的技术能 力。 (3)优秀的复合型人才 在传统图书馆转型之后,图书馆员以不是简单的文献工作 者,而是能够走出图书馆,走向市场的信息工作者、知识工作者 ,是一种新型的复合型人才,既具有信息分析的能力,又具有掌 握市场了解趋势动态的信息渠道。图书馆员的综合能力也是高校 科技成果转化发展中比不可少的关键人才。 4.3创新服务支撑平台 (1)文献情报分析服务 新型图书馆的文献情报分析服务,可以基于文献数据、网 络数据进行科学前沿分析,还可以根据市场数据、专利数据进行 市场前景分析,能够了解市场,让科研立项更符合市场需求,为 搭建科技成果转化平台提供了分析匹配的核心技术。 (2)嵌入式学科服务 提供嵌入式学科服务,了解科研人员动向,随时提供科研帮助。 该平台主要由嵌入式知识服务系统、前沿动向互动系统、 项目进展服务系统组成,每个系统中又包含了各自的功能特色。 图中单向箭头表示信息流动,双向箭头表示信息交流传递。 5.2 平台功能建设 5.2.1 嵌入式知识服务系统 (1)目标与定位 嵌入式知识服务系统是一个综合的提供多过程的服务,图 书馆需要进行信息资料的组织和整理,以系统化形式呈现。该系 统支持科研人员或团队对资源的检索,提供嵌入式的学科服务, 嵌入科研过程、嵌入专业人员和独特技术等;同时为企业提供情 报分析服务,支持企业进行科技查新、专利分析、市场调研等活 动。 (2)功能特色 A. 基础信息录入认证:科研人员或团队注册输入团队实力信息 、科研领域、参与项目情况;企业注册输入企业规模、资金实力 、需求方向、成果转化案例,方便进行立项需求指导,疏通科研 与企业需求之间的障碍。 B. 信息组织检索:图书馆将科技成果转化中涉及的文献资源、网 络资源、相关协议规定等进行有序化处理,方便科研人员进行科 研,方便企业了解科技成果。 C.情报咨询服务:该服务主要面向企业,图书馆通过自己的专 利数据库和专业的检索过程,提供专利分析,把握竞争对手的技 术布局,并对网络信息资源整合,提供市场调研服务。 2 /page 5.2.2 前沿动向互动系统 (1)目标与定位 该系统主要目的是跨越科研人员和企业之间的信息鸿沟,以 图书馆提供智库服务为基础,解析科技成果转化中的相关政策, 让企业明确自己需求并表达呈现,让科研人员及时掌握市场需求 并及时调整科研计划,同时以论坛等在线交流方式,为科研人员 和企业搭建互动平台,并由图书馆提供专业化指导。 (2)功能特色 A. 政策解析:转型后的图书馆已经开始提供智库服务,其对于 市场的把控和政策的解读具有权威性,基于此,图书馆提供有关 科技成果转化或图书馆建设等方面的政策方向解读、引导科研人 员和企业动向变化。 B. 学术前沿发现:图书馆以其自身的独特优势,借助信息挖掘、 分析可视化工具,呈现学术发展前沿信息,助力科研人员和企业 把握动向。 C. 企业新闻与需求:对网络上相关企业的科技信息进行整理呈 现,对企业的需求进行有选择的表达呈现(此处涉及到商业机密 等问题,可只针对已参与项目合作的双方呈现)。 D.在线交流版块:科研人员和企业可针对一些棘手问题交流互 动反馈和改进,图书馆主导控制方向(对机密问题隐藏、对共性 问题呈现)并提供专业化指导。 5.2.3 项目进展服务系统 (1)目标与定位 图书馆通过对外部政策环境、企业需求的整体把控,前期 辅导科研立项,中期对项目进行跟踪汇报和质量评估审核,后期 企业审核科技成果,以图书馆涉足于出版领域的经验为基础,处 理科技成果转化过程中涉及知识产权问题、技术转移问题、资金 交易问题。 (2)功能特色 A. 立项指南与需求分析:图书馆以专业化知识,为科研人员提 供科研立项的方向指南,最大限度的使科研项目与市场需求匹配 ,并对已成立的项目进行市场前景预估,科研经费评测。 B. 项目进展跟踪:项目一旦开展,图书馆就必须对企业负责,对 项目进行定期的跟踪和汇报呈现,并对科研质量进行评定打分。 C. 科技成果评估审核:企业对科技成果进行评定,决定是否引 入或提出意见。 D. 科技成果转化:对决定引入的科技成果,进行最终的合同签 署,版权方面的协商。 E. 成果案例展示:对已经成果转化并投入生产产生经济效益的案 例进行呈现。 5.3 平台实施路径 5.3.1 盈利模式 (1)任务酬金 该平台从每次交易中抽取费用实现盈利。企业在任务发布之 初就将酬金全额存入服务平台的“酬金”账户上,同时平台可通 过巨额的预付款获取利息或进行放贷业务等。 (2) 广告收入 平台通过刊登广告、提供网站链接等方式收取费用。在平台 上帮助企业提升品牌,同时可以通过宣传细分用户群体,收取企 业的宣传费用。 5.3.2 收益分配 合理分配收益在一定程度上决定平台的发展潜力。根据《促 进科技成果转化法》等相关政策,该平台基于项目进展的不同阶 段,采取了不同的收益分配机制。 (1)可直接转化成生产力项目 根据《促进科技成果转化法》第二十九条、三十条规定,对 企业的任务酬金(即在产权转过程中)进行如下分配:图书馆获 取酬劳中50%,用于人员分配和平台维护,科研人员获取酬劳的 50%。在高校科技成果成功投入生产之后,企业在3-5年内将转化 收益的10%给予高校的科技人员。 (2)理论阶段项目 项目以理论形式存在,未转化或尚处于研究中,则需要一 笔启动资金,由高校图书馆进行协商,签订协议。该笔启动资金 不作为酬金范围。若项目由于企业原因中断,启动资金不予退还 。收益分配为:图书馆获取酬劳的60%,用于人员分配、平台维 护、项目跟踪等费用,科研人员获取酬劳的40%,同时收取全部 的启动资金。当最终投入生产时,企业在3-5年内将转化收益的 7%给予高校的科技人员。 5.4 保障机制 5.4.1 信任机制 任何交易都是建立在交易各方信任的基础上,信任机制的完 善与平台的发展息息相关。在网络平台交易中产生的安全隐患较 为严重,因此信任机制已成为当前亟待关注的问题。结合该平台 的实际情况,从以下三个方面综合考虑平台的信任机制。 (1)资金保管与分配 交易资金采用预付款和缓到账的方式,由平台“酬金”账户 托管,之后严格按照国家相关法律法规进行分配,从而避免了交 易各方由于资金分配出现的信任危机。 (2)知识产权 在高校科技成果转化过程中,知识产权与商业机密问题成 为科研人员和企业合作的首要风险。以高校图书馆为第三方担保 人,负责监督与协调。 a.完备的法律协议 高校图书馆具有丰富的法律知识,熟悉关于知识产权与商业机密 的相关法律法规,在合作期间,图书馆与企业对接,拟定完备的 法律协议,确保科研人员、企业之间无知识产权纠纷。 b.精确的保护权限 由高校图书馆作为中介,限制了科研人员个体与企业的直接利益 冲突接触,而影响科研成果,同时以图书馆与科研人员交流更为 通畅,对科研人员只交涉项目不涉及企业,确保了企业商业机密 不被泄露,同时也能使高校科技成果顺利转化。 c.有效的预警机制 高校图书馆在项目进行过程中,实时跟踪项目进展,确保科研人 员在知识转移过程中的细节,同时防止商业机密泄露。若进展过 程中出现问题,及时预警,确保知识产权转移过程顺利进行。 5.4.2 监督管理机制 高校科技项目进展情况不一致,图书馆在与企业对接过程时需要 3 /page 根据科技项目不同的进展程度采取不同的举措,以监督项目顺利进展,保障企业权益。 (1)项目有成果 在项目完成时,科研人员与高校必须完成委托转让协议,一旦项目被启动转化阶段,图书馆可以直接与企业进行对接,不需要再次 经过科研人员许可,直接完成交易,避免繁琐过程。 (2)项目已进展或未开始 图书馆需要通过跟踪科技项目进展,制定项目节点,确定每个项目节点成果,并且对科技项目的进展进行监控,确保信息的准确性 和及时性。对项目进行分阶段,定时以文件、视频或其他方式向企业发送进展报告,获取反馈。 6 结语 高校图书馆在图书馆2.0之后,又面临新的机遇与挑战,其根据自身资源优势、人才优势、技术优势,迅速扩大其服务范围。有以实 体图书馆、数字虚拟图书馆为基础的,文献服务、嵌入式学科服务、智慧知识服务、出版服务、参考咨询服务;有跨出图书馆范围走向 市场的信息服务、情报服务、智库服务等。如今的图书馆,不应该闭门造车,应主动投身到社会主义经济主战场,适应社会的发展,以 市场需求为导向,以信息资源的组织开发为基础,以服务为主体,通过独特的经营战略建立一个科技成果转化平台,向企业向社会提供 信息情报资源,促进科研成果与市场的紧密结合,疏通科技与经济结合的渠道,加速科研成果商品化、产业化。 注释: 1. 《促进科技成果转化法》第二十九条:科技成果完成单位应当从转让职务科技成果所得的净收入中,提取不低于20%的比例,对重要 贡献的科技人员予以奖励 2. 《促进科技成果转化法》第三十条:企业、事业单位的科技成果实施转化成功投产后,单位应当连续3-5年从实施该科技成果新增利益 中提取不低于5%的比例,对重要的科技人员给予奖励。采取股份形式的企业,可以对重要贡献的科技人员的报酬或者奖励折算成股份或 出资比例。 3. 《高等学校知识产权保护管理规定》第二十六条:高等学校将其科技成果转让给他人或许可他人使用的,应当提取净收益中不低于 20%的比例,对科技人员给予奖励。 Web2.0环境下 高校图书馆数字参考咨询面临的困境与思考 2019级硕士研究生 刘惠 摘要:数字参考咨询是高校图书馆核心业务之一,为了帮助其摆脱困境,本文在界定核心概念,梳理 国内外研究现状的基础上,调查了国内42所一流大学和美国11所知名大学的门户网站和社交媒体,分 析了国内外高校数字参考咨询的实践现状。在调查结果的基础上,总结分析了国内高校图书馆存在的 问题,主要包括网站功能布局、知识库建设、微信自助服务、服务政策标准以及数据服务五个方面, 针对每一方面的问题本文都提出了具有较强操作性的解决方案,以期推动高校图书馆数字参考咨询的 发展。 关键字:高校图书馆;数字参考咨询;咨询服务 1.引 言 作为高校图书馆的重要职能之一,数字参考咨询具有自己独特的优势,它是一种在数字化、网络化信息环境中,咨询馆员依托馆藏 资源和网络信息资源通过各种网络化手段为用户解决利用图书馆资源和服务时遇到的各种问题的问答知识服务。通过提供数字参考咨询 服务,高校图书馆在当代信息社会中起着重要的导航作用。但随着Web2.0时代的到来,众多知识服务机构和信息咨询组织应运而生, 它 们以快捷、精确的服务吸引着本来属于图书馆的用户群, 抢占了有利的发展时机。因此在竞争日益激烈的社会环境中, 图书馆早已不再是 唯一的知识信息服务提供者, 失去了信息中心的地位,数字参考咨询的发展也陷入瓶颈。为了重新夺回在Web2..0时代的重要地位, 高校图 书馆必须建立具有自身特色的数字参考咨询服务。如何摆脱困境,与当代新事物如社交媒体、人工智能等相结合获得新的转机成为了一 个重要课题。 4 /page 2.数字参考咨询国内外研究现状 2.1国内研究现状 以中国知网为数据源,对发表于核心期刊的相关论文进行内 容分析,梳理该领域的研究发展脉络以及最新研究方向。从总体 来看,国内以理论研究为主,调查研究为辅。从时间线上来看, 2010年以前,国内该领域处于起步阶段,部分研究者对湖南、北 京、黑龙江等地的高校馆实践进行了调查,理论研究以对系统平 台建设、存在的问题、发展对策为主,目的是为尚在开展中的实 践提供理论指导。这些研究成果提出的问题和对策具有较大的重 复性和相似性。如徐华、杨勤、赵春辉、周瑞华、邱建玲等皆发 现了宣传力度不够、合作参考咨询不完善、专业咨询人员不足以 及标准化程度低等的问题,而这些问题在今天的高校馆数字参考 咨询服务中依然能看到。2010年以后,对各地高校馆实践的调查 研究仍在进行,理论研究则加大了创新力度,呈现研究方向细化 ,研究层次加深的特点,主要体现在三个方面:(1)社交媒体 平台成为数字参考咨询发展依托的新平台,Wiki、博客、微博等 都曾被引入参考咨询服务,现在则以微信公众号的研究为主。如 刘薇对39所“985”院校的图书馆微信公众号进行了详细的调查 研究。(2)提出引入众包模式,加大用户参与力度。如霍建梅 曾对高校图书馆引入众包模式的可行性和意义进行了基于德尔菲 的调查,得到了大多数专家的认可。然后基于该项研究成果她在 2016年提出了一个数字参考咨询众包服务平台的构想。(3)人 工智能技术的应用越来越被重视,自助问答服务进一步发展。如 刘宝瑞、郭宏娇引入Deep QA技术,设计了参考咨询问答系统的 工作流程。张文竹则提出虚拟咨询机器人的建模评价、自然语言 处理、语料库的建设仍是需要创新与突破的关键技术。 2.2国外研究现状 以Emeral和百度学术数据库为数据源,梳理检索结果发现, 上个世纪8、90年代,由于国外高校图书馆的数字参考咨询实践 也处于普及发展阶段,因此研究以如何构建和维护该项服务以及 实践调查为主。21世纪初,数字参考咨询服务质量评估标准的制 定是研究重点之一,高校馆服务调查也很普遍。此后随着该领域 的理论和实践渐趋成熟,其研究深度和研究方向发生了改变。尤 其是随着数字技术的迅猛发展,不断完善的搜索引擎和社交问答 平台使参考咨询服务的利用率越来越低,数字参考咨询的发展逐 渐走入困境。因此一方面许多学者对图书馆是否还需要参考咨询 服务发表了自己的看法。如Bandyopadhyay等人通过全面的文献 综述提出,由于数字时代网络信息资源的庞杂性,高校图书馆的 参考咨询服务仍发挥着重要作用,尤其是在帮助用户辨别信息质 量和解决复杂问题时。另外一方面有部分学者则在尝试寻找数字 参考咨询服务的新出路,他们的关注点转移到社交问答服务与图 书馆参考咨询服务的比较研究以及对新媒体平台的利用上。 Vakkari通过评估发现谷歌在回答事实或主题性问题时准确率并 不高,因此认为搜索引擎不是图书馆数字参考咨询服务的可靠替 代品。Baro等人通过问卷调查发现图书馆的facebook页面是尼日 利亚的大学图书馆第二受欢迎的参考咨询服务渠道。Chu和Du认 为像Facebook这样的社交网络工具在信息知识共享,加强参考服 务方面非常有帮助。Mugridge等人也提出提高在线参考服务的可 见性应充分利用现有的新技术,如弹出式聊天框,Facebook等社 交媒体空间以及移动短信。Ahenkorah-Marfo则运用了李克特式 调查问卷的定量研究法调查加纳6所大学99位图书馆员对社会媒 体在参考咨询服务中应用的看法,结果表明图书馆员承认社交媒 体的重要性,但是仍然是传统咨询服务方式更加舒适。 托平台,此外Web2.0移动互联时代社交媒体也成为一种重要的咨 询手段。为此在对国内外知名高校的数字参考咨询服务实践进行 网络调查时,主要针对门户网站和社交媒体。社交媒体国内以微 信为主,而国外因为网络限制无法进入twitter、Facebook等流行 社交媒体,因此主要是看图书馆门户网站是否提供了相关入口。 在展开网络调查时,为了确定调查内容,笔者总结、借鉴了前者 研究成果,针对门户网站,笔者主要从用户界面友好性(名称、 位置)、FAQ设置、咨询方式、知识库建设(除FAQ)、服务政 策(仅咨询服务)、系统稳定性和服务内容几大方面进行调查; 针对微信平台,主要从开通现状、菜单设置、自助回复、实时应 答四大方面进行调查。 3.1国内实践现状调查 笔者根据教育部2017年公布的“双一流”建设高校及建设学 科名单,选取了42所一流大学建设高校作为调查样本。 3.1.2图书馆门户网站 通过调查,发现国内42所高校的图书馆门户网站关于数字参 考咨询的建设较为完善,具备了基本功能,但是也存在着各种各 样的问题。因数量较多,这里只列出前10所高校馆的情况,排名 不分先后。经过统计,(1)在用户界面设置方面,71.4%的高校 馆对于参考咨询有统一的名称和入口,69%将入口置于二级类目 。(2)在咨询方式方面,所有高校馆都提供了基本的电话、邮 件、微信、FAQ等咨询手段。除此之外还包括微博、BBS、QQ 咨询、留言板(表单)、CVRS实时咨询、CALIS联合咨询等途 径,南京大学、中国人民大学、四川大学和云南大学还运用了人 工智能技术,提供智能机器人问答功能。(3)在服务政策方面 ,绝大部分图书馆都对查收查引、学科服务等的服务进行了服务 内容等的说明,但针对咨询服务却鲜少制定了政策、标准,只有 北京大学等12所高校对咨询服务进行了服务时间等的简单说明, 值得一提的是湖南大学制定了咨询馆员遴选、职责及管理办法。 (4)在系统稳定性方面,大部分高校的图书馆主页访问速度和 可获取性较好,个别高校馆的FAQ或者CALIS虚拟咨询链接打不 开。(5)在服务内容方面,80.9%的高校馆除基本服务外还涉及 了其他信息服务,包括学科知识服务、专利信息服务。高校馆虽 然提供了学科馆员联系方式或者专利信息服务的咨询方式,但是 通常分散在不同页面,只有清华大学等几所高校将学科服务与基 本咨询服务相结合并统一到了“咨询台”页面中。而因为国内数 据服务处于研究起步阶段,数字参考咨询尚未在其中发挥作用。 (6)数字参考咨询发挥作用的另一重要支撑就是知识库,这里 的知识库主要包括FAQ、学科信息导航等。几乎全部高校馆都设 置了FAQ,只是大多数建设粗糙,更新慢。此外只有52.3%的高 校馆搭建了学科信息门户,且主要是自建平台、LibGuides平台以 及学科博客三种。 3.数字参考咨询国内外实践现状 对于数字参考咨询的开展,图书馆门户网站依旧是重要的依 5 /page 注:基本服务包括图书馆普遍提供的教学与培训、科技查新、查 收查引、馆际互借与文献传递、咨询等服务。 3.1.2微信公众平台 Web2.0时代,社交媒体成为参考咨询服务的新阵地,相比较 微博,如今微信公众平台在图书馆服务中应用得更加普遍。因此 笔者关注了42所高校馆的微信公众号并进行了调查。 经调查统计,(1)在开通现状上,41所高校馆开通了微信 公众号,其中41.5%的高校馆开通了服务号,58.5%开通了订阅号 ,南京大学等3所高校开通了订阅号+服务号。(2)在菜单设置 上,43.9%的高校馆在微信菜单里设置了参考咨询功能,其中11 所高校馆提供了FAQ,2所提供了在线咨询功能,4所提供了馆员 联系方式。此外智能机器人是微信咨询服务的新方向,南京大学 、华中科技大学和同济大学还提供了智能问答机器人功能。(3 )微信的最大价值是能够实现信息自动回复,关注后是否自动回 复有用信息影响到用户的使用友好性和互动体验,虽然只有六所 高校馆的微信公众号没有任何自动回复,但是超过50%的微信公 众号的自动回复是“欢迎关注”之类的无意义信息,此外做的比 较好的是武大、清华等高校,自动回复数字或关键词快捷菜单帮 助用户快速获取所需信息。(4)在实时应答方面,因为咨询馆 员要面临多个平台多种途径的读者咨询,所以自动回复成为了无 法及时回复时安抚读者的重要手段。笔者统一输入一个完整的问 题,除了3所高校馆的微信号明确提出不接受提问外,54.5%的微 信号有自动回复,只有武汉大学和北京大学的自动回复解答了我 的问题,不再需要人工服务。此外51.2%的微信号有人工回复, 其中61.9%为当天回复,其余为第二天回复,没有超过两天的情 况。 基本咨询服务,也集成了学科馆员咨询和研究咨询预约的入口, 极大地方便了用户。(2)在咨询方式上,除了邮件、电话、短 信、实时在线咨询等传统必备的咨询手段外,美国高校馆的数字 参考咨询服务与社交媒体结合的非常好,它们普遍在twitter、 facebook等主流社交媒体上注册了账号,并在图书馆主页下方设 置了明显的标识。(3)在系统稳定性上,除了宾夕法尼亚大学 网页加载慢,其余10所高校网页加载快,链接都可用,较为稳定 。(4)在服务政策上,这几所美国高校都在参考咨询页面对咨 询服务的服务时间、服务内容以及服务范围作了介绍和说明,如 哥伦比亚大学、麻省理工大学都只对校内用户开放,而西北大学 则可以为社会大众解答问题。哈佛大学主要解答关于图书馆服务 和馆藏的问题,麻省理工大学则致力于从简单问题到深入研究。 (5)在服务内容上,除了基本服务美国高校馆数字参考咨询还 普遍涉及学科知识服务,并提供研究咨询预约。此外虽然11所美 国高校均提供了数据管理服务,但与数字参考咨询的结合程度较 低。(6)在知识库上,这几所美国高校馆都组建了完善的用于 支持教学、科研和学习的指南,指南里整合了按学科或课程分类 的网络资源、研究工具和最新学术信息等内容。此外FAQ的建设 都较为完善,每一个问题都有标签,用户可查看标签云,然后点 击浏览。 3.2国外实践现状调查 在选取国外知名大学进行网络调查时,参考了 U.S. News的 2019年美国大学排行榜。选取 U.S. News主要是因为该排行榜更 加注重高校教学本身,与图书馆的的目标和职责相近。最终笔者 选择了包括普林斯顿大学在内的前10名共计11所美国知名大学作 为调查样本。 经过统计,(1)在用户界面上,除了宾夕法尼亚大学,10 所美国高校的图书馆主页都在一级类目的位置设置了参考咨询入 口,且有统一的名称。此外参考咨询页面设置也完整,不仅包括 6 /page 4.数字参考咨询当前面临的困境 4.1网上咨询台功能布局混乱 根据网络调查,虽然有71.4%的高校馆对于参考咨询有统一 的名称和入口,但是仍然有69%的高校馆将入口置于二级类目。 位置较隐蔽,这是网上咨询台布局的问题之一,不利于用户直接 获取该项服务。而美国高校馆则通常将咨询标识置于web网页的 右上角,导航条的上方,清晰明了。在点击进入咨询台后,我国 高校馆在设置功能布局时又有很大差异,总体上呈现的问题除了 没有对所有咨询途径做好整理排列外,也没有与学科服务、数据 服务和专利服务等做好衔接,数字参考咨询止步于提供基本咨询 服务,与学科知识服务、数据服务等其他服务完全割裂,而美国 高校馆则普遍会在咨询台内展示学科馆员的个人信息和联系方式 ,因此网上咨询台的页面设置还有待完善。 4.2知识库建设不完善 知识库在广义上包括咨询档案库、 FAQ及知识资源库。笔 者在调查时主要针对可获取的FAQ和知识资源库。本文的知识资 源库主要指学科信息资源导航,因为它是数字参考咨询提供深层 次服务,辅助学科服务的重要工具之一。而FAQ和学科信息门户 的建设情况都不容乐观。对于FAQ,虽然大多数高校馆的FAQ规 模在逐渐扩大,也在不断更新,但是高级检索、分类浏览以及排 序方式等功能仍然缺失。对于学科信息门户,只有一半的一流高 校搭建了学科信息门户,且大部门学科信息门户建好的学科门类 少,资源内容不够充实,资源种类单一。 4.3微信公众平台建设水平不一 虽然微信已在我国一流大学全面普及,但是建设水平不一 ,差距较大,而建设不完善的微信公众平台呈现出一些普遍存在 的问题,主要包括三点:一是与web网页的咨询台没有连接或者 没有提供图书馆咨询馆员的联系方式,这使用户咨询在没有得到 后台人工回复的情况下无法继续进行;二是关注后的自动回复大 多没有意义,不能为用户利用图书馆服务提供一个良好的开端, 只有少数几个公众号利用FAQ知识库设计数字快捷回复菜单从而 帮助用户完成自助服务;三是微信作为社交媒体软件最大的优势 是实时应答,但是只有半数微信号有自动回复,且只有人大的自 动回复解决了问题,另外只有三分之一的微信公众平台做到了当 天人工回复,三个设置了智能问答机器人的微信号中只有武大的 准确给出了答案,总之自动回复功能仍需完善,人工智能技术仍 待普及应用。 4.4缺乏详细的政策、标准 服务政策、标准不仅是馆员在提供服务时的准则和依据,也 是用户获取服务时的参考和要求。虽然强调了许多年,但是相比 较美国高校馆,绝大多数国内高校馆的图书馆主页仍然找不到对 于数字参考咨询的服务政策或标准的说明。美国高校馆通常会直 接在咨询台页面说明每一项咨询途径的服务内容和时间,如哈佛 大学更在页面下方对本校咨询服务的服务目的、服务对象和服务 范围等进行了详细说明。而国内高校馆则通常是简单罗列咨询途 径,缺少辅助说明和服务政策,从而在一定程度上阻碍了用户对 数字参考咨询服务的使用,更不利于用户加深对该项服务的认识 。 4.5与数据管理服务结合不足 学科服务、数据服务等与数字参考咨询服务关系密切,图书馆 在为用户解决教学、科研等方面的问题时离不开数字参考咨询所 提供的咨询途径和手段。相应地为了提升服务水平和服务地位, 数字参考咨询服务不应局限于提供基础问答服务。应努力与图书 馆其他数据信息服务相结合。根据调查分析,国内高校馆数字参 考咨询与学科服务、专利信息服务等有了一定程度的融合,但与 数据管理服务的结合几乎为零。面对数据密集型科研的发展趋势 ,高校图书馆势必要提供完善的数据管理服务。而我国该项服务 还处于起步阶段,走在前端的北京大学提供了科研数据管理、学 科开放数据导航、GIS数据等服务,但相应网页仍然处于建设中 ,数据和链接很少,其他高校更是处于摸索状态,尚不知如何发 挥数字参考咨询服务的优势。因此数字参考咨询如何促进该项服 务的发展并与其融合成为了一个重要议题。 5.推动数字参考咨询发展的建议 5.1统一网上咨询台的设置 Web2.0在强调互动性的同时也强调界面的友好性,为了方 便校内外用户的使用,使用户对高校图书馆数字参考咨询的位置 和标识形成统一印象,我国的各个高校图书馆门户网站应尽量统 一网上咨询台的设置。如尽量将参考咨询的入口设置在一级类目 ,点击进入后页面上集成了所有咨询途径。此外可以统一将弹出 式自助问答对话框放在页面上方显著位置,引导用户自助获取所 需信息。后台会根据用户提问自动到FAQ或学科信息门户中寻找 线索,如果回复没有解决问题用户可以往下浏览再选择其他咨询 方式。这样的设置方法可以使咨询馆员从重复的咨询工作中摆脱 出来,将精力主要放在知识库的建设和提供深度研究咨询上。 5.2完善知识库的种类和内容 知识库是开展参考咨询服务的基础和支撑,它既能帮助咨询 馆员减轻部分工作量,也能辅助学科服务等深层次知识服务。因 此需要不断完善知识库的建设。建设高质量知识库应先制定知识 库标准和规范,其次应明确知识库的种类和内容。笔者认为现阶 段高校馆应着力建设的知识库种类主要包括FAQ和知识资源库, 而知识资源库主要指学术信息资源导航,作为促进教学、科研和 学习的重要工具。对于FAQ,根据前面的调查结果,高校馆首先 应完善FAQ的形式,设置详细的分类体系、多样的排序方式以及 丰富的检索机制,可以仿照美国高校馆为每一个问题设置关键词 ,然后以标签云的形式供用户点击浏览。其次应完善FAQ的内容 ,高校馆应整合邮件、微信、电话、QQ等多种咨询途径收到的 问题,提炼问答记录,及时补充到FAQ中。对于学术信息资源导 航,应加快对更多学科门类的建设,并且丰富知识资源的种类, 可以包括国内外相关专业网站、专业数据、常用研究工具等,甚 至可以增加课程导航,整合国内外相关网络课程、教学课件等。 此外还可以将每一学科的信息门户链接到对应的学科馆员的介绍 中,方便用户直接跳转。 5.3强化微信自助服务,搭建智能问答机器人 互动性、实时性以及问题处理水平是微信公众平台数字参考 咨询服务建设水平的衡量标准。因此强化微信平台的自助服务非 常重要。微信自助服务主要是指自动回复功能,目前国内大部分 高校馆的微信平台自动回复功能仍不健全。无论是关注后的自动 回复还是提出问题后的自动回复都应尽量具有实际意义。关注后 可以自动回复数字或关键词快捷菜单,指引用户获取图书馆资源 和相关服务信息,用户后台留言后也需回复具有引导线索性信息 或者提示等待人工答复。为了深化自动回复功能,减少咨询馆员 重复工作量,并增强用户的互动感,搭建智能问答机器人也是必 然的发展趋势。虽然目前已有高校图书馆将智能问答系统引入门 户网站和微信平台,但是不够普及,并且存在答案不准确、分析 问题主观性等问题。未来图书馆技术部门可以尝试搭建基于 Deep QA的概率型智能化问答系统,采用多种自然语言处理、信 息检索、机器学习和推理算法等技术,全面提升自助问答的准确 率、自信度和回应速度。 7 /page 5.4加快服务政策、标准的制定 为了使数字参考咨询服务标准化、规范化,以及使校内外用户更加了解该项服务,国内高校既要从宏观上加快服务标准的制定和推 行,又要从微观上促进服务政策的制定和展示。服务政策是每一所高校馆结合自身馆情制定的,政策的内容应主要包括服务目标、 服 务对象、 服务时间、 服务内容、 用户行为、 咨询馆员职责、 隐私保护、知识库规范、学科馆员咨询和研究咨询流程等。而形式则可以 以用户须知、 服务声明等形式呈现。此外,展示服务政策的位置也很重要,一方面应将完整的服务政策放置在咨询台页面较醒目的位 置,另一方面还应在每一个咨询途径的后面详细注明服务时间、服务内容或范围,帮助用户在合适的时间提出合适的问题,提高咨询服 务的效率。服务标准则是根据国内高校馆发展的总体情况制定的统一方针、框架和要求,其内容应主要包括数据格式、版权保护、知识 库种类和内容等。只有制定统一的服务标准,才能在未来更好地开展联合咨询服务以及与国际对接。 5.5促进、融入数据管理服务 服务融合是趋势也是手段,数字参考咨询应不断探索如何促进、融入数据管理服务,帮助图书馆成为科研数据存放与监管的优质机 构,更好地服务各个学术群团体。数据管理服务贯穿于整个科研生命周期,为了促进其发展,首先应在数字参考咨询平台提供相关咨询 入口和学科数据馆员的联系方式,整合科研数据管理指南和各种讲座信息,向科研人员提供科学数据管理教育,然后在研究起步阶段提 供科学数据管理政策咨询、科学数据引用政策咨询等的咨询入口,在研究展开阶段以嵌入咨询的方式帮助获取所需的开放科学数据,在 成果发表阶段可辅助提供知识产权咨询服务和数据引用咨询。除了促进、融合科研数据管理,数字参考咨询也可以致力于基于系统数据 挖掘的数据管理服务,web网页和社交媒体在提供参考咨询服务的过程中会产生一系列数据,包括用户行为数据、馆员服务数据等,馆 员可以借助数据分析工具深入挖掘图书馆运营数据,支持管理层决策,提高服务水平。 参考文献 [1]徐华.高校图书馆数字参考咨询服务现状与思考[J].现代情报,2006(02):40-42. [2]杨勤.高校图书馆数字参考咨询服务新探[J].现代情报,2007(11):90-92. [3]赵春辉. 高校图书馆数字参考咨询服务探析[J]. 图书馆研究, 2008, 38(1):83-85. [4]周瑞华. 高校图书馆数字参考咨询服务研究与实践[J]. 江西图书馆学刊, 2009, 39(2):81-82. [5]邱建玲. 高校图书馆数字参考咨询服务研究[J]. 现代情报, 2010, 30(3):76-78. [6]刘薇.基于微信公众平台的高校图书馆数字参考咨询服务实证研究[J].图书馆学研究,2017(19):79-87+17. 国内公共图书馆创客空间构建研究及启示 ——以上海市图书馆实践为例 2019级硕士研究生 刘惠 摘要:全球创客运动蓬勃发展,公共图书馆参与创客空间的构建已是时代的要求,必然的趋势。公共 图书馆积极构建创客空间对其自身也具有重要意义。目前我国已有越来越多的公共图书馆参与到创客 运动中,但是出现了诸多问题,与欧美国家的实践具有一定差距。本文以上海市图书馆创客空间为例 ,从实体空间设计、虚拟空间设计、资源设备、人力资源、服务活动五大方面对其实践进行详细分析 ,并结合英美等国的成功案例,对上图实践的优缺点进行分析,提出针对性的建议,以期为改善我国 公共图书馆创客空间的构建带来一定的启示。 0 引言 公共图书馆构建创客空间已成为必然趋势。一方面,数字化、信息化的发展不断重塑图书馆用户的信息消费和使用习惯,驱使公共 馆改变传统的服务方式和内容;另一方面国家“大众创业,万众创新”的政策导向以及时代趋势也要求着公共馆发挥自身优势,成为国 家创新驱动的新引擎。至此,我国乃至全球范围内的公共图书馆都积极地参与到了创客空间的构建运动中,像美国的费耶特维尔图书馆 、旧金山图书馆,还有英国的埃克塞特图书馆等都是公共馆创客空间构建的典范。而国内公共图书馆创客空间的发展起步较晚:2013年 开放的上海图书馆“创·新空间”是我国第一个真正意义的公共图书馆创客空间;2014 年长沙图书馆成立“新三角”创客空间;2015年7 月,成都图书馆成立“阅创空间”;2016年是我国公共图书馆创客空间建设的井喷之年,先后有超过九家公共馆构建了自己的创客空间 ,包括云南省图书馆、铜陵市图书馆、广州图书馆等。虽然我国已有不少公共图书馆构建了创客空间,但是相比较国外,我国成熟的创 客空间较少,且存在较多问题。因此本文以我国第一个也是学界经常探讨的创客空间——上海市图书馆“创·新空间”和产业图书馆为 例,在明确图书馆构建创客空间意义的基础上,运用一定的研究方法,探讨创客空间的概念和特点,总结创客空间构建的体系,并从中 选取几个方面对上图的实践进行详细分析,最后对比英美等国的成功案例指出上图实践存在的优缺点,并给出相应的建议。 8 /page 1 公共图书馆构建创客空间意义 1.1空间再造 传统观念认为,图书馆是人们获取知识并相互接触、交流 的物理空间,是家庭、工作场所、学校之外的“第三空间”。而 随着创客运动袭来,所谓第三空间的说法已不再新鲜,无法完全 覆盖图书馆这一物理空间的意义与作用。创客空间将有助于实现 图书馆空间的概念更迭和功能转向,推动图书馆空间再造运动的 发展,赋予其空间更多的可能性。 1.2宗旨转变 我国的公共图书馆是在通识教育运动下兴起的,满足用户 识字需求是传统环境下公共图书馆的服务宗旨。在这个人人都能 识字的时代,公共图书馆应转向促进用户的各种素养的服务宗旨 。素养不只包括信息素养,更包括技术素养、职业素养、外交素 养等。这种从单数到复数的转变揭示了公共图书馆更广阔的活动 空间。吴建中总结出现代图书馆有三大任务:让更多人能够增加 工作机会、让更多人提高创业能力、让每一个人能够提升自己精 神生活或者说日常生活品质。可见新时代的公共图书馆的任务宗 旨离不开创客空间的建设和发挥作用。 1.3角色重塑 吴建中也曾指出图书馆转型是大趋势,并总结了图书馆发 展的十个新话题,其中之一便是“第三代图书馆”。第一代图书 馆以收藏为主体,第二代图书馆以借阅为主体,而第三代图书馆 则以交流为主体。即未来的图书馆应该是知识中心、学习中心、 交流中心,更是推动国家和社会发展的创新驱动器与创业孵化器 。因此创客空间的构建将加速我国图书馆迈向第三代图书馆,将 使图书馆更加注重人的需求,致力于促进知识流通、创新交流环 境、注重多元素养和激发社群活力。 2 研究方法和数据来源 本文采用了网络调查法和文献研究法。网络调查法主要应 用于对上图实践的调查。本文对上海市图书馆的新版网站和旧版 网站分别进行了浏览,获取了关于该馆创客服务活动的最新资料 和情况。文献研究法主要应用在概念辨析、构建体系和案例分析 部分,数据来源为中国知网。检索式=题名:(“图书馆 ”and“创客空间”)or(“图书馆”and“众创空间”)。 提出了一个更宽泛的概念,把创客空间看成是指代任意形式的, 将人们聚集起来、创造并分享关于创造想法的创意空间。此外, 对于图书馆创客空间的概念也没有一个统一的界定。李红培和鄢 小燕认为图书馆创客空间是一个为创客们提供材料、工具和技术 ,让他们聚集在一起设计并完成某个项目的空间,是一个人们共 同建造实物和共享的工作区域。宋甫等人认为图书馆创客空间是 图书馆为使用户能发挥创意和实现创意提供工具资源和交流平台 ,让用户在实践过程中实现知识学习和知识创新的 一种新型图 书馆服务模式。 虽然创客空间的概念众说纷纭,但是均提出了创客空间的本 质:一个实现创意、交流共享的工作空间。而图书馆创客空间则 是将创客空间进一步延伸为了图书馆提供的一种新型服务模式。 3.2特点 通过对上述定义,可以总结出创客空间具有几大特点: (1)社交性,即交互性。社交功能是创客空间必不可少的核心 功能要素。人类带有与生俱来的与人交流的欲望,而且只有自由 畅通的交流、交互才能碰撞出创造性思维的火花。 (2)融合性。一个成功的创客空间是便捷访问的站点、精心设 计的空间、丰富多样的软硬件、熟练的技术人员、多样的项目目 录以及丰富的辅助知识信息等要素融合的共同体。 (3)实践性。创客空间鼓励人们利用先进的技术、工具等动手 实践,将自己的创意由幻想变为现实,制造出自己的产品,最终 达到通过动手操作获取知识、感受知识、共享知识的目的。 (4)共享性。共享是创客空间的另一重要特征,包括知识的共 享、思想的共享、创意的共享等,通过共享,创客们相互学习、 协同合作,从而使创客空间更有活力。 4 空间构建体系 在对上海市图书馆创客空间的实践进行具体分析之前需要明 确空间构建涉及到的要素和内容,通过对相关文献进行梳理,本 文总结创客空间的构建体系如图所示。 可见,构建一个成功的创客空间牵扯了许多方面,包括构建 要素、运行模式、构建内容、影响因素、服务内容等,整个构建 过程复杂而漫长,需要不断调整改进。结合整个构建体系,本文 分别选取了实体空间设计、虚拟空间设计、资源设备、人力资源 、服务活动五个方面对上海市图书馆创客空间的构建情况进行分 析和解读,最后指出它的优势与不足,并提出针对性的建议。 3 概念和特点 3.1概念及由来 创客空间,英文名称为Maker space,此外还有”Hacker space” ”Hack lab” ”Maker space””creatives space”等。学界 较一致的看法是创客空间诞生于Make杂志,2009年该杂志的主 编在MAKE杂志发表题为Is It Time to Rebuild&Retool Public Libraries and Make‘Tech Shops’?的文章,首次将“创客”这一 概念与图书馆联系起来。受到这篇文章的启发,美国图书馆学界 的创客运动开创领导者之一Lauren Britton女士在费耶特维尔公共 图书馆建立了全美第一所创客空间。 目前,国内外学界对创客空间的定义并不统一。国外学界 较推崇维基百科的解释:一个具有加工车间,工作室功能的开放 的实验室,创客们可以在创客空间里共享资源和知识,来实现他 们的想法。此外英国政府官网上对Maker space的定义是一个人们 能聚集在一起共同创造、共享资源和知识,开展项目的物理空间 。国内,刘芳认为创客空间是一种在技术、科学、艺术、数码等 方面有共同兴趣的人们的活动、合作和聚会场所。罗博和吴钢则 9 /page 5 上海市图书馆创客空间的构建 情况 上海市图书馆的创客空间包括两部分,分别是“创·新空间 ”和2014年7月正式启动的产业图书馆。“创·新空间”侧重于 大众创新意识和思维的培养,并让普通市民参与到新产品、新技 术的创新与体验中。而产业图书馆则侧重为相关企业提供文献、 工具等资源,并提供平台让企业发布、展示新成果、新产品,从 而更好地服务于创业孵化。下面从五个方面对这两个创客空间进 行具体分析。 5.1实体空间设计 上图的“创·新空间”占地2000多平方米,在布局上注重空 间的动静结合,将整体划分为阅读空间、信息共享空间、专利标 准服务空间、创意设计展览空间和全媒体交流体验空间5大功能 区域: (1)阅读空间:主要提供传统的阅读服务与检索服务。该空间 提供数千册中外文创意设计类新书和上百种创意类外文期刊供读 者阅览。 (2)信息共享空间:主要为读者提供讲座、讨论的场地。该空 间配置有多媒体投影设备和 50 多个座位,充分体现了“创·新 空间”分享与交流的目的。 (3)专利标准服务空间:“创·新空间”建立在原专利标准特 种文献阅览室的基础上,继承了大量与创新创意相关的特种文献 与数据库,为创客提供专利检索、外观检索等服务,并配置专业 情报服务人员,将文献情报服务与文化创业产业服务有效结合起 来。 (4)创意设计展览空间:主要用于各类设计师作品、创意产品 的展示。后期引入的高科技产品也主要放在这一区域供读者体验 。例如,上海图书馆在国内图书馆界率先引入的3D打印机和3D 扫描仪就放在该空间内。 (5)全媒体交流体验空间:主要提供人机交互体验。该空间主 要由 3 部分设备组成:第一部分包括 6 副液晶屏组成的数字画廊 ,第二部分为三组数字创意台,主要用于 CAD 设计,第三部分 为一组大型创意数字化展示台。 产业图书馆的空间主要划分为小型办公间、信息共享空间 和产品展示空间。 5.2虚拟空间设计 所谓虚拟创客空间,就是运用互联网技术搭建一个线上平 台,起到信息资源整合、活动信息发布、宣传推广、与用户线上 沟通互动的作用。通过调查,上图既没有为创·新空间搭建一个 专门的平台,也没有在官网中开设创·新空间的专栏,从而普通 读者无法从官网上找到该馆创客空间的开放时间、收费标准、资 源设备、举办的活动等基本信息,因此更不用谈创客线上反馈与 交流社区的建设。而对于产业图书馆,可以在上图老版网站上找 到它的专门模块,你可以在该模块浏览产业项目,获取产业资讯 和资源应用,并且联系创客空间的工作人员。此外,上图还建设 了创之源@上图网站,专门提供面向中小企业信息与知识需求的 公益性图情服务。 馆所信息咨询与研究中心的资源,收录了部分研究报告。 5.3.2软硬件设备 如表1所示,上图配备了充足的软硬件工具,其中以软件为 主,硬件设备较为单一。此外,上图会对使用复杂的工具提供相 应的背景知识介绍,让读者在亲身体验高科技产品的同时,对产 品的原理、制造过程等也能有一个大概的了解。 5.4人力资源 5.4.1馆员培训 上图在“创·新空间”的馆员配置上,主要考虑从4 类馆员 即服务导航型、学科专业型、技术支持型和策划推广型来组建自 己的专业馆员服务团队。上图明确了对人才需求后采取自愿报名 、考试选拔的方式对馆员进行筛选。最终,形成了由9名馆员组 成的“创·新空间”的运营团队。 5.4.2创客、创业团队涌入 “创·新空间”一开放便进入火爆状态,不断有创客以及创 业团队来到上图的创客空间交流和展示他们的作品。既有大学组 建的创客团队,如同济大学、上海交通大学以及上海视觉艺术学 院的团队——新车间,也有来自“设计丰收”、美田艺术、上海 设计中心等机构的创客群体。而在产业图书馆项目启动后也吸引 来了不少具有创新意识的中小企业。 5.4.3专家合作 该空间与同济大学中芬中心、上海设计中心、上海市动漫行 业协会、美田艺术工作室等多家机构合作,邀请了各行业专家, 开展了“专家坐堂”“现场教授”“互动教学”等多种形式的活 动,从而形成馆员与专家、读者与专家,甚至专家与专家的多向 交流。 5.5服务内容 “创·新空间”活动内容形式多样,包括设计展览、讲座交 流、DIY创意制作、科普活动、电影放映、读者培训等。为了更 加详细地了解上图创·新空间创客活动举办情况,笔者调查了上 图的旧版和新版网站。通过调查,发现旧版网站中设置了上图展 览、上图讲座栏目,读者需要分别点击浏览,创客活动分散在展 览讲座等各个主题之中。而新版则对全部类型的活动进行了整理 并增设了“活动日历”功能,但是所有活动均没有“创客”的明 确标识,需要读者自己判断,如图3。总之,上图既没有专设创 客活动专栏,也没有在活动的标签里表明“创客”,读者获取创 客活动信息不便,此外活动也没有划分年龄层次,每月举办的数 量较少。总体来说上图的创客活动体系还不完善和成熟。 5.3资源设备 上图为创·新空间和产业图书馆配备了丰富充足的文献资源 和软硬件设备。 5.3.1文献资源 “创·新空间”建立在原专利标准特种文献阅览室的基础 上,拥有大量专利、标准、科技报告等资源。此外,为了弥补上 图艺术设计类资源稀缺的问题,馆员对全球范围内的时尚创意产 业数据库产品进行了全面的调研,通过试用,比对资源优劣,最 终采购了Bridgeman艺术图书馆、Oxford Art Online(牛津格罗夫 艺术在线)等丰富的艺术类电子资源。而产业图书馆增加了以“ 皮书”系列为主,其他相关图书为补充的产业信息文献,还利用 10 /page 而产业图书馆则开展了专门针对中小企业的创业服务,加强了产 业领域非正式出版物的收集、整理、加工和服务,举办了各类小 型专题论坛、主题报告,开展产业、信息增值创新服务、产业信 息展览、传播和交流活动,为相关企业新成果、新产品发布、展 示提供大众平台。 6 上图创客空间的优势和存在的 问题 6.1优势 6.1.1将图情服务与创客空间相结合 无论是“创·新空间”还是产业图书馆都为创客们搜集、 组织了丰富的图书、期刊、专利、标准、数据库等纸质或数字化 的文献资料,产业图书馆还为中小企业提供了情报所的科技查新 、专利检索等服务,可以说上图在创客空间的构建中充分发挥了 图书馆的作用,使创客服务与图情服务很好地结合在一起,在一 定程度上解决了馆员在创客空间中的角色定位问题。 6.1.2空间划分功能明确 上图创客空间无论是创·新空间还是产业图书馆都将整体 空间划分为了几大功能区域,这种划分方式是国内公共馆创客空 间划分的典型代表,也是区别于英美等国创客实体空间设计的独 特之处。这种功能明确的划分方式可以使有限的创客空间得到充 分利用。 6.1.3中小企业创业孵化较成熟 这也是上图创客空间建设最为突出的一个特点,体现了上 图创客空间的鲜明特色和独特定位。2014年产业图书馆项目启动 以后,上图就将精力和经费主要投入到产业图书馆尤其是虚拟空 间的建设上。从提供图情服务,到提供产业信息展览、传播和交 流的平台,再到创之源虚拟平台的建设,上图的产业图书馆实现 了公共馆对中小企业的最大助力,充分发挥了图书馆在“大众创 业”浪潮中的作用。 6.2存在的问题 6.2.1虚拟创客空间还未起步 不只是上图的创·新空间,通过搜索本文发现,成都“阅创 空间”、广州创客空间等都没有给本馆的创客服务建立专门的网 页,长沙图书馆在网站可以找到其“新三角”创客空间的专栏, 但无法点击进入。而国外公共馆则普遍为自己的创客空间设计了 网页或搭建了专门的网站,如费耶特维尔和埃克塞特图书馆,用 户可以轻松了解该馆创客空间的一切基本信息,进行线上报名和 在线培训等。落后的虚拟空间的建设一方面不利于用户了解该馆 创客空间的背景和基础信息,从而使其宣传和推广受阻;另一方 面也不利于创客的意见反馈、社区互动以及企业关于创客项目的 线上洽谈等。 6.2.2服务活动体系不够完善 上图的创客空间服务活动虽然形式也较为丰富,但是相比 较费耶特维尔图书馆和埃克塞特图书馆的创客空间有着自己层次 化的服务活动体系,上图的创客空间尤其是创·新空间则服务活 动划分粒度过粗,不够完善系统。主要存在以下两个问题: (1)没有设置培训课程。图书馆引进的这些数据制造工具不仅 需要一定的知识和技术,有些工具在使用过程中还存在安全风险 。因此创客空间有责任承担起工具使用的培训工作。上图目前还 没有对读者开展工具设备的使用培训。而美国的费耶特维尔图书 馆则设置了专门的培训课程,英国的埃克塞特图书馆还分别设置 了针对成人和儿童的定期培训课程。因此上图需要在这一方面进 行改进。 (2)缺乏针对青少年、幼儿的创客教育。上图的创客服务活动 首先没有划分年龄群体,其次是目前显然把重点放在了产业图书 馆创客空间的建设上,从而忽视了社会上一般创客创新能力的培 养和促进,尤其是针对18岁以下的少年儿童的STEAM能力的培 养。 6.2.3服务工作团队尚不成熟 (1)专业图书馆员培养不足。图书馆员是创客空间管理的主体 ,更是帮助创客们利用创客空间的工具设备进行创造性活动、引 导创客开展创客项目的主力,因此图书馆培训馆员掌握这些工具 设备的使用方法、技术以及与时俱进的创客文化等十分重要,但 就收集到的资料来看上图缺乏对馆员的系统培训,而是强调就馆 员已有的知识储备筛选合适的人选。 (2)专业志愿者利用不够。当创客空间来访者变多,创客项目 增多时,单凭专业馆员完全无法应对,尤其是创客活动涉及到工 程、技术、数学、艺术等多学科、多领域知识,无论怎么培训都 不可能使馆员的知识储备覆盖全面,因此需要引进具有专业知识 背景的志愿者,协助开展服务活动比如培训课程。上图在这方面 做得也不尽如人意。 6.2.4成长环境不如英美等国 成长环境主要是指创客运动的社会态度、氛围,政府的政策支持 与财政支持,行业协会的关注与推动等。相比较英美等国,且不 论社会的认知和关注度,但就政府和行业协会的行动来说我国支 持的力度还是太单薄,目前我国有关机构对公共图书馆创客空间 的支持力度主要集中在举办创客空间的活动与大会上,只停止于 大方向的导向和指示,而缺乏国家层面出台的财政支持政策和指 导政策,也缺乏权威机构出台的统一的建设方案和建设标准。 7 建议和启示 7.1开发虚拟创客空间 虚拟创客空间就是一个网络平台,应该满足以下两大基本 功能: (1)信息资源 1)资源整合、发布。一方面仿效英美公共馆创客空间网站,设 计网页结构,对该馆创客空间基本信息进行收集、整合与发布; 另一方面将上图拥有的支撑创客活动的数字资源和馆藏资源整合 到网站上供创客使用。 2)资源对接。即将创新需求方与技术提供方两方面资源对接, 为创客线上洽谈研发和项目承接提供服务。 (2)用户交互。应建立起创客虚拟社区,满足用户学习交流的 需求。这一点可以充分利用其新媒体平台如微博。另外,也可以 根据不同专业、主题将虚拟社交空间细分为各种小空间,吸引创 客针对某一研发议题进行探讨,推动创客团队的形成。这一点就 类似于论坛、贴吧、问答平台等,可以在知乎或者百度贴吧开设 创客交流话题或贴吧然后连接到官网中。 总之,最后一个完整的虚拟创客空间应有由以下几方面组成:数 字资源整合平台、信息检索与获取平台、在线虚拟社区等。 7.2建设围绕创客教育的服务活动体系 创客教育是由美国推出的全新教育理念,又叫做STEAM教 育,是将五大学科——科学(Science)、技术(Technology)、 工程(Engineering)、艺术(Art)、数学(Maths)融合起来的 教学。现代社会越来越需要个人具有STEAM知识与技能,而培 育好青少年和幼儿的STEAM能力甚至影响到国家未来的创新创 造力。因此我国在“大众创业,万众创新”的浪潮下也越来越重 视创客教育的发展,2017年中央和地方政府出台了一系列创客教 育政策,我国各地的中小学已陆续建立起了一批实验室。因此公 共馆也应充分利用已建立的创客空间参与到创客教育中。上图可 以在借鉴英美先进经验的基础上,围绕创客教育完善服务活动体 系。具体措施有三条: (1)完善硬件资源。进行创客教育就是要利用先进的数字制造 工具培养人们的创新思维、动手能力和对先进技术的认识。费耶 特维尔和埃克塞特等的英美图书馆创客空间普遍引入了3D 扫描 仪、激光切割机、乙烯切割机、数控机床等先进设备围绕机器人 、工程、数字创作、3D设计、科学实验、计算机编码等主题提 供实践学习。而上图的硬件设备则主要包括3D打印机和数字媒 体,种类稀少,因此要开展STEAM教育必须完善硬件资源。 11 /page (2)发展丰富的合作伙伴。STEAM教育需要结合相关领域的先进实践,因此需要与创新型企业、大学等机构建立合作关系。如费耶特维 尔图书馆与15家机构建立合作关系,包括锡拉丘兹大学、NOVA教育、三角科技教育联盟、ITT技术、HiTech Rochester等。 (3)建立STEAM虚拟平台。费耶特维尔图书馆除了在图书馆官网开辟了创客空间专栏还开辟了创客教育专栏,在该网页FFL整合了该馆 STEAM发展的基本情况、STEAM资源、STEAM数据库以及活动月历等信息。 此外,在围绕STEAM学习开展服务活动时还可以学习费耶特维尔图书馆划分年龄层次,学习埃克塞特图书馆设置定期的工具技术培训课 程,并对创客的学习结果进行线上或线下测验。 7.3完善创客空间的服务队伍 (1)加强馆员的培训。应设置以实用技能为主要内容的培训课程,丰富馆员的知识结构(尤其是科普知识),提高其服务水平,使馆员 能对创客进行合理引导,并组织与指导项目研发, 从而满足不同类型创客的体验。如费耶特维尔图书馆对图书馆员工进行持续、与时俱 进的培训,培训内容涉及到各种专业层面的实用知识,还包括 CPR、人工呼吸等急救课程。 (2)发挥志愿者的作用。优先引进具有专业背景知识或特殊技能的志愿者。图书馆在引进专业志愿者的同时还应加强对他们的管理,合 理安排服务时间,促进志愿者与馆员的协作。如埃克塞特图书馆创客空间的课程主要由具有专业知识背景的志愿者提供,而且目前他们 拥有了50多名志愿者,通过轮班制使课程的开设保持较高的频率。此外旧金山公共图书馆也建立了自己的志愿者团队,培训空间的一些 培训课程由志愿者团队完成,如Computer Help活动。 7.4改善创客空间的成长环境 (1)加强官方宣传,提高我国创客空间在社会公众中的认知度和认可度。如英国政府在信息公开网上专门开辟了创客空间专栏向大众介 绍创客运动,甚至整合了创客空间构建培训资料帮助各个有意愿的主体参与创客空间的建设。 (2)加强行业协会的统一指导和规划,出台一份区域乃至全国性的创客空间设置指导意见文本。如2013年10月,ALA与创意制品分享社 区Instructables.com合作建立Make It @ Your Library,将所有来自Instructables的项目按工具、空间、对象、专题种类、成本、时长等进行分 类,方便图书馆员利用Make It @ Your Library寻找合适的创客创意和创客项目。 (3)加大资金支持和保障。构建创客空间费用不菲,包括启动成本、每年运营成本。启动成本主要包括人员和导师费用、空间建造、工 具和材料以及其他费用。相比较英美,我国图书馆创客空间的经费来源单一,以政府财政支持为主,在运营过程中难免会出问题。而除 了政府财政拨款,行业协会、地方企业、公益基金等都可以为图书馆创客空间提供资金支持。这就要求一方面行业协会等主动加强对图 书馆创客空间的支持,如2011-2015年间图书馆服务协会 (IMLS) 共投入了超过 4 百万美元的基金来支持打造图书馆及博物馆中的创客空间 及与创客相关项目;另一方面图书馆也要主动争取,如美国新泽西州立图书馆与本地图书馆联盟协作,共同为新泽西州的各类型图书馆 提供创客空间的建设资金。 7.5建立创客空间的用户评价反馈体系 在考察上海市图书馆以及其他图书馆的实践时均没有发现其创客空间建立了完善的用户评价反馈体系。而为了考量创客空间的服务 绩效和质量,图书馆应建立创客空间服务反馈体系,积极与用户进行交流沟通,多方收集意见与建议。图书馆可以根据创客服务满意度 调研问卷、创客空间网页的浏览访问量、创客实体空间的访问量等,结合创客项目的资金投入等指标来综合考量和评判创客空间的服务 效果。 此外,要调查用户创客服务的满意度需要建立起完善的质量评价指标。目前我国对该方面的研究处于起步阶段,例如柴源等人以 西安航空学院图书馆,通过三轮用户访谈构建起了一个涵盖实体创客空间、虚拟创客空间和创客空间整合服务的质量评价体系。我国公 共图书馆应尽快将已有的研究成果应用到现实的实践活动中去。 基于加权TextRank的新闻文摘生成方法 2019级硕士研究生 李明菲 摘要:随着信息时代的到来,网络新闻资源呈指数级增长,为了获得高质量的自动新闻文摘,本文提出 了基于TextRank算法,考虑关键词和标题对使用Word2vec生成的词向量进行加权平均,得到的语句重要 性评分再经过考虑语句位置、语句长度等语句特征更新分数后进行语句排序,经过冗余信息筛选得到自 动摘要的新闻文摘生成方法。与传统TextRank算法相比,生成的摘要具有较为明显的质量提升。 1 绪论 1.1 研究背景 信息时代的到来在给人们带来海量知识的便利同时,也带来了大量的数据冗余和垃圾信息。信息源过多及信息内容和观点的大量重复 导致了互联网上新闻资源剧增,如何从内容繁多的新闻网页中快速有效地获取主要信息,提取新闻中用户需要的信息是文本摘要领域研究 的重要方面,非常具有现实意义。文摘是全面准确地反映某一文献中心内容的简单连贯的短文,是文章发布和文章阅读极为重要的一环, 读者可以快速阅览摘要继而判断文章的续读必要性。 自动文本摘要(Automatic Text Summarization)是一种针对信息过载现象利用计算机程序将文档自动转换为摘要的信息压缩技术。代 替速度较慢的传统手工处理文献方法,从而帮助人类快速、准确、全面的获取重要信息。近年来,自动文本摘要技术在科技情报领域的应 用不断扩展,提高了科技工作者浏览、处理信息的效率,是信息检索领域的研究热点之一。 1.2 研究目的与意义 网络新闻使人们获取信息的重要途径,在快节奏时代,传统的人工文摘由于代价高、耗时长等因素已不能满足人们对于新闻文摘日益 增长的实际需求,因此自动文摘技术渐渐应用到了新闻领域。 本文基于给用户提供快速、准确的单篇新闻文摘的目的,提出了一种基于TextRank算法,通过文本特征、句法结构等因素加以影响的新闻自 动文摘生成方案。 本文在单篇新闻的自动文摘生成研究中,通过学习并借鉴前人对于自动文摘生成的成果,结合新闻文档的特殊行文结构与句法特征, 提出新的新闻自动文摘生成方案,为单篇新闻的文摘自动系统的开发能够起到一定的参考意义。 12 /page 1.3 研究内容 本文在经典TextRank算法这一近两年较为成熟的文本摘要算 法基础上,通过选择更高效的句子相似度计算方法,以主题词、 标题衡量句子权重和根据新闻文档的行文结构进行首段句子加权 、特殊句子处理这几个方面来进行TextRank算法的改进,提出一 种新闻自动文摘生成的解决方案。 与经典TextRank文本摘要算法相比,本文算法生成的自动摘 要在可读性、信息覆盖率上都有所提升,表明本文提出的新闻文 摘自动生成方法具有一定的可行性。 1.4 研究方法 文献研究法:本文在开题伊始,通过调查“自动文摘生成 ”、“TextRank改进”、“新闻自动摘要”三个主题及其相似主 题进行文献调查,达到全面、准确地了解研究内容。 统计分析法:基于本文提出的基于加权TextRank算法的新闻 文摘生成方法在大量的新闻语料上进行文摘自动生成,通过实验 结果的统计分析,并与传统TextRank算法的实验结果进行比较, 得到本文方法的实验结果。 自然语言处理:全文基于自然语言处理技术,通过对词语构 建空间向量模型,用词向量表示词语本身及其在自然语言中的“ 使用习惯”,结合新闻行文习惯与句法结构,衡量词语构成的句 子在自然段落及文本中的重要性,进而输出重要性较高的句子生 成文摘。 1.5 论文结构 本文一共包含五个部分,各部分内容如下所示: 第一部分,绪论,主要包括研究背景、研究内容、研究方法。 第二部分,相关研究,主要对文献自动摘要技术领域、TextRank 算法及新闻自动文摘领域的相关研究进行综述。 第三部分,研究设计,主要从句子相似度加权计算、基于关键词 和标题的加权相似度计算、特殊语句处理三个方面来对经典 TextRank算法进行改进,并对算法实现过程进行简述。 第四部分,实验与分析,包括:训练语料库的选择、获取、预处 理;词袋模型的构建;新闻语料的选择、获取、解析转换;冗余 处理以及从连贯性、内容概括角度的摘要评价。 第五部分,结论与展望,对本文研究结论、不足之处进行总结。 2 相关研究 2.1 自动文摘相关研究 第一个自动文摘系统是由IBM公司的Luhn于1958年研制成功 ,标志着自动文摘历史的开始,起初关注度并不高,但随着大数 据时代海量信息的爆炸式增长,快速、准确地提取文档中心内容 并去除冗余的自动摘要的重要性逐渐被人们意识到。 自动文本摘按照产生方式可分为抽取式和生成式。抽取式自动文 摘是从原文中抽取一些含有主题内容的语句生成文摘。生成式自 动文摘又称为基于理解的自动文摘,是通过对原文进行语义分析 生成摘要,主题来源于原文,内容上可以包括原文没有出现的语 句和词项。生成式自动文摘更为复杂,需要较为深入的自然语言 特征,目前还在起步阶段,故不具有实用性。本文主要面向抽取 式自动文摘。 图1是抽取式自动文摘的生成流程。其中语料预处理是指对 语料进行格式统一,如编码格式、简繁体等,并且进行文本分割 ,然后定义特征集合并根据不同的特征分析计算语句权重,排序 后依次输出适量语句生成摘要。 在选取特征的研究中,Luhn首次提出了“词频”的方法, 通过计算文章中关键词的出现频率来找出高频语句组成文摘,同 时,他提出高频词中要排除不包含语义信息的词语。1969年, Edmandson在此基础上提出一种启发式方法,即通过选取标题词 、语句位置、线索词和关键词频四种特征表示语句通过加权来获 取关键语句。 对于基于词语共现频率作为语句的影响权重这类算法依据词 语的统计特征,而往往忽略了词语语义、语法等要素,仅仅将一 篇文档作为词语集合,且词语之间相互独立,如果能够将外部知 识添加到自动文本摘要算法之中,理论上是可以改进算法的。在 新闻自动文摘生成研究中,张筱丹、胡学钢提出了考虑词频、标 题、位置、线索词、句法结构5种形式特征来选取摘要句。 基于图模型的语句排序算法就考虑到了全局信息,其通过 把文本分割成若干组成单元,并以其作为顶点,基于语义或词汇 度量文本单元之间的相似度,并且加权以反映文本单元的相似程 度建立拓扑结构图, 并对其进行排序, 实现提取关键词、生成文摘 等工作。 2.2 TextRank算法相关研究 TextRank是基于图的自动摘要生成的经典算法,Mihalcea在 PageRank算法的基础上提出了以句图结构表示文档,计算文章内 在结构,主观上评价语句重要性的TextRank算法,该算法意义重 大,极大的推动了自动文摘的发展。 TextRank算法的基本思想是通过把文本分割成若干组成单 元(单词、语句),这些单元作为顶点集,单元间的相似度则构成 边以建立文本图, 通过边及边的权重对文本中的组成单元进行排 序, 实现关键词提取、文摘生成, 简单有效,得到了广泛的应用和 改进。 在句子相似度的计算方面经典TextRank算法是基于语句间共 现词语个数,Blanco和Lioma的研究考虑了词语间的语法关系及 共现关系构建无权的TextRank网络图。Mihalcea将标题、段落、 特殊语句、语句位置和语句长度等信息引入TextRank图模型构造 中,曹洋等人则进一步讨论了计算句子相似度的方法,并在计算 语句权重方案中提出结合语句位置、线索词的因素。蒋昌金等则 考虑词频、词性、词的位置、词长等构建词语权重计算方式,通 过将解释主题的词和短语赋予较高权重来生成摘要。 随着深度学习的兴起,由Google研究团队开发出的用于解析语言 的一款开源的学习工具Word2Vec则简化了句子相似度的计算。 通过使用词向量来表示词语,并且表示词语之间的关系,计算语 句的相似度被简化为多维向量运算。 2.3 新闻自动文摘相关研究 目前,国内新闻自动文摘研究中,大部分是对文档通过文本 特征进行聚类或信息抽取,从而形成基于话题、事件、时间戳或 人物的主题新闻簇的多文档自动文摘研究,而单文档的新闻自动 文摘研究较少。这是因为基于单文档的自动摘要生成由于文档信 息较少,可利用的信息不足,因此摘要句的判断难度往往比基于 多文档的要难的多。 在已有的研究成果中,李峰等人基于TextRank使用扩展关键 字的方法提取新闻自动摘要,取得了较好的效果。刘茵则借鉴模 糊决策理论,将判断语句的重要性作为一种决策过程,融合各文 本特征构造更灵活的决策公式。王玮等人则提出计算语句与标题 的相似性,并融合句子情感以生成自动摘要。这些研究只关注了 文本或语句的本身特征,而没有考虑将外部丰富的语料或领域知 识引入系统,还有改进的空间。 13 /page 本文在新闻的单文档自动文摘生成研究中,针对其单文档信 息不足的缺点,提出了通过引入维基百科作为语料进行训练,获 得的模型包含大量的自然文本结构规律与语法信息,并结合深入 考察文本内部不同单元的相互关系两种方法来丰富文档信息。即 基于TextRank算法建立图模型表示词-句关系,使用基于融合主 题词和标题的加权余弦相似度计算方法,并考虑到新闻文档中首 段句子对于文摘生成效果的影响,而对句子权重部分进行了针对 性的改进,提出了一种新的新闻自动文摘生成方法。 3 研究设计 本文在经典TextRank算法上,将主题词、标题作为权重加入 相似度计算以对句子排序产生影响,使生成的文摘更加符合文档 主题内容。 同时,根据新闻文档的行文习惯与句法结构,将处于首段的 句子、过长过短的句子及疑问句、感叹句等进行特殊处理,让基 于单篇的新闻文档生成的自动文摘更为精准。 词频TF的计算公式: 逆向文件频率 (inverse document frequency, IDF) 是统计某个词 与在语料库中出现的文档个数,IDF主要用于与TF结合使用,TF 得到文档的高频词,IDF度量高频词是否对于该文档具有“独特 性”,而不是作为广泛文档中均存在的常用词。因此引出了另一 个概念TF-IDF(Term Frequency-Inverse Document Frequency, 词频逆文件频率)。 当某一词语在某一文档内为高频词,且该高频词在整个文 档集合中每个文档中出现的次数少,那么该词语应有一个较高的 TF-IDF值。因此,TF-IDF常用于过滤掉文档中出现高频却又常 见的词语。 逆向文件频率IDF的计算公式: 3.1 句子相似度计算 相似度作为图模型中的“边”结构,是图模型构造的关键, 也是输出自动文摘中作为“顶点”的语句排序的重要依据。作为 基于图的经典算法TextRank,使用的是基于内容覆盖率的相似度 计算方法,通过查阅文献,本文选取了基于余弦公式的相似度计 算,下面将分别介绍这两种计算方法的原理及公式。 3.1.1 基于内容覆盖率的相似度计算 通过计算语句与语句之间的内容覆盖率即计算相同文本单 元的占比,可以得到语句的相似度。 原始文本经过停用词过滤和分词后,每个语句转换为单词 组成的列表。这种相似度方法就依据两个语句共同包含单词的个 数。同时,取对数以避免长语句的影响。 相似度计算公式: 经过上述公式的计算,得到语句的相似度作为权重,带入 TextRank算法,计算出每个顶点的重要程度,排序输出后即为文 摘。 3.1.2 基于余弦公式的相似度计算 余弦相似度是指计算向量间的夹角余弦值来度量两个向量的 相似度,依赖于由Word2Vec模型生成的词向量进行计算,余弦 相似度的原理是通过坐标值将向量绘制到向量空间中,如二维空 间。 余弦公式如下: 余弦值越接近1,两个向量越相似。相对与欧式距离,余弦 值更能体现向量的方向性差异,所以本文选用余弦公式作为相似 度度量。 3.2 基于语句特征的加权相似度计算 3.2.1 基于关键词的加权计算 在句子相似度的计算中,具有一定主题揭示意义的关键词 能够为所在语句在输出摘要的排序中起到积极作用,某一文档的 关键词往往在该文档中使用频繁,且不常在其他文档中出现。因 此,本文使用TF-IDF对可能的关键词进行定义,词语的TF-IDF 值越高,则其为关键词的可能性越大,通过使用TF-IDF值作为权 重,构建加权词向量的余弦相似度计算。 词频 (term frequency, TF) 是指某词语在该文档中出现的次数 。为了统一度量,计算其在文档中的出现频率。 3.3 特殊语句 本文根据中文新闻文档的写作习惯、语法结构等因素考虑 进文摘生成过程,将其中一些特殊语句的权重进行了适当调整。 3.3.1 首段语句 根据新闻的特点,第一个段落往往是具有高概括性、精炼 性的主题内容,符合摘要的要求并极有可能成为摘要的组成部分 。因此物理位置处于第一自然段落的语句的权重需要提升,本文 将该部分语句的权重增加至原来的两倍。 3.3.2 语句长度 语句长度在验证语句是否能够作为摘要组成部分中也是一 个重要的因素,过长或过短的语句在生成摘要中应该删去,权重 降为零或负数。 本文中将长度系数 <0.2的语句判定为语句过短,长度系数 >0.8的语句判定为语句过长。长度系数定义为: 3.4 算法实现 本文算法的实现过程具体如下: (1)对训练语料进行预处理 包括使用Wikipedia Extractor抽取语料内容,使用OpenCC进行简 繁转换,进行分句、分词和去除停用词。 (2)进行词袋模型训练 使用Word2vec模型生成词向量,生成向量空间模型,为相似度 计算做好准备。 (3)对实验文档进行预处理 对文件进行转码解析,将整体数据文件切分为一条新闻存放在一 个文档中,并按照新闻频道分类存放。读入新闻文档后进行分句 、分词。 (4)计算词语的TF-IDF值,归一化处理 计算新闻文档中词语的TF-IDF值,进行归一化处理(也可 称为标准化处理),使所有的TF-IDF值处于[0,1]之间。使标准化 的TF-IDF值作为与其对应词语的词向量的权重。 本文统一使用的归一化方法为min-max标准化,公式为: 14 /page (5)计算句子相似度,构建图模型,计算加权的句子相似度。 基于余弦公式计算句子相似度,通过TextRank算法构建图模型, 基于TF-IDF构造的词向量的权重进行加权,计算加权的句子相似 度。 一般的,我们句向量可以通过句中词向量求平均。但是,每 个词对于句子的价值不一定是一样的。所以我们是有TF-IDF权来 判定词对句子的价值。同时使用归一化处理,来使得权重和为1 。 (6)统计句子得分。 (7)对首段语句进行分数加倍处理,作为第二轮评分; (8)进行语句长度过滤,去除疑问句等不适合做摘要的语句; (9)将候选摘要语句原文顺序输出评分TopN的语句组成摘要。 (10)摘要质量评价。 将在线语义分析系统生成的摘要作为参照标准,与传统 TextRank算法进行比较,其中人工评价摘要阅读、逻辑连贯性, 内部评价主体内容概括质量即信息覆盖率。 用词转换,支持包括中国大陆、中国台湾、中国香港等,其官网 位于Github中(https://github.com/BYVoid/OpenCC)。 结巴分词是Python的一个中文分词模块。 Gensim是可以用于从文档中自动提取生成语义主题的Python 库,它支持TF-IDF、LSA、LDA和Word2Vec等多种主题模型算 法,可以借助其进行信息检索、相似度计算等。 4.3 训练语料库预处理 4.3.1 语料说明 中文维基百科语料库提供的是XML格式的数据集,大小约为 1.37GB,使用的语料数据条目达96万余条,xml格式说明如图所 示。 4 实验与分析 本文介绍了基于经典TextRank算法,考虑相似度计算方法、 基于语句特征加权和特殊语句处理等因素的加权TextRank算法的 新闻文摘生成。实验过程包括语料库的选择、获取、预处理,词 袋模型的构建,新闻语料的选择、获取、解析转换,在于传统 TextRank算法的比较重,加权TextRank算法在新闻文摘自动生成 中在可读性、连贯性及信息覆盖率上都有所提升。 4.1 语料库 4.1.1 训练语料 本研究选取来自中文维基百科语料库作为训练用的数据集 。中文维基百科是维基百科协作计划的中文版本,自2002年正式 成立,由维基媒体基金会负责维持,截至2019年5月21日,中文 维基百科已拥有1,058,261篇条目,总编辑次数达54,189,817 次。此外还设有其他独立运作的中文方言或版本,包括闽南语维 基百科、粤语维基百科、文言文维基百科、吴语维基百科、闽东 语维基百科、赣语维基百科及客家语维基百科等。 4.1.2 测试语料 用作实验测试的语料是搜狗实验室新闻分类语料库中的搜狐 新闻资源,其来自搜狐新闻2012年6月—7月期间奥运、传媒、公 益、互联网等共18个频道的新闻数据。搜狗实验室(Sogou Labs )是搜狗搜索核心研发团队对外交流的窗口,提供分类新闻、标 注图片等数据资源。 4.2 实验环境 硬件信息: Intel Core i5-4200 CPU @ 1.60GHz 内存6GB Intel 酷睿i5-4590 CPU @ 3.30GHz 内存8GB 操作系统: Windows 8 企业版 Windows 10 专业版 开发语言: Python 集成开发环境(Integrated Development Environment, IDE): Anaconda spider 主要使用的开源工具: Wikipedia Extractor、OpenCC、结巴分词、Gensim Wikipedia Extractor,中文名是维基百科提取器,是基于 python语言用于提取维基百科语料库文章的一款工具。 OpenCC(Open Chinese Convert,开放中文转换) 是用于中文 简繁转换的工具,支持词汇级别的转换、异体字转换和地区习惯 4.3.2 内容提取 使用Wikipedia Extractor工具对语料内容进一步提取,从原始 的xml文件中提取出标题和正文,对965446篇文章进行抽取。 4.3.3 简繁转换 由于词条原文本中混杂了繁体和简体,需要使用OpenCC工 具进行统一转换为简体。 4.3.4 文本分割 首先去掉特殊字符,使用Wikipedia Extractor工具提取的文章 ,会包含许多

《研究生通讯》 2020年第2期(VOL68).pdf 




