基于智能Agent的中文元搜索引.pdf
基于智能 !"#$% 的中文元搜索引擎模型研究 王浩鸣 张曰贤 吴志军 史西兵 (西安财经学院计算机科学与技术系"西安 1&""2&) 345678 &95:6(-;5678$<6=>*$*?=$@( 摘 要 论文讨论了现有搜索引擎技术的缺点"比较了中文与英文分词方法的差别"描述了中文文档的基于无词典信息 抽取方法’ 通过分析用户搜索信息的历史"构建用户的个性化搜索模型"并将这些文档进行分档"在本地服务器上进行整 理与保存’ 文中对系统涉及的关键技术&文档类关键词提取方法 !用户特征的建立方法!页面价值评比算法等进行了 描 述’ 最后"对进一步研究指明了方向’ 关键词 智能代理 个性化模型 信息检索 文章编号 &""!4A%%&4 (!""#)%&4"B4"% 类关键词 文献标识码 , 中图分类号 CD&A*CD%&&$& ’#()*+ ,- %+. /+0$.’. 1#%234.2)*+ 5$"0$. 6,7.8 9:’.7 ,$ ;$%.880".$% <".$% =!"# >:,?0$" @$%"& AB.C0:$ D’ @+0EB$ F$( G0H0$" (E*F)# G> HG5F=)*+ I@7*(@* "J7$6( K(7L*+M7)N G> O7(6(@* 6(? 3@G(G57@M"J7$6( 1&""2& ) IH’%):J%& C97M F6F*+ 7()+G?=@*% )9* 5*)9G? *<)+6@)7(- )9* :G+?M >+G5 ?G@=5*()M :7)9G=) ?7@)7G(6+N "/=78&% )9* F*+MG(687P*? 5G?*8 6@@G+?7(- )G )9* :*/ F6-*M )9* =M*+ 96% L7M7)*? )9* ’()*+(*) "6(? ?7M@=MM*% )9* Q*N )*@9(G8G-7*M" M=@9 6M @86MM7>N7(- 5*)9G?M 6(? @68@=86)7(- )9* F6-* L68=*#C9* +*86)7L* 5*)9G?M ")9* M)G+7(- 6(? )9* R=*+N7(- G> M*574 M)+=@)=+* 7(>G+56)7G( ’+* F=) >G+:6+?#’( )9* 86M) F6+6-+6F9 ")9* >=)=+* :G+Q (% 5*()7G(*?$ K.LM,)7’ & (()*887-*() 6-*() ")*+MG(687P*? *+&,- "((>G+56)7G( .*)+7*L68 "/86MM Q*N:G+?M 问题的提出 现 重 复 的 内 容"即 相 同 的 内 容 在 很 多 网 页 中 出 现 "从 而 导 致 返 由于 ’()*+(*) 是一个开放!分布的信息空间"它本身所固有 回给用户的结果很多但有用信息很少"因此通常采用统计学中 的特点已经明显地阻碍了人们充分地使用 ’()*+(*) 内的信息资 的 聚 类 分 析 对 查 询 结 果 进 行 分 类 "剔 除 相 同 的 结 果 "并 从 每 一 源# 用户在 ’()*+(*) 内进行信息检索时可能会出现$信息过载% 类结果中挑选出一个最具有代表性的结果提交给用户’ 或 $资 源 迷 向 %"即 用 户 不 知 道 如 何 有 效 地 利 用 资 源 "以 致 达 不 &$! & 到所期望的高查全率与高查准率 !&"!" # 现有系统的缺陷 (& )非个性化检索方式适应用户兴趣变化的能力较差 ’ 现 本文提出一种以智能信息 ,-*() 为工具的 ’()*+(*) 中文信 有大部分信息检索系统采用关键词输入方式进行检索"对任何 息智能化获取方法"从用户过去浏览的网页中自动学习用户的 用 户 都 采 用 同 一 种 模 式 "很 容 易 让 用 户 感 到 迷 茫 "有 时 用 户 也 浏览 习 惯 与 基 本 需 求 模 型 " 从 而 为 用 户 提 供 具 有 个 性 化 .*/ 无法准确地表述自己的兴趣’ 尽管有些系统为此进行了改进" 信息导航服务# 确实改善了检索效率’ 但由于没有不同个性化模式之间的相互 &$& 目前已有的技术 智能 ,-*() 是智能化程序的集合"它们能够学习用户的 需 求"并利用搜索引擎等系统提供的现有服务来帮助用户检索所 学习和信息共享机制"并不能很好地适应用户兴趣变化’ (! )用户与检索系统的交互方式比较单调 ’ 针对不同需求 的用户"提供不同的输入方式是目前现有系统所缺少的’ 需 的 信 息 "这 类 系 统 的 组 成 基 本 类 似 &由 代 理 服 务 器 模 块 及 学 (% )缺少分布式智能信息检索和适应信息源信息变化的能 习模块构成’ 代理服务器模块用于实现用户与 .*/ 之间的交 力’ 现有系统主要通过学习用户的历史关联信息 "在线引导用 互 "而 学 习 模 块 则 向 服 务 器 提 供 用 户 模 型 信 息 "从 而 使 用 户 与 户检索感兴趣的信息’ 这种为用户导航的方式无法避免用户浏 .*/ 的交互更具个性化’代理服务器储存已访问过的文件地址 览以前已经浏览过而现在不需再看的文档或链接 ’ 此外"由于 或访问内容"学习模块则使用这些信息提取并建立用户兴趣模 没有有效地适应信息源信息变化的机制"不能及时为用户提供 型’ 涉及到的关键技术有& 新的信息"因而无法为用户快速定位感兴趣的主题’ (& )关 键 词 提 取 &分 为 基 于 词 频 的 提 取 技 术 和 基 于 语 义 分 应 该 指 出 "上 述 几 项 开 发 成 果 "基 本 都 是 基 于 英 语 信 息 的 析的提取技术’ 但由于对自然语言理解的研究尚未达到一定深 获取’由于英语与汉语的差异"对广大使用汉语的 ’()*+(*) 用户 度"目前基于词频的关键词提取技术仍然占据统治地位’ 而 言 "困 惑 依 旧 "而 其 浏 览 !获 取 汉 语 信 息 占 所 需 信 息 的 大 多 (! )查 询 结 果 的 聚 类 分 析 &搜 索 引 擎 的 查 询 结 果 中 经 常 出 数 "因 此 "如 何 有 效 改 善 中 文 信 息 获 取 的 质 量 "已 成 为 影 响 ’(0 基金项目&陕西省自然科学基金项目(编号&0112314 )资助 作者简介&王浩鸣(&S2A4 )"男"汉族"江苏省靖江人"副教授"西安交通大学电信学院博士生"主要研究方向&信息检索与安全+数据库应用’ 562 !""#$%& 计算机工程与应用 ’()*(’ 中文信息资源优势发挥程度的重要因素! 果将这些 内 容 全 部 下 载 到 本 地 "再 进 行 剔 除 "未 必 是 个 好 的 本文的目的是利用智能 +,(*’ 技术构建元搜索引擎"通 过 方法! 部分 $ 为信息分类与存贮模块"其功能是将部分 # 得到的 在本地服务器数据库中记录用户的行为特点"并构造用户访问 内容根据规定的分类原则进行分类"并保存到本地的存储介质 模型"从而为用户提供具有个性化的服务! 本文的内容按如下结构组织#第 ! 节描述系统的结构并介 上 "保 存 的 信 息 根 据 网 页 内 容 的 不 同 分 为 两 类 #一 类 是 保 存 信 绍了系统各部分的功能$ 第 % 节讨论系统构建中的关键技术$ 息本身"另一类是保存网页链接地址! &分类器’是本模块的关 第 - 节与第 # 节对本文进行总结并对下一步的研究指明方向! 键 部 分 "对 于 已 经 保 存 的 信 息 需 要 定 时 更 新"总 是 将 最 &有 用 ’ 的信息存放在最容易找到或查询代价最小的地方! ! 本模块涉及到非结构化信息的存储技术"在本系统中第一 系统结构描述 系统的最终使用者是广大的 .*’()*(’ 使用者" 其目的就在 步采用简单的变通方法"该技术本身将作为进一步研究内容! 于 帮 助 广 大 用 户 能 更 好 地 利 用 网 络 信 息 资 源 "因 此 "本 系 统 应 部分 % 是面向用户的服务窗口" 表现为内部搜索引擎 "它 该能够自主处理网络的信息资源%收集用户感兴趣的信息并将 与其它商品化搜索引擎的不同之处在于它只对系统内部存储 它 们 加 以 过 滤 "将 &有 用 的 ’信 息 在 本 地 服 务 器 加 以 保 存"它 应 的数据进行检索"相比而言它得到的结果应该比商用网络搜索 具有软件的易使用性%界面的友好性%推理的适用性%系统的可 引擎更具权威性! 总 的 来 说 "信 息 获 取 不 外 乎 是 &查 全 ’与 &查 准 ’两 方 面 "要 移植性等特点! 系统的研 究 成 果 显 然 不 是 想 取 代 /0122 %322,4( 等 通 用 搜 找到一个对所有用户都能满足这两方面要求的系统并不容易 " 索引擎" 而是想为用户提供一个具有个性化的搜索引擎入口 " 因此" 本系统设想首先在特定的几个学科提供个性化的服务 " 系统的结构可以概括为#信息的收集%分类与发布等方面! 结构 在时机成熟后再推广到其它学科! 如图 & 所示# 内部搜索引擎 1$ 信息内部 存储 % 2% 从总体上看"本系统需要进行的研究主要包括# " 商业搜索引擎 ’( " 商业搜索引擎 ’( ) # 分类器 ’( * ! 商业搜索引擎 # 网页抓取器 + ,整合%剔重 -./ ! 0 (& )知识的获取和融合! 主要研究#非规范知识的获取 "矛 用户 个性 特征 分析 盾 知 识 的 融 合 "时 变 知 识 的 融 合 "不 确 定 知 识 的 融 合 和 多 表 示 知识的融合等! 知识的获取首先要解决检索需求的表达问题 "人们在进行 信 息 查 找 时 "往 往 难 以 准 确 表 达 自 己 的 信 息 需 求 "这 就 需 要 系 网页 $(6 !"#$%& 图% 系统关键技术探讨 系统结构示意图 统利用自主学习的功能对用户的信息需求进行分析 "主动搜集 用 户 平 时 感 兴 趣 的 信 息 "分 析 用 户 需 求 的 个 性 化 特 点 "从 而 建 立用户个性化需求模式"引导和帮助用户正确表达其思想! (! )知识的转换和传播! 重点解决#! 不同类(非规范)知识 用户在使用时可以直接访问 .*’()*(’ 也可以通过本系统提 供 的 具 有 个 性 化 分 析 功 能 的 门 户 网 站 访 问 .*’()*(’ ! 系 统 由 # 部分构成"其中# 表示的相互转换$" 内涵和外延%定量和定性知识表示的转换$ # 不同抽象层次之间(面向知识内涵发掘)的知识表示转换! 以因特网上知识为代表的非规范知识大部分是非结构化 部分 ! 为用户个性特征分析模块"本模块通过自主学习的 或半结构化的" 与通常存放在数据库里的结构化信息不同 "非 方式完成指定功能"用户在刚开始使用时系统并没有用户的兴 结构化的自由文本通常使用自然语言处理技巧"其抽取规则主 趣目标"系统通过学习用户检索的目标网页逐步建立起用户的 要建立在词或词类间句法关系的基础上" 需要经过句法分析% 个 性 特 征 "并 将 该 内 容 写 入 到 本 地 数 据 库 中"在 用 户 下 次 使 用 语义标注% 专有对象的识别和抽取规则的制订等步骤进行处 时"上次建立的个性特征将起指导作用! 理! 半结构化数据介于自由数据和结构化数据之间 "其特点是 部分 " 为若干个商业搜索引擎的集合"系统首先分析商业 没有事先给定的数据模式" 或者数据模式对数据的约束不强" 搜 索 引 擎 的 搜 索 语 法 表 达 "再 分 析 用 户 的 个 性 特 征 "然 后 将 用 模式的规模比较大 (有时甚至可以大过数据)" 或是经常变动 户的搜索意愿以合适的方式提供给这些商业搜索引擎"并将返 的"数据未赋予严格的类型! 非规范知识进行转化后"才能得到 回的结果交由部分 # 进行处理! 有效的共享和利用! 部分 # 为信息获取模块"其功能是将从多个商业搜索引擎 用户个性获取中的关键问题是不确定性问题! 根据处理不 中 获 取 的 结 果 进 行 整 合 并 剔 重 "得 到 相 关 网 页 信 息 列 表"然 后 确定性问题的方法可以将这些技术分为以下几类# 通过&网页抓取器’将这些内容抓取到本地"其中网页抓取器为 (& )基于贝叶斯网络的用户兴趣获取技术$ 本模块的关键部分"它需要根据用户的个性特征及网页价值判 (! )基 于 合 作 过 滤 (5244062)0’78( 974’()7*,)的 用 户 兴 趣 获 取 断算法" 对欲读取的页面进行判断以决定是否需要下载到本 地"显然如果将网页内容全部下载到本地再对页面进行价值判 断 是 比 较 简 单 的 做 法 "但 它 可 能 引 起 较 大 的 网 络 流 量 $如 果 能 够在网页下载前先对其价值进行判断可以解决网络流量的问 技术$ (% ) 基 于 :;< (:(=>?’()@;109() !1(2)A 29 (87B(*C( ) 的 用 户兴趣获取技术$ (- )基于模糊逻辑的用户兴趣获取技术$ 题"但会占用对方主机的资源"两种方法各有所长 "从已得到的 (# )基于机器学习的用户兴趣获取技术等! 实 验 数 据 来 看 ".*’()*(’ 网 上 有 些 网 站 的 内 容 其 实 是 其 它 一 些 本系统采用的具体方法为# 站点内容的重复"这些信息对用户来说可能并不需要"因此"如 (& )建 立 各 个 具 体 学 科 领 域 的 学 科 类 关 键 词 分 布 情 况 "以 计算机工程与应用 !""#$%& "&& 特征向量的形式表示!如 !&!"!!!# 半结构化信息的转换与保存 %$% $! %根 据 用 户 访 问 的 历 史 页 面 !从 中 抽 取 出 用 户 特 征 类 关 键词!以特征向量的形式表示!如 ""# 6+7 上的数据与传统的数据库中的数据不同’传统的数据 库都有一定的数据模型! 可以根据模型来具体描述特定的数 $% %计 算 "" 与 !&!& !!! 之 间 的 余 弦 距 离 !其 中 距 离 最 小 的就是最接近的兴趣领域’ 据’ 而 6+7 上的数据非常复杂!没有显式的模式描述!每一站 点的数据都各自独立设计!并且数据本身具有自述性和动态可 可以看到! 相似度计算方法都以余弦角公式为计算基础 ! 变性’因而!6+7 上的数据具有一定的结构性!但又是一种非完 在向量模型及其扩展模型中广泛使用’ 但正如 ’()*+,, 大学的 全结构化的数据!即半结构化数据’ 半结构化是 6+7 上数据的 -.,/(* 所言(利用测试余弦角获 得 向 量 相 似 度 的 方 法 并 没 有 严 最大特点!常使用 89: */;+ 87<+=/ 9>=;.*?+ :(@+, %模 型 进 行 格的理论根据 ’ 描述’ !&&" %$& 确定学科领域类关键词分布 89: 是自描述对象模型!专为表达半结构化数据 而 设 计 ’ 因为表示学科领域特征所采用的词条数量有限 !所以有必 它最初的目的是为异构数据源间的数据交换提供高度灵活的 要对文本信息进行词干抽取处理’ 传统的方法是通过切分词的 转换工具’ 不同应用中的 89: 模型大多在原模型的基础上作 方法! 但使用这种方法的前提是已经有比较精确的词典存在 ! 了一些小的改动!在 89: 模型中!数据的组织可以看作是一张 但任何常用词典和专业词典都不可能涵盖所有的词语!据吴立 图!它由节点和带标签的边组成’ 所有的实体都是对象位于节 德教授统计(在含有 #$ %%% 个词条的语料库中 !即 使 使 用 具 有 点处!边表示对象之间的联系’ 对象以惟一的对象标识符来表 &% %%% 个词条的词典!仍然有 %"0以上的词条没有被收录!1"’ 切 示!可分为原子对象和复合对象’ 原子对象是仅含有一个原子 分 歧 义 和 词 典 生 词 限 制 了 机 械 分 词 的 分 词 准 确 度!而 且 !词 典 型值的对象!如(整型)实型)字符串型);/5, 型)A.B. 型等’ 复合 对分词精度造成的影响远大于分词方法自身产生的歧义切分 对象是对象参量的集合!以一系列*对象!边%的数据对来表示’ !&&" 错误 ’ 针对 6+7 的半结构化数据的表示与存储! 国内外已有许多 相 为了达到领域无关性和时间无关性! 本系统采用文献 !&&" 关研究!并有多种半结构化数据模型及查询语言被提出’ 提 出 的 不 需 要 词 典 的 词 干 抽 取 方 法 !该 文 献 指 出 (在 中 高 频 词 其查询语言通常采用两 种 途 径 来 研 究 ( 一 种 是 以 -CD 或 条的处理 上 !精 确 率 达 到 230 !完 全 能 够 符 合 词 条 频 度 敏 感 的 8CD 语 言 为 基 础 !增 加 必 要 的 机 制 !使 其 能 够 表 达 一 组 查 询 # 中文信息处理工作对分词准确度的要求’ 系统第一次通过自主 另一种是以某种语法进行适当的变形!成为一种便于使用的查 学 习 系 统 提 供 的 )已 经 经 过 人 工 标 引 过 的 材 料 !从 而 建 立 特 定 询语言’ 根据这两种途径所设计出的查询语言非常相似’ 在本文中!这部分内容将不作为研究的重点’ 学科领域的类关键词分布模型’ 设 有 已 经 标 注 好 类 别 的 文 档 #$% *其 中 ($! *&!& !! %表 示 ! 个 分 类 类 别 #%! *& !& !& %表 示 某 个 类 别 已 标 注 好 的 & 篇 文 3 下一步研究内容 档%!分别对每篇文档进行抽词处理!设得到类关键词 "’%&!&!!’%(! 从系统已经实现的功能来看!对于特定的学科取得比较满 在 此 基 础 上 !统 计 每 个 分 类 类 别 ’ 的 类 关 键 词 分 布 情 况 !按 其 意 的 效 果 !但 还 不 能 称 作 是 通 用 的 元 搜 索 引 擎 !原 因 是 涉 及 到 出现概率的大小顺序进行排序 "’&!&!!’(!使用这 ( 个类关键词 的以下几项技术需作进一步的研究( 构成该分类类别的特征向量 !’!使用同样的方法可以得到其它 各个分类类别的特征向量 !&!&!!!’ %$! *& %网页价值判断算法’ 传统的网页评价技术是根据网页 的内容!利用单词匹配)词频统计来评价网 页 ’ &22E 年 出 现 了 用户个性特征的获取 在内容关联的基础上进一步利用 6+7 的超文本链接结构来 评 本系统采用基于关键词提取的用户兴趣获取技术 ’ 设用 价网页 的 算 法 !最 近 几 年 来 !国 外 许 多 文 献 作 了 关 于 利 用 6+7 户 浏 览 过 并 保 存 在 本 地 的 文 档 为 #’ *’4&!& !! %!分 析 每 篇 文 的 超 文 本 链 接 评 价 网 页 的 研 究 !EF&""! 其 中 以 G.?+H.*I 和 JKL- !#" 档 !提 取 出 每 篇 文 档 的 类 关 键 词 "’&!& !!’(*’4&!& !! %!统 计 得 算法为代表’ 本系统将在这些技术的基础上研究合适的网页价 到 的 所 有 类 关 键 词 并 采 用 %$& 节 所 示 方 法 构 建 用 户 特 征 向 量 值算法’ ""!以建立用 户 个 性 化 模 型 ’ 通 过 计 算 "" 与 !&!& !!! 之 间 的 *!%页面信息抽取技术’ 在本系统中采用支持向量机*-M: % 余弦距离!确定 "" 的最大归属度’ 同时将与此相关的数据!如 的方法判断目标页面的学科类别!这对于能够确定所属学科的 用户的登录名)专业领域等内容写入本地数据库’ 当用户再次 页面来说比较准确!但 K*/+)*+/ 网上存在大量的)以商务为主的 访 问 时 !这 些 数 据 将 用 作 为 用 户 提 供 个 性 化 服 务 的 依 据!同 时 页面内容! 这些信息的组织和表现形式与学术类页面迥异 !因 用户的最新查询结果可用来修正用户的个性化模型’ 此需要采取另外的方法对这些页面中的内容加以分析)保存与 显然基于出现概率的统计方法最为简单!但存在着一些缺 再发布’ 点!更为有效的统计方法需作进一步的研究’ 需要指出的是!在本系统中用户的个性化服务并不是必须 的!如果用户不选择个性化服务!可以直接进行信息的搜索’ # 小结 本文首先指出通用搜索引擎难以为用户提供个性化的服 与 本 步 骤 同 时 进 行 的 还 有 信 息 分 类 工 作 (提 取 文 档 #’ *’4 务! 设想在通用搜索引擎的外围附加一层个性化服务接口 !以 & !& !! %的 类 关 键 词 "’&!& !!’( *’4&!& !! %构 成 文 档 特 征 向 量 元搜索引擎的形式出现!系统将元搜索引擎返回的结果进行类 #’ *’)& !& 5 %!通 过 计 算 #$ 与 !&!& !!! 之 间 的 余 弦 距 离 !确 定 关 键 词 提 取 )文 档 分 类 以 及 与 用 户 个 性 特 征 匹 配 等 处 理 !从 而 #$ 的最大归属 度 ! 考 虑 到 某 篇 具 体 的 文 档 可 能 涉 及 到 多 个 领 给用户提供具有个性化的服务’ 域 !因 此 !设 置 一 个 类 别 阈 值!如 果 余 弦 距 离 超 过 该 阈 值!即 认 为该文档 *$ 属于该学科领域’ ’() !""#$%& 计算机工程与应用 在 元 搜 索 引 擎 的 设 计 中 !讨 论 了 用 户 个 性 化 特 征 获 取 )关 *下转 !"3 页% 参考文献 &" 方 允 治 $赵 斌 臣 $张 晓 峰 $ 城 市 地 下 管 线 信 息 管 理 系 统 建 设 中 的 测 量 方法 #-$$ 山东交通学院学报$!""0 ’&! !! "&03/#" !" 张金波$周甍$王鹏等 $;P5 用户参考手册 #O$$ 北京&中国水利水电出 版社$!""! %":9E< WI