欢迎您来到 数字平台。 您尚未登录。[登录] [注册新用户]
当前位置: 论坛首页 / 栏目 产品与服务 / 文章 90

点击:1756

[顶层访客留言] [回复顶层(需要先登录)] [表状] [详细]
[回复留言] [回复(需要先登录)] [引用(需要先登录)]普通文章跟帖
文章id: 90
繁简体汉字归一化检索点技术

作者: xietao


dp2编目系统在为数据库记录创建检索点的时候,可以对繁体和简体汉字进行归一转换,以保证访问者不论输入繁体还是简体汉字,都可以检索命中。

这种归一转换,请注意是针对系统内部“检索点” 而进行的,不是在修改MARC数据本身。

下图演示了一条MARC记录的检索点详情:

从上图可以看出,“原始key”中的繁体字,被自动转换成简体字的“key”。

当用户在检索的时候,所发出的检索词,经软件自动预处理,把其中的繁体字转换为简体字,然后与检索点匹配。这样就得到了最满意的效果 -- 不论用户是否输入了繁体字,或者繁简体混合输入,都可以检索命中。

下面列出了中文图书库下keys配置文件和著者检索点相关的配置片断:

...

    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='700']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='701']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='702']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='710']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='711']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='712']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <table name="contributor" id="7">
        <convert>
            <string style="upper,simplify" stopwordTable="title" />
        </convert>
        <convertquery>
            <string style="upper,simplify" />
        </convertquery>
        <caption lang="zh-cn">责任者</caption>
        <caption lang="en">Contributor</caption>
    </table>

...

可以看出,数据记录构造检索点的时候,<convert>元素中采用了“upper,simplify”方式来加工检索点,即转为大写、简体化。而<convertquery>元素中同样配置了“upper,simplify”方式来预加工前端发来的检索词。

上例中采用了“简体化”的策略来统一繁简检索过程。这是针对大陆以简体字为主的情况配置的。dp2编目系统也允许按照“繁体化”的策略来归一(在<convert><convertquery>元素中运用“traditionalize”加工策略即可),这对于繁体字地区、古籍文献应用就比较适合。

===

繁简体归一化的技术,针对的是系统内部检索点。

而dp2编目系统存储MARC数据,也就是存储MARCXML格式数据,也就是存储XML数据,它采用的是Unicode字符集。所以,繁体和简体汉字在系统内是完全相容互不干扰的。

繁简体归一化技术,解决的是检索中繁简体通用的问题,请大家不要和数据存储这一课题混淆,两者的目的和对象都不同。它们之间也有关系,就是:正因为繁简体归一化检索点的好处,所以反过来我们不要求用户在MARC格式中专门增加转换后的繁体或简体字段,而是原样照录、忠实反映原貌即可。



发表时间: 2006-06-01 15:36:43
最后修改时间: 2006-06-01 16:05:34



  • 精品 图解dp2编目系统 xietao 2006-05-30 15:03:14[点击:142528]
  • 普通文章 什么叫dp2 ? xietao 2006-05-30 15:15:07 (ID:76) [点击:1960]
  • 普通文章 框架窗口,检索窗 xietao 2006-05-30 15:20:10 (ID:77) [点击:1612]
  • 普通文章 详细窗 xietao 2006-05-30 15:24:14 (ID:78) [点击:1850]
  • 普通文章 定长模板 xietao 2006-05-30 15:27:00 (ID:79) [点击:1720]
  • 普通文章 值列表 xietao 2006-05-30 15:30:23 (ID:80) [点击:1611]
  • 普通文章 缺省值 xietao 2006-05-30 15:34:05 (ID:81) [点击:1598]
  • 普通文章 一些编辑功能 xietao 2006-05-30 15:36:49 (ID:82) [点击:1703]
  • 普通文章 自动创建数据 xietao 2006-05-30 15:40:48 (ID:83) [点击:1712]
  • 普通文章 种次号 xietao 2006-05-30 15:44:14 (ID:84) [点击:1642]
  • 普通文章 分类主题对照 xietao 2006-05-30 15:47:14 (ID:85) [点击:2164]
  • 普通文章 使用中的一些顾虑 liujp 2006-07-02 21:43:28 (ID:98) [点击:2356]
  • 普通文章 回复: 使用中的一些顾虑 xietao 2006-07-03 10:30:21 (ID:102) [点击:1945]
  • 普通文章 服务器端不能创建根下的cfgs目录 liujp 2006-07-02 21:46:26 (ID:99) [点击:2221]
  • 普通文章 回复: 服务器端不能创建根下的cfgs目录 xietao 2006-07-03 10:37:31 (ID:103) [点击:1706]
  • 普通文章 典藏册登录 xietao 2006-05-30 15:49:50 (ID:86) [点击:1967]
  • 普通文章 编目查重 xietao 2006-05-30 15:54:04 (ID:87) [点击:1670]
  • 普通文章 观察检索点 xietao 2006-05-30 15:56:06 (ID:88) [点击:2014]
  • 普通文章 著者号码 xietao 2006-06-01 15:07:35 (ID:89) [点击:1902]
  • 普通文章 繁简体汉字归一化检索点技术 xietao 2006-06-01 15:36:43 (ID:90) [点击:1756]
  • 普通文章 追记 xietao 2012-04-02 12:02:14 (ID:724) [点击:1475]
  •  

    在线用户
    访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客 (我自己)   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客
    当前栏目在线用户数 126, 总在线用户数 132