欢迎您来到 数字平台。 您尚未登录。[登录] [注册新用户]
当前位置: 论坛首页 / 栏目 产品与服务 / 文章 424

点击:993

[顶层访客留言] [回复顶层(需要先登录)] [表状] [详细]
[回复留言] [回复(需要先登录)] [引用(需要先登录)]普通文章跟帖
文章id: 424
回复: 当求甚解

作者: xietao


==========

以下是引用 Harry 于 2009-2-28 9:03:23 发表的文字:

既然要把dp2的加权查重法做成一个亮点,那就应该把它做完善,怎么能让用户(不包括我)再手动检查一边呢,这样的得过且过怎么能把这个系统做好呢,孤芳自赏往往就是掩耳盗铃,我话说直了点,望老师勿恼。

我一个不相关的人,花了整整一个下午测试、抓图、写文发上来,不能往我的热心上浇冷水吧。

一个责任者重复就给50分,两个就是100分,这个不好吧,是不是一个责任者重复给50分,第二责任者不重复恢复为0分更符合逻辑呢?!而第二责任者重复继续保持50分,还是60分,还是70分呢?这就难了,权值应当分配给子字段呢?还是当分配给子字段中的各个元素呢,各个元素又当分配多少值呢?看来这需要一个数学家来分析一下了。

问题还是加权查重法本身的问题,或者说加权法是不是适合做查重的问题,望老师深究。

==========

现在的体系虽然不完善,但是改进起来却很容易,所谓9个馍馍和第10个馍馍的关系。

关于算法不可相信,需要用户手动操作的思想,这是我们一贯的看法。不过不影响我们把现有的东西努力做到尽善尽美。两方面不矛盾。

您测试和写文的方式很好,我们自己就是这么认真工作的,今后有机会您会逐步了解到。夸您就是夸我们自己,我们都是认真的人,毛主席说了,世界上怕就怕认真二字,认真起来,能量会很大的,会做出原来意想不到的成绩,我们叫“超水平发挥”。

刚才我在楼上说了,您的思路很好,简单又明了。

关于权值分配给子字段,这个说法有些模糊。因为权值本来是和“检索途径”相关的,一个检索途径就是一个最小的单元,无法再小。而一个检索途径,可以仅仅由一个子字段构成,也可以由多个子字段(甚至包括不同字段内的子字段)构成,都是可以的,所以,隔着检索途径的外壳说,权值当然有时候是对应某个子字段,有时候是对应一组子字段了 --- 间接地对应上。既然概念有区隔,那么我们乐得少死一点脑细胞,从宏观搭桥思考就可以了。

我在楼上说过了,目前这个加权算法(改进前)还是可用的,不如您说的那样不堪。好比普通汽车通过正常的司机控制,还不至于撞人,虽然汽车还没有配备自动避撞系统。但是算法的缺点是明显的,尤其是用您提供的例子突出了这个缺点后。这好比汽车要加装自动避撞系统,只要可行,我不反对。装了避撞系统后,眼睛不好的司机开着也安全了。

类似的事情很多。我们提供了MARC编辑器后,有的用户把数据编得井井有条,而另外的用户就把数据编得乱七八糟。其实目前的软件绝大部分还是要老老实实停留在一个“工具”的位置,用户的使用方式方法起到了化腐朽为神奇的作用,用户的因素、人因素还是很重要的。就目前这个加权算法来说,就是这样,我们可以多花一点精力来探讨如何把权重配得更完善一些,也是一种生活方式。在它不完美的情况下,也是可以用的,有个怎么用的问题。并且,在有缺点的时候就用得好的,往往在缺点消失后更能用得好,努力也不是白费的。



发表时间: 2009-02-28 17:47:10



  • 精品 查重导入数据发生“误杀”现象 Harry 2009-02-27 17:48:21[点击:60875]
  • 普通文章 请正确理解加权计算 孤舟蓑笠翁 2009-02-28 01:35:46 (ID:421) [点击:1129]
  • 普通文章 当求甚解 Harry 2009-02-28 09:03:23 (ID:422) [点击:1109]
  • 普通文章 回复: 当求甚解 xietao 2009-02-28 17:47:10 (ID:424) [点击:993]
  • 普通文章 回复: 查重导入数据发生“误杀”现象 xietao 2009-02-28 17:28:36 (ID:423) [点击:1234]
  • 普通文章 不能完全解决问题 Harry 2009-02-28 18:51:24 (ID:425) [点击:1378]
  • 普通文章 回复: 不能完全解决问题 xietao 2009-02-28 21:58:07 (ID:426) [点击:1093]
  • 普通文章 难以深入 Harry 2009-03-01 13:43:40 (ID:427) [点击:966]
  • 普通文章 回复: 难以深入 xietao 2009-03-01 21:25:34 (ID:428) [点击:1158]
  • 普通文章 要乐于听丑话 孤舟蓑笠翁 2009-03-03 13:18:56 (ID:434) [点击:1185]
  • 普通文章 向老同志学习 Harry 2009-03-03 21:33:12 (ID:436) [点击:1444]
  • 普通文章 回复: 向老同志学习 xietao 2009-03-03 22:31:00 (ID:438) [点击:1434]
  • 普通文章 有新改进 xietao 2009-03-02 21:26:37 (ID:432) [点击:1029]
  •  

    在线用户
    访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客
    当前栏目在线用户数 113, 总在线用户数 119