系主任负责一个学术基层单位的管理。至少文科基层的院长主任们都不喜欢目前流行的这些评估。不仅太麻烦,而且弄不清它的实际效应是什么。最多的一年,我们系接受了六次上级部门的各种评估。包括关于新、老重点学科分两次评估、本科教学评估、中外博士研究生培养质量评估、党建工作评估、校内院系评估等等。作为一个基层的领导,一年应付这么多评估,还有时间去抓学科建设的实事吗?管理部门和官员们确实喜欢评估,但基层院系和学者们不喜欢评估。这些评估,对管理部门来说是绝对有用的,可是对学术发展、教师个人和团队的建设,究竟有什么用?我们实在看不清楚。因为这些评估的指标是很成问题的。
请大家看看这些典型的评估指标:评估学术队伍,要列出专职教师的数量,各级职称人数的比例等。这种指标能说明什么呢?比如说,这家历史学系65人,那家历史学院80人,你该给谁更多分呢?是教师越多越好?教授比例越高越好吗?是要鼓励无限扩编吗?
还要评估年龄结构。从30岁左右到60多岁,分几个等级列出人数来。请问:哪位官员能解释一下,什么结构最好?各等级各占多少比例最好?年龄老中青,职称高中初,各单位间多少有些出入,又能说明什么呢?30个教授加25个副教授的单位,就比25个教授加28个副教授的单位好吗?
评估科研业绩,用SSCI,A&HCI等等指标,对中国的人文学科将造成多大伤害呢?这等于鼓励大家用英文去发表。我们不往政治上扯什么西化分化的。我们只说中国文化背景下的很多学问、概念、话语,比如道、理、性、气、势等等,中文语境是什么?译成英文是什么语境?用英文能准确表达吗?此类例子很多。华语世界本身就很大,全球化又是个多元化的过程,文科为什么非得奉英语为霸权?即使一些在国外拿了博士学位的中国学者,也不愿意用英文去讲去写。前辈大师们也是如此。
至于以中文“核心期刊”如CSSCI等作为评估指标,从文献计量学的角度讲有道理,对图书馆选订期刊很有用。但以所谓的“引用率”、“影响因子”等来衡量不同论著的学术水平,绝对不可靠。例如我们非常尊敬的一位老先生,如果用他所专长的吐火罗文和梵文等写一篇研究佛教流传过程中发生的问题,全世界能读懂这篇论文的大概也就是那么几个人。但如果他写一篇反思文革的札记,那转引率一定比较高。历史学这么多年来,转引率最高、影响力最大的文章,应该是都江堰某中学历史教师在汶川大地震中的那篇名作。就学术界而论,有争议的文章,甚至很荒谬的文章,转引率也一定很高。所以文献计量学下的“核心期刊”这个指标,衡量不了学问的深浅、论文学术水平的高低。
再举一例,某大学一个非常推崇量化指标的自然科学管理部门领导人,非常担忧北大文科不用量化统计,所以非常认真地做了一番准备,在一次文科的科研会上举出一些数据,证明北大文科几十年来在全世界SSCI这个指标上名列第一的文章,是1973年某日《人民日报》上发表的周培源先生领衔的一篇批判“孔老二”的文章,已被转载了132次。北大至今所有的文科文章都没有这篇的转引率高。我想,他大概不够了解那段刚过不久的历史。他能说明的问题,恰恰和他想说明的问题相反。大家都知道周先生是物理学湍流理论的专家,代表我们国家这个领域的最高水平。但他不研究儒学,那是一篇批林批孔运动中的政治应景文章,代表不了北大文科的水平,也不代表他自己的水平。可以说我们这位崇信量化指标的管理者非常认真地找了一个非常荒谬的例子。
更荒谬是以经费为指标评估文科。一个单位100万元,另一个单位200万元,谁好谁差怎么评?如果有一个机制能够准确地把“投入产出效益”科学地分析出来,经费数量在这个机制中是有用的。就大致水平相等的科研和人才培养质量数量来讲,经费投入相对少的那个学科应该效益最好。可惜谁也拿不出这么科学的评估机制。如果单纯说谁钱多谁就好,那等于把办学校和办企业等同了。所以说这个指标很荒谬。比谁在一定期间内能拿更多的钱,花更多的钱,文科这么评比下去,会是什么结果?
还有对医科的评估指标,要统计平均年门诊量是多少人次,平均年住院人数是多少。这个指标的意义是什么呢?是鼓励病人越多越好吗?应该说,1个医生一天看20个病人,比一天看100个病人要好啊!你要是病了,愿意找哪种医院?
还要评比各种各样的奖项。问题在于是什么人在评什么人?这个奖有多大的权威性?有多大程度的权力介入?有多高的同行公认度?我们注意到,一些最优秀的学者,恰恰不爱去报奖,也不屑于去写那些自我表扬的申报材料。他们不愿意让某些人来评自己。你给他评什么特等奖、一等奖,他不指望。给他评二等奖、三等奖,他觉得很无聊。所以干脆不报。这种奖项指标,各单位之间没法比。
还要评估研究生的招生和毕业人数。招生越多越好吗?一个老师一年带十几个研究生才好吗?招来后全都毕业才好吗?提前毕业更好吗?如果哪个单位有淘汰率,为写好论文而推迟毕业,写得不好的学位论文不给通过,那就要在目前的评估指标下吃大亏了!
另一个很有争议的指标就是比研究生在学期间发表的论文数量。我们学校有的学科决不鼓励研究生去发表,而是潜心研究,把你的博士学问论文做好就很不容易了。各学科的情况不一样,这方面没有办法比。
这些评估数据组成的一套又一套文科评价体系,评出来的结果是什么导向?我想大家心里都清楚,不用多说了。
我提几点建设性意见。第一,是加强同行评价。比如在座的就有三位是美国史专家。如果你们来评价中国的美国史研究者中哪些人是前沿学者,会有点分歧,但八九不离十,不用参考那些评估指标,也一定评价得更准确。
第二,评代表作。我觉得在重点学科评审里有一个做法好,就是不看数量,就看代表作。拿出你们单位最有代表性的论著,10篇就够了。我觉得这个好。
我想不同意见的交锋是很必要的。刚才有人单从文献计量学的角度论证评估指标有合理性,我不同意。我刚才发言中举了实际评估中那么多有问题的指标,很想听相信计量的同事们说说,这里面具体哪个计量指标是有益的?如果这些指标都站不住的话,那这个评估体系又怎么可靠呢?
再提一个建设性的意见。但首先声明一下,在我刚才举的那些评估指标所组成的所有教育口的各种评估中,我们北大历史学系都是第一名。我不是以一个评比中的失意者的身份,而是以第一名的资格来讲这个评估体系的问题。
按照这个体系,是不是应该拼命的扩充编制?让我们的教师越来越多?是不是应该让研究中国文化、以中国读者为对象的中国学者们尽量用英文去表达中国的学术思想?为图书馆购书所需的CSSCI是我们要争的标准吗?人文学科基层领导们是不是应该像办企业一样努力去挣钱,然后让大家花钱越多越好?是不是该拼命的多招博士生,然后希望他们提前毕业,以便最大限度地满足对招生数和毕业生数的评估?这些评估指标到底能鼓励我们干什么?
想建议的是,除了我刚才说的同行评价、评代表作以外,我认为应该尽量地合并和简化各种评估。像一级学科评估,重点学科评估,本科教学评估,研究生培养质量评估等等,能不能一次完成?重点学科的评估,本来就可以放在一级学科评估中来做。本科评估,研究生评估也都可以并入一级学科评估。为什么分多次来做呢?就是因为教育部里是不同的部门管不同的事。重点学科由学位办即研究生司管,本科由高教司管,研究基地由社科司管。所以,每个评估都要分开进行。就像我们学校似的,每到“年关”,教务部、社科部、研究生院、人事部、国际部等等部门,分别向院系要各种各样的材料,你说累不累?能不能痛痛快快地合起来砍一刀下来算了?
第二,有些观点确实应该转变。刚才多位都谈到官本位的问题。不要认为您有了权力,分配了一些资金,您就可以来评估了。你那个钱是从哪里来的?还不是包括我们这些知识分子在内的劳动人民创造的吗?你把我们的钱这么分,那么分,分回给我们一点就觉得可以来评估我们了?我们为什么不能评估您呢?我们建议,每隔三五年,能不能让基层单位,让教师们,让劳动人民,评估一下你们各个官府衙门办事办得怎么样?因为贵衙门用了我们的钱啊。
关于人才培养质量的评估,应该说“师生比”才是一个很重要的指标。淘汰率也是个指标。招进来的学生如果百分之百都毕业了,那可能是有问题的。而有一点淘汰率,可能说明人才培养质量比较好。在招生这个环节,报考和录取的比例也能说明点问题,就是这个学校或学科的品牌在国内外有多大的吸引率。
另外,我非常赞成匿名评审,因为这是一个可以隔开一点情面的办法。还应坚持“利益回避”的原则。比如现在评张三了,张三就出去喝喝茶,最后投票的时候再进来。您是委员,有投票权。轮到评您的亲属了,您也回避一下,人家评议完您再来投票。利益回避还包括本人根本就不参加评审委员会。
还有一个“权力回避”的原则。所有的评估,应该尽量不受权力运作的影响。
我们还可以想想:非要搞那么多评估不可吗?中国现代学术建设至少有一百多年了。长期并没有评估,那时候学术发展得怎么样?民国时期选中央研究院院士,人民共和国初期选哲学社会科学学部委员,哪一个是凭量化指标评估出来的?那时选得比较成功,很重要的原因就是权力回避,也没搞什么量化评估。是由高水平的同行互评出来的,评的确实八九不离十。世界上教育发达和学术领先的国家,哪个像我们这么兴师动众地搞“评估运动”?所以,是不是少做点评估,学术也能繁荣?
(作者系北京大学历史学系主任。本文是作者2009年2月21日在中国社会科学院办公厅主办的“改进学术评价机制专题研讨会”上的发言。)