Google Translate

2015年7月16日星期四

【转载】如何将文章发表在高影响因子的期刊上

原文地址:

http://blog.sciencenet.cn/blog-502444-879588.html


做学术研究的人,都知道一个著名的短语“Publish or perish”。就是说,研究人员,发表文章是硬道理,只有快速而持续在某些专业领域发表自己的研究成果,才能在学术界占领高地,让自己走得更远。无论大家如何评价学术论文发表对科学和社会的贡献,学术圈实质上的游戏规则,一直没有太大改变:对研究人员来说,发表论文是硬通货,是他们获得职位、争取资源、赢得荣誉的重要途经与手段。目前,杂志数量爆发式增长,研究人员在发表论文的时候有了更多的选择,但同时也给学术评估带来了不小的麻烦,于是评估人员只好依赖于期刊质量指标来评定研究质量。比如汤普森的影响因子,就是为了将这个复杂而微妙的判定简化为一个数字,这也是目前业内使用最广泛的指标。理论上,影响因子似乎是期刊所发表研究的质量,但这一假设目前受到越来越多的质疑。学术圈的人都深切体会到,一篇文章能否在某个期刊最终发表出来,除了科学质量方面的因素外,还有其他一些很重要的因素。

比如,我们一直在告诫学生,一篇稿件在写作风格、突出重点和表达上少许的差别就可能影响杂志的接收情况。那么,这只是老道的论文作者的感觉,还是不同期刊上文章的表达真的存在着这些差别呢?如果这些差别真的存在,那么是否表明影响因子真的与科学质量以外的东西有关,作者是否可以通过改善一些相对简单的写作技巧来提高他们在高影响因子期刊上发表论文的机会呢?在竞争激烈的学术圈,年轻的研究人员和学生们必须尽可能发表更多的论文,也希望最大限度地争取在“好”的刊物上发表文章的机会,那么应该怎么做呢?美国南伊利诺斯大学的Brady Neiles及其同事在最近一期的Bulletin of the Ecological Society of America上撰文,分析了不同影响因子期刊中发表的论文,指出:在这种竞争激烈的环境下,作者如果要让他们的稿件脱颖而出,改善写作风格可能是一个有效的手段。有力的科学写作手段也可看作是某种程度的“推销”和“讲故事”,作者必须找到如何创造性地讲故事,并清晰地表达这些发现的重要性。

这篇文献研究工作从10个期刊中各挑选了12篇论文,这10本生态学期刊的影响因子的差异很大(根据2011年的Ifs,分别从0.619至17.557不等),而12篇文章是通过随机数发生器挑选的。研究人员首先将文章从PDF格式转化成XML格式,并整理成标准格式,移除标题、作者机构、关键词、图形及其标题以及表格等会干扰文本分割的内容。在这个基础上,评估了30多个写作参数,大致分为语法、数字的使用和各部分的比例长度等(详细内容,请阅读原文,很长的一个表格)。为了保证一致性,每个参数都由同一位分析人员负责收集。之后,用多变量方差分析(MANOVA)来测试影响因子对每个写作风格变量的影响。在进行探索性分析中,他们从全局模型开始,然后剔除所有P > 0.06的变量,获得最终的模型。最后根据IF将期刊分成了三大类别进行交叉对比(表1)。不是生态学领域的人员,也许对Ecology Letters这个杂志不熟悉,这里做一个简单说明:生态学的刊物大多IF不高,平均在2~3之间,而Ecology Letters则是个怪胎,IF在2011年和2012年分别高达17.557和17.949,不过2013年下降到13.042,但总体上仍然是生态学中IF遥遥领先的期刊,因此这篇论文将Ecology Letters划分成单独一组来分析,还是有一定道理的。



表1 分析中所用到的期刊及其影响因子和分类

总体上,模型显示期刊间有极其显著的差异(P < 0.0001),当然这些变量有相当大的噪音,但一些模式是非常明显的。Ecology Letters中的论文经常会在标题中包含结果(P<= 0.057),而最低IF期刊中的文章很少这样写。低IF期刊中的文章更喜欢在标题中包含一个物种,而高IF期刊中的文章更喜欢在标题中包含研究地。Ecology Letters中的文章包含更多的预测数据,而低IF期刊中包含更少的预测数据。最低的IF期刊包含更多的数据表、地图和图片。低IF期刊中的文章段落较长,Ecology Letters中的文章段落较短。低IF期刊中所引用的论文也来自低IF期刊,而Ecology Letters中所引用的文章更多来自高IF期刊。

这个结果说明了不同IF期刊上所发表论文的简单文体差异。尽管这些模式还不是很明确,但确实说明了高IF学术期刊要求论文写的更简洁一些,视野更广一些。例如,较高IF期刊要求在标题中说明结果,而较低IF期刊经常提到所研究的物种,这说明较高IF期刊希望论文关注一个问题,而较低IF期刊中的论文则是关注一个具体的生态系统。较高IF期刊上的论文往往有更多的详述假设的预测数据,而较低IF期刊上的论文只是有更多的数据表、地图和数字,说明了二者的焦点是不同的。令人惊讶的是,不同IF的期刊,语法没有什么太大差别,唯一的区别是段落的长短。也许,编辑人员最终对文章的决定权,模糊了不同写作风格之间的差异。

这个结果为年轻学者进军出版领域提供了一定的洞见。文章作者最后也强调了Gaming the system的问题,所以希望科学质量是影响出版质量的最主要因素,而不是推销技巧,然而这又的确是一个不容忽视的因素。


参考文献:
Brady Neiles, Charleve S. Carey, AlessandraAraujo, David Burkhart, Lucas J. Kirschman, Brandon LaBumbard, Seth LaGrange,Josiah J. Maine, Artur M. Rombenso, Michelle N. Wood, and Justin G. Boyles, 2015. Writing Your Way into High Impact Factor Journals. Bulletin of the Ecological Society of America 96:312–316.


2015年6月21日星期日

[Cited] Extremely Swirly Bokeh – Short Tutorial

Extremely Swirly Bokeh – Short Tutorial

【转载】徕卡R系镜头科普贴

徕卡R系镜头科普贴

徕卡R系是不可复制的经典,因为其高昂的制造成本和及其复杂的制做工艺加之数码时代的冲击,2009徕卡忍痛宣布R系停产。徕卡本是贵族的专利,R停产之后二手价格急剧下挫,顺道让我等小老百姓也有了一亲芳泽的机会。这两年陆陆续续接触了不少R头,现在小小的总结一下,有错的地方请前辈们更正一下,
*镜头数据来源于多个国外网站, 镜头评价心得来源于自用心得的总结和这几年来所听到的看到的摄友评价。
不开发DSLR?徕卡CEO谈产品发展方向(N)
广角篇:
Leica Super-Elmarit-R 15mm f/2.8 ASPH
2001-2009(序列号3914223 – xxx) 年出产,10组13片镜设计,与德国施蔡司作生产,自带内置四色滤镜,做工非常复杂,超广角能达到2.8的光圈实属难得,因其昂贵的价格,稀少的产量,拥有此镜的人非常少,评价:质感好色彩层次一流,值得收藏。
此镜全球产量500只左右。
历史价格:$US 6,995 in 2008 - $US 3,850 in 2010

Leica Super-Elmar-R 15mm f/3.5
1980-1996(序列号3004101- 3309700),12组13片镜设计,与蔡司合作生产,自带内置四色滤镜,做工非常复杂,是一枚值得拥有的超广角镜头,畸变控制非常好,细节上表现突出。
1997-2000(序列号3879367- 3947883)ROM版(ROM即Read Only Memo,是在镜头尾部加装了只读存储芯片,使用在R8,R9机身上可以得到更精确的曝光控制。用在佳能,尼康或索尼等机身上这个功能是没有用的),ROM版因为后期工艺更为先进成熟,普遍比非ROM版锐度和解析度高。
此镜全球产量3000只左右,
历史价格: EU 2,640 in 2008
$US 2,500 (3-cam) , 3,000 (ROM) in 2010

Leica Fisheye-Elmarit-R 16mm f/2.8
1974-1979(序列号2682801-3009650),8组11片镜,美能达代工,因其日本血统,价格一路下跌。
历史价格:EU 2,840 in 2002 - EU 924 in 2005 - $US 625 in 2010

Leica Elmarit-R 19mm f/2.8
第一代:
1975-1987 (序列号2735951- 3423090)E82 - S8,7组9片镜,19mm的广角能达到2.8的光圈不容易,德味很足,畸变控制好,但边角和抗眩稍弱,无限远合焦后锐度不足。
历史价格:EU 576 in 2008 - $US 700 in 2010
第二代:
1990-1997 (序列号3503151- 3693930)
1990- 2009(序列号3796010 - XXXX)ROM版
自带内置四色滤镜,70mm口径,10组12片镜,变形控制非常好,色彩浓郁、艳丽又不失真实,画面通透,在抑制住高光的同时暗部细节保留方面表现非常优秀,可惜无敌兔打版。
历史价格:$US 1,500 in 2010

Leica Super-Angulon-R 21mm f/4
1968-1994? (序列号2283351- 3290400?)Series 8.5 - E72口径,8组10片镜,与施耐德代合作生产,此头性价比超高,色彩出众,畸变控制好,同一价位但能达到相同效果的广角镜头可谓是凤毛麟角。但因为最大光圈只能开到4,所以对光线的要求非常严格。属于实用头
历史价格:$US 675 in 2010

Leica Super-Angulon-R 21mm f/3.4
1964-1968 (序列号2056001-2279830)S8口径,4组8片镜,施耐德代工,此头产量少,只产了1500只左右,几乎没什么人用过,比较稀有,可转M口。
历史价格:$US 575 in 2010,

Leica Elmarit-R 24mm f/2.8
1974-1990 (序列号2718151- 3501200)
1990-1996 (序列号3635401- 3754625)非ROM 与ROM版并存 ,
1996-2006 (序列号3783830-)with ROM
S8 E60,7组9片镜,镜片由美能达制造,leica负责组装。成像锐利,色彩鲜艳,小油润,解析力高,畸变控制不错,可惜无敌兔打板。因其日本血统,加之其夹在21和28mm之间焦段尴尬,R系停产后,价格一路下挫,以至现在被低估。
历史价格:EU 2,600 in 2006
$US 350 (2, 3-cam) - 475 (3-cam) - 700 (ROM) in 2010

Leica Elmarit-R 28mm f/2.8
第一代
1970-1993 (序列号2411001- 3625300)E48-S7口径,8组8片镜,这只头的优点不用我多说,效果绝对可以用惊艳来形容,同价位的此焦段镜头效果无人能出其右,因为其超高的 性价比,使得这只头非常的抢手,二手市场非常受欢迎。最早期为红字版,重金属材质,调焦环英寸刻度为红色,色彩浓郁,但锐度不足。32号段以前,前镜片镀 膜紫色偏红,色彩厚重,出片油腻。32号段后镀膜紫色偏蓝,成像细腻,锐度高,色彩还原好。无敌兔用有暗角,但很过度自然。
历史售价:EU 384 in 2008 - $US 350 in 2010
第二代
1994-2005 (3664831 – xxx)E55口径 ,7组8片镜
色彩通透,在抗眩光、高光、逆光控制优秀,锐度极高,因其产量不高,效果出众,现在价格已经被炒高
产量3,200只左右
历史价格:$US 430 in 2010

Leica PC-Super-Angulon-R 28mm f/2.8
1986-2009(序列号3470571- xxx),10组12片镜
施耐德代工,移轴,摄影爱好者用的不多,解析力极好,有层次,几乎没有变形,拍建筑专用,
历史价格:$US 4,195 in 2008 - EU 700-950 in 2011
标头篇:
徕卡标头无弱旅,每个标头在二手市场都十分的火爆。
Leica Summilux-R 35mm f/1.4
1983-1996 (序列号3271401- 3728053) E67 and S8口径
1996-xxx (序列号3838668) ROM 版 E67口径
9组10片镜,自带遮光罩,全开光圈中心分辨率极高,画面有立体感,画质极好,对暗处物体具有吃惊的表现力,当然价格不是小老百姓能够承受的,性价比不高。无敌兔打板。
历史价格:$US 4,695 in 2008 - $US 900 in 2010

Leica Summicron-R 35mm f/2
第一代:
1970-1996 (2402001- 2791416),E48-S7口径, 7组9片镜,加拿大产,非环保玻璃,外置遮光罩,黄金镀膜,德味十足,色彩浓郁,焦外迷人,价格普遍被炒高。
历史价格:EU 384 in 2008 - $US 350 in 2010
第二代:
1976-1988(2791417 - 3478150)
1989-xxx (3583863 - xxxx)ROM版
E55,6组6片镜,内置遮光罩,Leica的R35/2是出名的散景王人文皇后,是拍人文的不二选择。
历史价格:$US 2,995 in 2008 - 540 in 2010
值得一提的是,序列号2字头的为早期徕兹leitz标识,大概34段(1986年)之后Leitz商标改为徕卡Leica,Leica名字来源于Leitz公司生产的一款非常受欢迎的小型相機(取Leitz Camera字首之Lei及Ca)。大概在34序列号之后,变焦环上的刻度字印刷体变为了方形,就是俗称的方字版,因为后期的制作工艺普遍比前期好,方字版的成像公认的比前期细腻,解析度高,所以价格也要贵些。不止35焦段,几乎所有的leica头都有Leitz和Leica,圆字和方字之分。

Leica Elmarit-R 35mm f/2.8
第一代:
1963-1974 (1972001- 2517850)E43-S6口径,6组7片镜,外置遮光罩, 1963-1964年(1972001- 1995500),产了一两百只银色的红字版R35/2.8,非常的稀有,如果碰到实属三生有幸。 最早期的35/2.8(大概序列号21之前)调焦环英寸刻度为红色字体,称之为红字版。此头色彩浓郁,徳味十足,物超所值。
历史价格:EU 948 in 2008 - $US 150 in 2010
第二代:
1974-1979 (2517851 – 2928900)E48-S7口径,5组7片镜,外置方形遮光罩,无论是外观,镀膜,还是成像,都与E48的R28/2.8极为相似,产量不多,二手市场不多见
历史价格:EU 250 in 2004 - $US 250 in 2010
第三代:
1978-1992(2928901- 3587959)E55口径,6组7片镜,内置遮光罩,这是一款口碑非常好的镜头,解析力非常强,用起来非常舒服,锐度很高。
历史价格:EU 312 in 2008 - $US 350 in 2010

Leica PA-Curtagon-R 35mm f/4 碧玉刀
1970-1986(2426201-3400200)S8口径,6组七片镜,外接遮光罩,施耐德制造,非常罕见的西德产移轴镜头,这只头是建筑、风光摄影绝配,除了徕卡R口,此镜也有M42罗口和Alpa和Exakta等卡口。
历史价格:EU 516 in 2005 - EU 275 in 2011

Leica Summilux-R 50mm f/1.4
第一代:
1996-1978(2411021-2806500)E48口径,6组7片镜,外置遮光罩,用过之后绝对被他的效果所震撼,成像十分的细腻,色彩娇艳无比,焦外十分的迷人,如梦如幻。历史价格:EU 360 in 2008 - $US 425 in 2010
第二代:
1978-1997 (2806501- 3729790)E55口径,6组7片镜,解析力强,分辨度高,色彩浓郁,光圈全开效果出色,焦外油润,人文散景皆宜,徕卡的代表作之一
第三代:
1997-2000 (3794010- 3821624)E60口径
2000-2005(3939614 -xxx)ROM 版 E60口径
效果好到不行,价格贵到不行。
第三代产量稀少2700只
历史价格: $US 2,000 (2008 used) - 600 (non-ROM) - 790 (ROM) in 2010

Leica Summicron-R 50mm f/2
第一代:
1963-1976(序列号1940501-2777650) E43-S6口径(小口),5组6片镜,外置遮光罩,前3000只是银色红字版,序列号大概21之前是黑色红字版,重金属材质,黄金镀膜,色彩画质及其通透,德味十足,色彩凝重,效果惊艳。第一代2cam版,德国徕卡原厂制造,也被誉为上世纪最伟大的标头之一,全开光圈锐利,出片油润,有着很让人意外的高光控制能力。成像典雅,质感细腻,色彩层次丰富,立体感表现突出,是人文小品和人物拍摄的利器,喜欢莱卡或德味的人不可错过。
历史价格:EU 780银色, 188 黑色,in 2008
第二代:
1976-1997 (序列号2777651- 3764800)E55口径,4组6片镜,前期加产后期德产,此头是徕卡一个年代的经典,是当年最受欢迎,使用率最高的一个头,非常有纪念意义,此头光圈全开锐度表现优异,立体感强,色彩油润。和其他R头一样都有徕兹,徕卡标的区别,前期为圆字,大概34号段后为方字版。
1997-XXX,(序列号3764800-xxx)ROM版 E55口径
历史价格:$US 1,495 in 2008 - 600 (3-cam) - 790 (ROM) in 2010

Leica Macro-Elmarit-R 60mm f/2.8
第一代
1970-1980 (2413601-3013650) S8口径 , 外置遮光罩
第二代
1980-1997 (3013651- 3783330)
1997-XXX (3783330 – xxx)ROM 版
E55,5组6片镜,外置遮光罩,一代与二代成像没有明显差异,二代微微锐利些,加近摄转接环可变成1:1微距,此头色彩艳丽,解析力强,线条锐利,性价比超高,可惜焦段尴尬,且微距效果不及徕卡王牌R100/2.8,导致二手价格由当年全新售价2000欧一度跌到现在的400欧。
和其他的R头一样,此头同样有徕兹,徕卡标,方字圆字印刷体之分。后期方字版效果惊人的好。
历史价格:EU2200 in 2006, $US 325 (1st) - 400 (E55) - 600 (ROM) in 2010

中长焦篇
Leica Summilux-R 80mm f/1.4
1980-1996 (3054601-3737200)
1997- xxx (3798910-xxx)ROM版
5组7片镜,E67或S8版本并存,内置遮光罩,被誉为徕卡人像皇,美人镜,每个照出的人像都像被美化了一样,是当年德国领导人出使外国的专用镜头,价格不菲。不过对焦很难,一旦对上效果惊艳。
历史价格:EU3300 in 2006, EU 900 in 2008 1,100 in 2011 - $US 960 (non-ROM) - 1,300 (ROM) in 2010

Leica Summicron-R 90mm f/2 大头九
第一代:
1970-1976 (2400001 - 28xxx)加拿大产
S7口径,4组5片镜,内置三节遮光罩,非常经典的人像头,每个用过的人都被其惊艳的效果所吸引,爱不释手
第二代:
1976- 1995 (28xxx -3720302 )加拿大产
E55口径,4组5片镜,内置双节遮光罩,非常经典的人像头,每个用过的人都被其惊艳的效果所吸引,爱不释手
历史价格:EU 384 in 2008 - $US 260 (2-cam) - 550 (3-cam) in 2010
第三代:
2002-2005 (3943114 - xxx)APO ASPH ROM版
双飞球面镜,E60口径,5组5片镜,内置遮光罩,产量稀少2000只左右,价格高昂,解析度非常之高,细节表现力惊人,色彩还原度极高。历史价格:$US 3,395 in 2008 - 1,500 in 2010

Leica Elmarit-R 90mm f/2.8 小头九
第一版:
1960-1976 (序列号1743501- 2809400)
S7口径, 4组5片镜,内置三节遮光罩,最早期为德产红字版(21号段前),后期为加产&德产并存,除了光圈为2.8之外,效果与R90/2不相伯仲,德味十足,色彩浓郁,焦外十分奶油。
历史价格:EU 240 in 2008 - $US 250 in 2010
第二版:
1978-1994 (2908101-3660830)
E55口径, 4组4片镜,内置双节遮光罩,加产&德产,解像力惊人,锐度十分适中,色彩还原好,后期方子版效果尤为出众。
历史价格:EU 500 in 2002 - $US 375 in 2010

Leica APO-Macro-Elmarit-R 100mm f/2.8
1986-1997 (3412891- 3762999)
1997-xxx (3792010- xxx)ROM版
E60, 6组8片镜,内置遮光罩,也是个美人头,加1:1微距镜,可成微距,哈苏实验室评出的全满分头,徕卡王牌,曾经一度让徕卡引以为傲的巅峰之作,众多的美誉让此头成为众多徕粉的梦想之头,当年全新价格3300欧,现在只是当年的三分之一左右。绝对的经典,值得收藏。
APO(Apochromatic)是指当光线通过玻璃时,不同波长的光线会有不同的折射率,致使蓝光、绿光和红光会聚在不同焦点,影响到色彩还原与清晰度,而APO是通过精密的光学计算、研磨、装配过程,将三种色光聚焦在同一点,增加清晰度和色彩还原度。所以如果拆修APO镜头一定要送回原厂,否则是不能复原之前效果的。
历史价格:$US 4,295 in 2008 - 1,300 (3-cam) - 1,600 (ROM) in 2010

Leica Macro-Elmar-R 100mm f/4
1968-2005 (2279851- 3655825) 前期为S7后期为E55(序列号2933351后出现E55版本),3组4片镜,加产,加近摄镜可成1:1.6微距,荷包瘪瘪的摄友们也只有用这个头暂时充当梦想中的徕卡百微了。
历史价格:EU 336-384 in 2008 - $US 460 in 2010

Leica Elmarit-R 135mm f/2.8
第一代:
1962-1968 (1967001- 2246050)S7口径,4组5片镜,内置遮光罩,最早期也为德产红字版,后期都为加产,是价格最低廉的徕卡定焦头,性价比很高,效果不错。
历史价格:$US 150 in 2010
第二代:
1969-1991(2296351- 3580418)E55口径,4组5片镜,内置遮光罩,性价比很高,效果不错。
历史价格:EU 504 in 2007 - $US 250 in 2010

Leica APO-Summicron-R 180mm f/2
1994-1997 (3652221- 3741211)
1997-xxx (3799410-xxx)ROM版
E100,6组9片镜,哈苏实验室又一满分头,當年中望遠(180~200mm)世界三大王牌,效果好到不能用语言来形容,无论从色彩,解像力,锐度,层次感,空间感各个方面,这个头都有惊人的表现。但重2.5公斤,手持困难。产量非常少,全球占有量不足2000只,二手市场不多见,值得收藏。
历史价格:$US 7,395 in 2008

Leica Elmarit-R 180mm f/2.8
第一代:
1966-1978 (2161001- 2913600)S8口径,4组5片镜,加产,重1.5公斤,手持困难,但成像细腻,解析度高,色彩好,性价比不错
历史价格:EU 280 in 2010
第二代:
1978-1997(2939701-3786859) E67口径, 4组5片镜,成像效果与一代不相伯仲,但重量仅为一代的三分之一
历史价格:EU 490 in 2010
第三代:
1997-2004(3798410- xxx)APO ROM版
2004-2009 APO版
E67,7组5片镜,解像力超强,价格不菲。
历史价格:$US 5,295 in 2008

Leica APO-Telyt-R 180mm f/3.4长生剑
1975-1995(2748631-3712302)加产,早期为S7.5后期为E60(序列号2947024后出现E60版本),4组7片镜,内置遮光罩,解像力惊人,哈苏实验室总体评分非常高,APO浓重的发色,暗部的蓝调,焦外空间感极强,镜身轻巧外拍方便,价格最实惠的leica APO镜头,性价比极高。
历史价格:EU 528 in 2007 - $US 500 (Series 7.5) - 650 (E60) in 2010

Leica Elmar-R 180mm f/4 鱼肠剑
1976-1993 (2785651- 3617888)E55和S7, 4组5片镜,
第一次用的时候我居然被他的锐度和还原度所震撼,主要是没有想到这么低廉的价格居然有如此棒的效果。建议荷包瘪瘪的摄友可以试试这个镜头,绝对有惊喜。
历史价格:EU 324 in 2008 - $US 325 in 2010
超长焦我用的不多,希望用过的朋友把使用心得告知,我好添上。
Leica Telyt-R 250mm f/4
第一代:1970-1979 (2406001 - 2977250)S8口径, 5组6片,蓝调大炮
历史价格:US 250 in 2010
第二代:1980-1993 (3050601 - 3617889)E76,6组7片,产量3000只左右,哈苏测评最锐长焦王者
历史价格:US 676, BP 500 in 2007 - US 500 in 2010

Leica APO-Telyt-R 280mm f/2.8
1983-1996 (3280401-3740711) E112口径, 7组8片
镜身重2750 g,产量3000只左右
锐利,分辨率高,是一支内对焦设计结构的镜头。在对焦时,只有一片镜片在移动,对焦时,镜头长度不会改变,当手持这支镜头时,它会一直保持在最佳的平衡状态。可以搭配徕卡的APO2倍镜使用,变成APO1:5.6/360mm的镜头,影像素质不会有任何损失。
历史价格:EU 1,980 in 2006

Leica APO-Telyt-R 280mm f/4
1993-2009 (3621833 - ) E77口径,6组7片
产量2000只左右, 镜身重 1875g, 哈苏实验室评分极高
历史价格:EU 1999 in 2006

Leica Telyt-R 350mm f/4.8
1980-1993 (2991151-3404000)E77口径,5组7片
产量2500只左右,镜身重 1820 g
历史价格 :EU 1,260 in 2006

Leica APO-Telyt-R 400mm f/2.8
1987-1996 (3445901- xxx)S5.5, 9组11片
产量400只左右,镜身重5800 g

Leica Elcan-R 400mm f/5.6
1965-1965

Leica Telyt R 400mm f/6.8
1967-1982 (2242001- 3222300)Series 7口径 ,1组2片, 1830g
历史价格 :EU 312 in 2007 - US 375 in 2010

Leica MR-Telyt-R 500mm f/8 折返头
1980-1983 (3067301 - 3257100)E77 7口径, 5组5片,美能达代工
产量3800只,镜身轻巧,直出样片:http://www.soupis.com/thread-97089-1-1.html

变焦篇:
因为变焦头工艺复杂,导致徕卡德产变焦镜头成本极高,为节约成本,徕卡变焦多为日本代工,但只要是徕卡镜头效果绝对毋庸置疑,每款变焦镜头都是经过徕卡亲自严格测试才投放市场。
Leica Vario-Elmar-R 21mm–35mm f/3.5–f/4.0 ASPH.
2001- xxx (序列号3925421- )E67口径, 8组9片镜,徕卡唯一的一只广角变焦,徕卡自行设计制造,成像细腻,效果非常之好,因技术难度和制造成本相当之高,所以价格昂贵。愿意出售此头的人不多,值得收藏。无敌兔打板。
历史价格:EU 2,700 in 2006

Leica Vario-Elmarit-R 28mm–90mm f/2.8–4.5 ASPH
2003-xxx (3970171 – xxx)E67,8组11片镜 ,产量极少,徕卡自行设计制造,价格昂贵
历史价格:$US 4,765 in 2008

Leica Vario Elmar-R 28mm–70mm f/3.5–4.5
1990-1996(3525796- 3755535)日本光学设计Sigma,机械设计Sigma,制造Sigma。无敌兔用边缘畸变较大,NEX用效果好,色彩和解析力不错。
1997-2003(3755535 - 3967760)ROM光学设计Sigma,Leica改进了机械设计,制造Kyocera。Rom版无敌兔打板
E60, 8组11片镜,自带遮光罩,最近比较火的一个头,因其日本血统,R系停产后价格下跌严重,现在价格不及当年的4分之一。
历史价格:$US 1,295 in 2008 - 550 in 2010

Leica Vario-Elmarit-R ASPH 35mm–70mm f/2.8
E77,9组11片镜,这是徕卡R系的当之无愧镜王之王,产量2000只,经过测试淘汰投放市场的不到200只,由于此头超高的制造成本,及其复杂的制造工艺,导致徕卡亏损严重,这也是后来徕卡最终决定R系停产的诱因之一。拥有这个头的人非常少,这是一个不能用价格衡量,有钱都买不到的好头,解像力連LEICA定焦都不是對手,二手市场包括EBAY都很难找到这个头的踪影,一旦看到不要犹豫,立刻拿下,否则再出现就不知道要等多久了。无敌兔打板,需把镜尾的保护圈去了才能用在无敌兔上。

Leica Vario-Elmar-R 35mm–70mm f/3.5
1983-1988(3171001-3393300)E60 自带遮光罩,7组8片镜,美能达代工,使用率最高的徕卡变焦头,性价比很高,非常受欢迎
1988-1997(3393301-xxx)E67自带遮光罩,7组8片镜,德产,成像胜过E60版本,但是价格也要贵一倍。
历史价格:$US 375 (E60) - 450 (E67) in 2010

Leica Vario-Elmar-R 35mm–70mm f/4
1996 –1998 (3747589-3773933)
1998-xxx (3773933)ROM Leica重新设计了光学和机械,仍由Kyocera生产。
E60 ,7组8片镜,自带遮光罩,最近段可当微距
历史价格:$US 1,295 in 2008 - 550 in 2010

Leica Angenieux R 45-90mm f/2,8
1969-1982 S8口径,12组15片镜,这支镜头成像非常结实, 解析力高, 对高光的素质一流, 色彩在Angenieux的镜头里面算是异数,做工也不错, 只是对焦环的设计位置不太好用, 发布当时的包装非常高档,镜头售价也是高端的, 现在这个镜头用几千元港币都能找到, 非常划算。

Leica Vario-APO-Elmarit-R 70mm–180mm f/2.8
1995-1999(3597502-3780279)
1998-xxx (3780279 -)ROM版
E77, 10组13片镜,又是一个哈苏实验室的满分头,此头问世后取代百微成为徕卡的王牌,解像力高,效果超好,但镜身重几乎两公斤,手持困难,价格昂贵。
历史价格:$US 8,245 in 2008

Leica Vario-Elmar-R 70mm–210mm f/4
1984-2000(3273401- 3891850)E60, 9组12片镜,美能达代工
历史价格:$US 510 in 2009 - 375 in 2010

Leica Vario-Elmar-R 75mm–200mm f/4.5
1978-1983 (2895401-3276400)E55,11组15片镜
美能达代工,徕卡无弱旅,就连价格这么低廉的变焦头,效果都不错。但色彩不如R70–210/4通透,虽然价格只是R70–210/4的一半。
历史价格:EU 625 in 2003 - $US 275 in 2010

Leica Vario-Elmar-R 80mm–200mm f/4
1995-1996 (3698001- 3763000)
1996-xxx (3763001- xxx)ROM版
E60, 8组12片镜,此头的设计者也是R70-180/2.8的设计者,效果堪比70-180/2.8 ,日本京瓷代工。性价比很高。
历史价格:$US 2,195 in 2008

Leica Vario-Elmar-R 80-200mm f4.5
1974-1977 (2703601- 2858600)E60,美能达代工,无敌兔打板。
EU 313 in 2004 - $US 500 in 2010 - EU 120 in 2011

Vario-Elmar-R 105mm–280mm f/4.2
1996-1997 (3734451-3791009)10组13片镜
镜身重两公斤,产量不到1500只。与R35-70/2.8,R70-180/2.8一样均为徕卡自行设计制造,并称为徕卡变焦三杰。
历史价格:EU 6200 in 2006 - EU 1350 in 2011

顺便附上序列号对应的年份表:
Serial number 
start – end:                Year of manufacturing
156 001-195 000                1933
195 001-236 000                1934
236 001-284 600                1935
284 601-345 000                1936
345 001-416 500                1937
416 501-490 000                1938
490 001-538 500                1939
538 501-565 000                1940
565 001-582 294                1941
582 295-593 000                1942
593 001-594 880                1943
594 881-595 000                1944
595 001-601 000                1945
601 001-633 000                1946
633 001-647 000                1947
647 001-682 000                1948
682 001-756 000                1949
756 001-840 000                1950
840 001-950 000                1951
950 001-1 051 000                1952
1 051 000-1 124 000                1953
1 124 001-1 236 000                1954
1 236 001-1 333 000                1955
1 333 001-1 459 000                1956
1 459 001-1 548 000                1957
1 548 001-1 645 300                1958
1 645 301-1 717 000                1959
1 717 001-1 827 000                1960
1 827 001-1 913 000                1961
1 913 001-1 967 100                1962
1 967 101-2 015 700                1963
2 015 701-2 077 500                1964
2 077 501-2 156 300                1965
2 156 301-2 236 500                1966
2 236 501-2 254 400                1967
2 254 401-2 312 750                1968
2 312 751-2 384 700                1969
2 384 701-2 468 500                1970
2 468 501-2 503 100                1971
2 503 101-2 556 500                1972
2 556 501-2 663 400                1973
2 663 401-2 731 900                1974
2 731 901-2 761 100                1975
2 761 101-2 809 400                1976
2 809 401-2 880 600                1977
2 880 601-2 967 250                1978
2 967 251-3 013 650                1979
3 013 651-3 087 000                1980
3 087 001-3 160 500                1981
3 160 501-3 249 100                1982
3 249 101-3 294 900                1983
3 294 901-3 346 200                1984
3 346 201-3 383 200                1985
3 383 201-3 422 890                1986
3 422 891-3 455 870                1987
3 455 871-3 478 900                1988
3 478 901-3 503 150                1989
3 503 151-3 540 467                1990
3 540 468-3 583 830                1991
3 585 831-3 610 680                1992
3 610 381-3 644 475                1993
3 644 476-3 677 030                1994
3 677 031-3 730 290                1995
3 730 291-3 770 920                1996
3 770 930-3 818 624                1997
3 818 625-3 857 849                1998
3 857 850-3 882 996                1999
3 882 997-4 000 000                2000
4 000 000-4 010 600                2004
4 010 601-4 025 900                2005
4 025 901-4 034 900                2006
4 034 901-4 057 000                2007
4 057 001-4 080 000                2008
4 080 001–>                2009
如果定焦和变焦各只留下一支, 只考虑质量, 那么无疑是: 70-180/2.8APO, R50/1.4E60.

2015年6月10日星期三

【转载】 SVM 算法入门

**感觉文章在简介部分还是比较严格和精确的,故收藏来看看后面的具体算法实现

(一)SVM的简介
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[14](或称泛化能力)。
以上是经常被有关SVM 的学术文献引用的介绍,我来逐一分解并解释一下。
Vapnik是统计机器学习的大牛,这想必都不用说,他出版的《Statistical Learning Theory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质,就在于统计机器学习能够精确的给出学习效果,能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比,传统的机器学习基本上属于摸着石头过河,用传统的机器学习方法构造分类系统完全成了一种技巧,一个人做的结果可能很好,另一个人差不多的方法做出来却很差,缺乏指导和原则。
所谓VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度,VC维越高,一个问题就越复杂。正是因为SVM关注的是VC维,后面我们可以看到,SVM解决问题的时候,和样本的维数是无关的(甚至样本是上万维的都可以,这使得SVM很适合用来解决文本分类的问题,当然,有这样的能力也因为引入了核函数)。
结构风险最小听上去文绉绉,其实说的也无非是下面这回事。
机器学习本质上就是一种对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设),但毫无疑问,真实模型一定是不知道的(如果知道了,我们干吗还要机器学习?直接用真实模型解决问题不就可以了?对吧,哈哈)既然真实模型不知道,那么我们选择的假设与问题真实解之间究竟有多大差距,我们就没法得知。比如说我们认为宇宙诞生于150亿年前的一场大爆炸,这个假设能够描述很多我们观察到的现象,但它与真实的宇宙模型之间还相差多少?谁也说不清,因为我们压根就不知道真实的宇宙模型到底是什么。
这个与问题真实解之间的误差,就叫做风险(更严格的说,误差的累积叫做风险)。我们选择了一个假设之后(更直观点说,我们得到了一个分类器以后),真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的机器学习方法都把经验风险最小化作为努力的目标,但后来发现很多分类函数能够在样本集上轻易达到100%的正确率,在真实分类时却一塌糊涂(即所谓的推广能力差,或泛化能力差)。此时的情况便是选择了一个足够复杂的分类函数(它的VC维很高),能够精确的记住每一个样本,但对样本之外的数据一律分类错误。回头看看经验风险最小化原则我们就会发现,此原则适用的大前提是经验风险要确实能够逼近真实风险才行(行话叫一致),但实际上能逼近么?答案是不能,因为样本数相对于现实世界要分类的文本数来说简直九牛一毛,经验风险最小化原则只在这占很小比例的样本上做到没有误差,当然不能保证在更大比例的真实文本上也没有误差。
统计学习因此而引入了泛化误差界的概念,就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。很显然,第二部分是没有办法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能计算上界,而无法计算准确的值(所以叫做泛化误差界,而不叫泛化误差)。
置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。
泛化误差界的公式为:
R(w)≤Remp(w)+Ф(n/h)
公式中R(w)就是真实风险,Remp(w)就是经验风险,Ф(n/h)就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。
SVM正是这样一种努力最小化结构风险的算法。
SVM其他的特点就比较容易理解了。
小样本,并不是说样本的绝对数量少(实际上,对任何算法来说,更多的样本几乎总是能带来更好的效果),而是说与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。
非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也有人叫惩罚变量)和核函数技术来实现,这一部分是SVM的精髓,以后会详细讨论。多说一句,关于文本分类这个问题究竟是不是线性可分的,尚没有定论,因此不能简单的认为它是线性可分的而作简化处理,在水落石出之前,只好先当它是线性不可分的(反正线性可分也不过是线性不可分的一种特例而已,我们向来不怕方法过于通用)。
高维模式识别是指样本维数很高,例如文本的向量表示,如果没有经过另一系列文章(《文本分类入门》)中提到过的降维处理,出现几万维的情况很正常,其他算法基本就没有能力应付了,SVM却可以,主要是因为SVM 产生的分类器很简洁,用到的样本信息很少(仅仅用到那些称之为“支持向量”的样本,此为后话),使得即使样本维数很高,也不会给存储和计算带来大麻烦(相对照而言,kNN算法在分类时就要用到所有样本,样本数巨大,每个样本维数再一高,这日子就没法过了……)。
下一节开始正式讨论SVM。别嫌我说得太详细哦。
SVM入门(二)线性分类器Part 1
线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.
用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示
C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数,它可以将两类样本完全分开。一般的,如果一个线性函数能够将样本完全正确的分开,就称这些数据是线性可分的,否则称为非线性可分的。
什么叫线性函数呢?在一维空间里就是一个点,在二维空间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(Hyper Plane)!
实际上,一个线性函数是一个实值函数(即函数的值是连续的实数),而我们的分类问题(例如这里的二元分类问题——回答一个样本属于还是不属于一个类别的问题)需要离散的输出值,例如用1表示某个样本属于类别C1,而用0表示不属于(不属于C1也就意味着属于C2),这时候只需要简单的在实值函数的基础上附加一个阈值即可,通过分类函数执行时得到的值大于还是小于这个阈值来确定类别归属。 例如我们有一个线性函数
g(x)=wx+b
【看到好多人都在问g(x)=0 和 g(x)的问题,我在这里帮楼主补充一下:g(x)实际是以w为法向量的一簇超平面,在二维空间表示为一簇直线(就是一簇平行线,他们的法向量都是w),而g(x)=0只是这么多平行线中的一条。】
我们可以取阈值为0,这样当有一个样本xi需要判别的时候,我们就看g(xi)的值。若g(xi)>0,就判别为类别C1,若g(xi)<0,则判别为类别C2(等于的时候我们就拒绝判断,呵呵)。此时也等价于给函数g(x)附加一个符号函数sgn(),即f(x)=sgn [g(x)]是我们真正的判别函数。
关于g(x)=wx+b这个表达式要注意三点:一,式中的x不是二维坐标系中的横轴,而是样本的向量表示,例如一个样本点的坐标是(3,8),则xT=(3,8) ,而不是x=3(一般说向量都是说列向量,因此以行向量形式来表示时,就加上转置)。二,这个形式并不局限于二维的情况,在n维空间中仍然可以使用这个表达式,只是式中的w成为了n维向量(在二维的这个例子中,w是二维向量,为了表示起来方便简洁,以下均不区别列向量和它的转置,聪明的读者一看便知);三,g(x)不是中间那条直线的表达式,中间那条直线的表达式是g(x)=0,即wx+b=0,我们也把这个函数叫做分类面。
实际上很容易看出来,中间那条分界线并不是唯一的,我们把它稍微旋转一下,只要不把两类数据分错,仍然可以达到上面说的效果,稍微平移一下,也可以。此时就牵涉到一个问题,对同一个问题存在多个分类函数的时候,哪一个函数更好呢?显然必须要先找一个指标来量化“好”的程度,通常使用的都是叫做“分类间隔”的指标。下一节我们就仔细说说分类间隔,也补一补相关的数学知识。
SVM入门(三)线性分类器Part 2
上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。
在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪个类别)组成。如下:
Di=(xi,yi)
xi就是文本向量(维数很高),yi就是分类标记。
在二元的线性分类中,这个表示分类的标记只有两个值,1和-1(用来表示属于还是不属于这个类)。有了这种表示法,我们就可以定义一个样本点到某个超平面的间隔:
δi=yi(wxi+b)
这个公式乍一看没什么神秘的,也说不出什么道理,只是个定义而已,但我们做做变换,就能看出一些有意思的东西。
首先注意到如果某个样本属于该类别的话,那么wxi+b>0(记得么?这是因为我们所选的g(x)=wx+b就通过大于0还是小于0来判断分类),而yi也大于0;若不属于该类别的话,那么wxi+b<0,而yi也小于0,这意味着yi(wxi+b)总是大于0的,而且它的值就等于|wxi+b|!(也就是|g(xi)|)
现在把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就可以写成
【点到直线的距离,做解析几何中为: 
D = (Ax + By + c) /sqrt(A^2+B^2) 
sqrt(A^2+B^2)就相当于||W||, 其中向量W=[A, B]; 
(Ax + By + c)就相当于g(X), 其中向量X=[x,y]。】
这个公式是不是看上去有点眼熟?没错,这不就是解析几何中点xi到直线g(x)=0的距离公式嘛!(推广一下,是到超平面g(x)=0的距离, g(x)=0就是上节中提到的分类超平面)
小Tips:||w||是什么符号?||w||叫做向量w的范数,范数是对向量长度的一种度量。我们常说的向量长度其实指的是它的2-范数,范数最一般的表示形式为p-范数,可以写成如下表达式
    向量w=(w1, w2, w3,…… wn)
它的p-范数为
看看把p换成2的时候,不就是传统的向量长度么?当我们不指明p的时候,就像||w||这样使用时,就意味着我们不关心p的值,用几范数都可以;或者上文已经提到了p的值,为了叙述方便不再重复指明。
当用归一化的w和b代替原值之后的间隔有一个专门的名称,叫做几何间隔,几何间隔所表示的正是点到超平面的欧氏距离,我们下面就简称几何间隔为“距离”。以上是单个点到某个超平面的距离(就是间隔,后面不再区别这两个词)定义,同样可以定义一个点的集合(就是一组样本)到某个超平面的距离为此集合中离超平面最近的点的距离。下面这张图更加直观的展示出了几何间隔的现实含义:
H是分类面,而H1和H2是平行于H,且过离H最近的两类样本的直线,H1与H,H2与H之间的距离就是几何间隔。
之所以如此关心几何间隔这个东西,是因为几何间隔与样本的误分次数间存在关系:
其中的δ是样本集合到分类面的间隔,R=max ||xi||  i=1,...,n,即R是所有样本中(xi是以向量表示的第i个样本)向量长度最长的值(也就是说代表样本的分布有多么广)。先不必追究误分次数的具体定义和推导过程,只要记得这个误分次数一定程度上代表分类器的误差。而从上式可以看出,误分次数的上界由几何间隔决定!(当然,是样本已知的时候)
至此我们就明白为何要选择几何间隔来作为评价一个解优劣的指标了,原来几何间隔越大的解,它的误差上界越小。因此最大化几何间隔成了我们训练阶段的目标,而且,与二把刀作者所写的不同,最大化分类间隔并不是SVM的专利,而是早在线性分类时期就已有的思想。
SVM入门(四)线性分类器的求解——问题的描述Part1
上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义:
间隔:δ=y(wx+b)=|g(x)|
几何间隔:
可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的,因此最大化几何间隔与最小化||w||完全是一回事。而我们常用的方法并不是固定||w||的大小而寻求最大几何间隔,而是固定间隔(例如固定为1),寻找最小的||w||。
而凡是求一个函数的最小值(或最大值)的问题都可以称为寻优问题(也叫作一个规划问题),又由于找最大值的问题总可以通过加一个负号变为找最小值的问题,因此我们下面讨论的时候都针对找最小值的过程来进行。一个寻优问题最重要的部分是目标函数,顾名思义,就是指寻优的目标。例如我们想寻找最小的||w||这件事,就可以用下面的式子表示:
但实际上对于这个目标,我们常常使用另一个完全等价的目标函数来代替,那就是:
(式1)
不难看出当||w||2达到最小时,||w||也达到最小,反之亦然(前提当然是||w||描述的是向量的长度,因而是非负的)。之所以采用这种形式,是因为后面的求解过程会对目标函数作一系列变换,而式(1)的形式会使变换后的形式更为简洁(正如聪明的读者所料,添加的系数二分之一和平方,皆是为求导数所需)。
接下来我们自然会问的就是,这个式子是否就描述了我们的问题呢?(回想一下,我们的问题是有一堆点,可以被分成两类,我们要找出最好的分类面)
如果直接来解这个求最小值问题,很容易看出当||w||=0的时候就得到了目标函数的最小值。但是你也会发现,无论你给什么样的数据,都是这个解!反映在图中,就是H1与H2两条直线间的距离无限大,这个时候,所有的样本点(无论正样本还是负样本)都跑到了H1和H2中间,而我们原本的意图是,H1右侧的被分为正类,H2 左侧的被分为负类,位于两类中间的样本则拒绝分类(拒绝分类的另一种理解是分给哪一类都有道理,因而分给哪一类也都没有道理)。这下可好,所有样本点都进入了无法分类的灰色地带。
造成这种结果的原因是在描述问题的时候只考虑了目标,而没有加入约束条件,约束条件就是在求解过程中必须满足的条件,体现在我们的问题中就是样本点必须在H1或H2的某一侧(或者至少在H1和H2上),而不能跑到两者中间。我们前文提到过把间隔固定为1,这是指把所有样本点中间隔最小的那一点的间隔定为1(这也是集合的间隔的定义,有点绕嘴),也就意味着集合中的其他点间隔都不会小于1,按照间隔的定义,满足这些条件就相当于让下面的式子总是成立:
    yi[(w·xi)+b]≥1 (i=1,2,…,l) (l是总的样本数)
但我们常常习惯让式子的值和0比较,因而经常用变换过的形式:
    yi[(w·xi)+b]-1≥0 (i=1,2,…,l) (l是总的样本数)
因此我们的两类分类问题也被我们转化成了它的数学形式,一个带约束的最小值的问题:
下一节我们从最一般的意义上看看一个求最小值的问题有何特征,以及如何来解。
SVM入门(五)线性分类器的求解——问题的描述Part2
从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示:
(式1)
约束条件用函数c来表示,就是constrain的意思啦。你可以看出一共有p+q个约束条件,其中p个是不等式约束,q个等式约束。
关于这个式子可以这样来理解:式中的x是自变量,但不限定它的维数必须为1(视乎你解决的问题空间维数,对我们的文本分类来说,那可是成千上万啊)。要求f(x)在哪一点上取得最小值(反倒不太关心这个最小值到底是多少,关键是哪一点),但不是在整个空间里找,而是在约束条件所划定的一个有限的空间里找,这个有限的空间就是优化理论里所说的可行域。注意可行域中的每一个点都要求满足所有p+q个条件,而不是满足其中一条或几条就可以(切记,要满足每个约束),同时可行域边界上的点有一个额外好的特性,它们可以使不等式约束取得等号!而边界内的点不行。
关于可行域还有个概念不得不提,那就是凸集,凸集是指有这么一个点的集合,其中任取两个点连一条直线,这条线上的点仍然在这个集合内部,因此说“凸”是很形象的(一个反例是,二维平面上,一个月牙形的区域就不是凸集,你随便就可以找到两个点违反了刚才的规定)。
回头再来看我们线性分类器问题的描述,可以看出更多的东西。
(式2)
在这个问题中,自变量就是w,而目标函数是w的二次函数,所有的约束条件都是w的线性函数(哎,千万不要把xi当成变量,它代表样本,是已知的),这种规划问题有个很有名气的称呼——二次规划(Quadratic Programming,QP),而且可以更进一步的说,由于它的可行域是一个凸集,因此它是一个凸二次规划。
一下子提了这么多术语,实在不是为了让大家以后能向别人炫耀学识的渊博,这其实是我们继续下去的一个重要前提,因为在动手求一个问题的解之前(好吧,我承认,是动计算机求……),我们必须先问自己:这个问题是不是有解?如果有解,是否能找到?
对于一般意义上的规划问题,两个问题的答案都是不一定,但凸二次规划让人喜欢的地方就在于,它有解(教科书里面为了严谨,常常加限定成分,说它有全局最优解,由于我们想找的本来就是全局最优的解,所以不加也罢),而且可以找到!(当然,依据你使用的算法不同,找到这个解的速度,行话叫收敛速度,会有所不同)
对比(式2)和(式1)还可以发现,我们的线性分类器问题只有不等式约束,因此形式上看似乎比一般意义上的规划问题要简单,但解起来却并非如此。
因为我们实际上并不知道该怎么解一个带约束的优化问题。如果你仔细回忆一下高等数学的知识,会记得我们可以轻松的解一个不带任何约束的优化问题(实际上就是当年背得烂熟的函数求极值嘛,求导再找0点呗,谁不会啊?笑),我们甚至还会解一个只带等式约束的优化问题,也是背得烂熟的,求条件极值,记得么,通过添加拉格朗日乘子,构造拉格朗日函数,来把这个问题转化为无约束的优化问题云云(如果你一时没想通,我提醒一下,构造出的拉格朗日函数就是转化之后的问题形式,它显然没有带任何条件)。
读者问:如果只带等式约束的问题可以转化为无约束的问题而得以求解,那么可不可以把带不等式约束的问题向只带等式约束的问题转化一下而得以求解呢?
聪明,可以,实际上我们也正是这么做的。下一节就来说说如何做这个转化,一旦转化完成,求解对任何学过高等数学的人来说,都是小菜一碟啦。
SVM入门(六)线性分类器的求解——问题的转化,直观角度
让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图,
圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的线性函数):
g(x)=wx+b
使得所有属于正类的点+代入以后有g(x+)≥1,而所有属于负类的点x-代入后有g(x-)≤-1(之所以总跟1比较,无论正一还是负一,都是因为我们固定了间隔为1,注意间隔和几何间隔的区别)。代入g(x)后的值如果在1和-1之间,我们就拒绝判断。
求这样的g(x)的过程就是求w(一个n维向量)和b(一个实数)两个参数的过程(但实际上只需要求w,求得以后找某些样本点代入就可以求得b)。因此在求g(x)的时候,w才是变量。
你肯定能看出来,一旦求出了w(也就求出了b),那么中间的直线H就知道了(因为它就是wx+b=0嘛,哈哈),那么H1和H2也就知道了(因为三者是平行的,而且相隔的距离还是||w||决定的)。那么w是谁决定的?显然是你给的样本决定的,一旦你在空间中给出了那些个样本点,三条直线的位置实际上就唯一确定了(因为我们求的是最优的那三条,当然是唯一的),我们解优化问题的过程也只不过是把这个确定了的东西算出来而已。
样本确定了w,用数学的语言描述,就是w可以表示为样本的某种组合:
w=α1x1+α2x2+…+αnxn
式子中的αi是一个一个的数(在严格的证明过程中,这些α被称为拉格朗日乘子),而xi是样本点,因而是向量,n就是总样本点的个数。为了方便描述,以下开始严格区别数字与向量的乘积和向量间的乘积,我会用α1x1表示数字和向量的乘积,而用<x1,x2>表示向量x1,x2的内积(也叫点积,注意与向量叉积的区别)。因此g(x)的表达式严格的形式应该是:
g(x)=<w,x>+b
但是上面的式子还不够好,你回头看看图中正样本和负样本的位置,想像一下,我不动所有点的位置,而只是把其中一个正样本点定为负样本点(也就是把一个点的形状从圆形变为方形),结果怎么样?三条直线都必须移动(因为对这三条直线的要求是必须把方形和圆形的点正确分开)!这说明w不仅跟样本点的位置有关,还跟样本的类别有关(也就是和样本的“标签”有关)。因此用下面这个式子表示才算完整:
w=α1y1x1+α2y2x2+…+αnynxn (式1)
其中的yi就是第i个样本的标签,它等于1或者-1。其实以上式子的那一堆拉格朗日乘子中,只有很少的一部分不等于0(不等于0才对w起决定作用),这部分不等于0的拉格朗日乘子后面所乘的样本点,其实都落在H1和H2上,也正是这部分样本(而不需要全部样本)唯一的确定了分类函数,当然,更严格的说,这些样本的一部分就可以确定,因为例如确定一条直线,只需要两个点就可以,即便有三五个都落在上面,我们也不是全都需要。这部分我们真正需要的样本点,就叫做支持(撑)向量!(名字还挺形象吧,他们“撑”起了分界线)
式子也可以用求和符号简写一下:
因此原来的g(x)表达式可以写为:
注意式子中x才是变量,也就是你要分类哪篇文档,就把该文档的向量表示代入到 x的位置,而所有的xi统统都是已知的样本。还注意到式子中只有xi和x是向量,因此一部分可以从内积符号中拿出来,得到g(x)的式子为:
发现了什么?w不见啦!从求w变成了求α。
但肯定有人会说,这并没有把原问题简化呀。嘿嘿,其实简化了,只不过在你看不见的地方,以这样的形式描述问题以后,我们的优化问题少了很大一部分不等式约束(记得这是我们解不了极值问题的万恶之源)。但是接下来先跳过线性分类器求解的部分,来看看 SVM在线性分类器上所做的重大改进——核函数。
SVM入门(七)为何需要核函数
生存?还是毁灭?——哈姆雷特
可分?还是不可分?——支持向量机
之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?
有!其思想说来也简单,来用一个二维平面中的分类问题作例子,你一看就会明白。事先声明,下面这个例子是网络早就有的,我一时找不到原作者的正确信息,在此借用,并加进了我自己的解说而已。
例子是下面这张图:
/
我们把横轴上端点a和b之间红色部分里的所有点定为正类,两边的黑色部分里的点定为负类。试问能找到一个线性函数把两类正确分开么?不能,因为二维空间里的线性函数就是指直线,显然找不到符合条件的直线。
但我们可以找到一条曲线,例如下面这一条:
显然通过点在这条曲线的上方还是下方就可以判断点所属的类别(你在横轴上随便找一点,算算这一点的函数值,会发现负类的点函数值一定比0大,而正类的一定比0小)。这条曲线就是我们熟知的二次曲线,它的函数表达式可以写为:
问题只是它不是一个线性函数,但是,下面要注意看了,新建一个向量y和a:
这样g(x)就可以转化为f(y)=<a,y>,你可以把y和a分别回带一下,看看等不等于原来的g(x)。用内积的形式写你可能看不太清楚,实际上f(y)的形式就是:
g(x)=f(y)=ay
在任意维度的空间中,这种形式的函数都是一个线性函数(只不过其中的a和y都是多维向量罢了),因为自变量y的次数不大于1。
看出妙在哪了么?原来在二维空间中一个线性不可分的问题,映射到四维空间后,变成了线性可分的!因此这也形成了我们最初想解决线性不可分问题的基本思路——向高维空间转化,使其变得线性可分。
而转化最关键的部分就在于找到x到y的映射方法。遗憾的是,如何找到这个映射,没有系统性的方法(也就是说,纯靠猜和凑)。具体到我们的文本分类问题,文本被表示为上千维的向量,即使维数已经如此之高,也常常是线性不可分的,还要向更高的空间转化。其中的难度可想而知。
小Tips:为什么说f(y)=ay是四维空间里的函数?
大家可能一时没看明白。回想一下我们二维空间里的函数定义
  g(x)=ax+b
变量x是一维的,为什么说它是二维空间里的函数呢?因为还有一个变量我们没写出来,它的完整形式其实是
  y=g(x)=ax+b

  y=ax+b
看看,有几个变量?两个。那是几维空间的函数?(作者五岁的弟弟答:五维的。作者:……)
再看看
f(y)=ay
里面的y是三维的变量,那f(y)是几维空间里的函数?(作者五岁的弟弟答:还是五维的。作者:……)
用一个具体文本分类的例子来看看这种向高维空间映射从而分类的方法如何运作,想象一下,我们文本分类问题的原始空间是1000维的(即每个要被分类的文档被表示为一个1000维的向量),在这个维度上问题是线性不可分的。现在我们有一个2000维空间里的线性函数
f(x’)=<w’,x’>+b
注意向量的右上角有个 ’哦。它能够将原问题变得可分。式中的 w’和x’都是2000维的向量,只不过w’是定值,而x’是变量(好吧,严格说来这个函数是2001维的,哈哈),现在我们的输入呢,是一个1000维的向量x,分类的过程是先把x变换为2000维的向量x’,然后求这个变换后的向量x’与向量w’的内积,再把这个内积的值和b相加,就得到了结果,看结果大于阈值还是小于阈值就得到了分类结果。
你发现了什么?我们其实只关心那个高维空间里内积的值,那个值算出来了,分类结果就算出来了。而从理论上说, x’是经由x变换来的,因此广义上可以把它叫做x的函数(有一个x,就确定了一个x’,对吧,确定不出第二个),而w’是常量,它是一个低维空间里的常量w经过变换得到的,所以给了一个w 和x的值,就有一个确定的f(x’)值与其对应。这让我们幻想,是否能有这样一种函数K(w,x),他接受低维空间的输入值,却能算出高维空间的内积值<w’,x’>?
如果有这样的函数,那么当给了一个低维空间的输入x以后,
g(x)=K(w,x)+b
f(x’)=<w’,x’>+b
这两个函数的计算结果就完全一样,我们也就用不着费力找那个映射关系,直接拿低维的输入往g(x)里面代就可以了(再次提醒,这回的g(x)就不是线性函数啦,因为你不能保证K(w,x)这个表达式里的x次数不高于1哦)。
万幸的是,这样的K(w,x)确实存在(发现凡是我们人类能解决的问题,大都是巧得不能再巧,特殊得不能再特殊的问题,总是恰好有些能投机取巧的地方才能解决,由此感到人类的渺小),它被称作核函数(核,kernel),而且还不止一个,事实上,只要是满足了Mercer条件的函数,都可以作为核函数。核函数的基本作用就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里的向量内积值。几个比较常用的核函数,俄,教课书里都列过,我就不敲了(懒!)。
回想我们上节说的求一个线性分类器,它的形式应该是:
现在这个就是高维空间里的线性函数(为了区别低维和高维空间里的函数和向量,我改了函数的名字,并且给w和x都加上了 ’),我们就可以用一个低维空间里的函数(再一次的,这个低维空间里的函数就不再是线性的啦)来代替,
又发现什么了?f(x’) 和g(x)里的α,y,b全都是一样一样的!这就是说,尽管给的问题是线性不可分的,但是我们就硬当它是线性问题来求解,只不过求解过程中,凡是要求内积的时候就用你选定的核函数来算。这样求出来的α再和你选定的核函数一组合,就得到分类器啦!
明白了以上这些,会自然的问接下来两个问题:
1. 既然有很多的核函数,针对具体问题该怎么选择?
2. 如果使用核函数向高维空间映射后,问题仍然是线性不可分的,那怎么办?
第一个问题现在就可以回答你:对核函数的选择,现在还缺乏指导原则!各种实验的观察结果(不光是文本分类)的确表明,某些问题用某些核函数效果很好,用另一些就很差,但是一般来讲,径向基核函数是不会出太大偏差的一种,首选。(我做文本分类系统的时候,使用径向基核函数,没有参数调优的情况下,绝大部分类别的准确和召回都在85%以上,可见。虽然libSVM的作者林智仁认为文本分类用线性核函数效果更佳,待考证)
对第二个问题的解决则引出了我们下一节的主题:松弛变量。
SVM入门(八)松弛变量
现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样:
圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的:
就是图中黄色那个点,它是方形的,因而它是负类的一个样本,这单独的一个样本,使得原本线性可分的问题变成了线性不可分的。这样类似的问题(仅有少数点线性不可分)叫做“近似线性可分”的问题。
以我们人类的常识来判断,说有一万个点都符合某种规律(因而线性可分),有一个点不符合,那这一个点是否就代表了分类规则中我们没有考虑到的方面呢(因而规则应该为它而做出修改)?
其实我们会觉得,更有可能的是,这个样本点压根就是错误,是噪声,是提供训练集的同学人工分类时一打瞌睡错放进去的。所以我们会简单的忽略这个样本点,仍然使用原来的分类器,其效果丝毫不受影响。
但这种对噪声的容错性是人的思维带来的,我们的程序可没有。由于我们原本的优化问题的表达式中,确实要考虑所有的样本点(不能忽略某一个,因为程序它怎么知道该忽略哪一个呢?),在此基础上寻找正负类之间的最大几何间隔,而几何间隔本身代表的是距离,是非负的,像上面这种有噪声的情况会使得整个问题无解。这种解法其实也叫做“硬间隔”分类法,因为他硬性的要求所有样本点都满足和分类平面间的距离必须大于某个值。
因此由上面的例子中也可以看出,硬间隔的分类法其结果容易受少数点的控制,这是很危险的(尽管有句话说真理总是掌握在少数人手中,但那不过是那一小撮人聊以自慰的词句罢了,咱还是得民主)。
但解决方法也很明显,就是仿照人的思路,允许一些点到分类平面的距离不满足原先的要求。由于不同的训练集各点的间距尺度不太一样,因此用间隔(而不是几何间隔)来衡量有利于我们表达形式的简洁。我们原先对样本点的要求是:
意思是说离分类面最近的样本点函数间隔也要比1大。如果要引入容错性,就给1这个硬性的阈值加一个松弛变量,即允许
因为松弛变量是非负的,因此最终的结果是要求间隔可以比1小。但是当某些点出现这种间隔比1小的情况时(这些点也叫离群点),意味着我们放弃了对这些点的精确分类,而这对我们的分类器来说是种损失。但是放弃这些点也带来了好处,那就是使分类面不必向这些点的方向移动,因而可以得到更大的几何间隔(在低维空间看来,分类边界也更平滑)。显然我们必须权衡这种损失和好处。好处很明显,我们得到的分类间隔越大,好处就越多。回顾我们原始的硬间隔分类对应的优化问题:
||w||2就是我们的目标函数(当然系数可有可无),希望它越小越好,因而损失就必然是一个能使之变大的量(能使它变小就不叫损失了,我们本来就希望目标函数值越小越好)。那如何来衡量损失,有两种常用的方式,有人喜欢用
而有人喜欢用
其中l都是样本的数目。两种方法没有大的区别。如果选择了第一种,得到的方法的就叫做二阶软间隔分类器,第二种就叫做一阶软间隔分类器。把损失加入到目标函数里的时候,就需要一个惩罚因子(cost,也就是libSVM的诸多参数中的C),原来的优化问题就变成了下面这样:
这个式子有这么几点要注意:
一是并非所有的样本点都有一个松弛变量与其对应。实际上只有“离群点”才有,或者也可以这么看,所有没离群的点松弛变量都等于0(对负类来说,离群点就是在前面图中,跑到H2右侧的那些负样本点,对正类来说,就是跑到H1左侧的那些正样本点)。
【在迭代求w的时候如何样本点非离群点,即分类正确,那么就设它的松弛变量为0了。。。】
二是松弛变量的值实际上标示出了对应的点到底离群有多远,值越大,点就越远。
三是惩罚因子C决定了你有多重视离群点带来的损失,显然当所有离群点的松弛变量的和一定时,你定的C越大,对目标函数的损失也越大,此时就暗示着你非常不愿意放弃这些离群点,最极端的情况是你把C定为无限大,这样只要稍有一个点离群,目标函数的值马上变成无限大,马上让问题变成无解,这就退化成了硬间隔问题。
四是惩罚因子C不是一个变量,整个优化问题在解的时候,C是一个你必须事先指定的值,指定这个值以后,解一下,得到一个分类器,然后用测试数据看看结果怎么样,如果不够好,换一个C的值,再解一次优化问题,得到另一个分类器,再看看效果,如此就是一个参数寻优的过程,但这和优化问题本身决不是一回事,优化问题在解的过程中,C一直是定值,要记住。
五是尽管加了松弛变量这么一说,但这个优化问题仍然是一个优化问题(汗,这不废话么),解它的过程比起原始的硬间隔问题来说,没有任何更加特殊的地方。
从大的方面说优化问题解的过程,就是先试着确定一下w,也就是确定了前面图中的三条直线,这时看看间隔有多大,又有多少点离群,把目标函数的值算一算,再换一组三条直线(你可以看到,分类的直线位置如果移动了,有些原来离群的点会变得不再离群,而有的本来不离群的点会变成离群点),再把目标函数的值算一算,如此往复(迭代),直到最终找到目标函数最小时的w。
啰嗦了这么多,读者一定可以马上自己总结出来,松弛变量也就是个解决线性不可分问题的方法罢了,但是回想一下,核函数的引入不也是为了解决线性不可分的问题么?为什么要为了一个问题使用两种方法呢?
其实两者还有微妙的不同。一般的过程应该是这样,还以文本分类为例。在原始的低维空间中,样本相当的不可分,无论你怎么找分类平面,总会有大量的离群点,此时用核函数向高维空间映射一下,虽然结果仍然是不可分的,但比原始空间里的要更加接近线性可分的状态(就是达到了近似线性可分的状态),此时再用松弛变量处理那些少数“冥顽不化”的离群点,就简单有效得多啦。
本节中的(式1)也确实是支持向量机最最常用的形式。至此一个比较完整的支持向量机框架就有了,简单说来,支持向量机就是使用了核函数的软间隔线性分类法。
下一节会说说松弛变量剩下的一点点东西,顺便搞个读者调查,看看大家还想侃侃SVM的哪些方面。
SVM入门(九)松弛变量(续)
接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题:
注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也就这么用,但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子,我们完全可以给每一个离群点都使用不同的C,这时就意味着你对每个样本的重视程度都不一样,有些样本丢了也就丢了,错了也就错了,这些就给一个比较小的C;而有些样本很重要,决不能分类错误(比如中央下达的文件啥的,笑),就给一个很大的C。
当然实际使用的时候并没有这么极端,但一种很常用的变形可以用来解决分类问题中样本的“偏斜”问题。
先来说说样本的偏斜问题,也叫数据集偏斜(unbalanced),它指的是参与分类的两个类别(也可以指多个类别)样本数量差异很大。比如说正类有10,000个样本,而负类只给了100个,这会引起的问题显而易见,可以看看下面的图:
方形的点是负类。H,H1,H2是根据给的样本算出来的分类面,由于负类的样本很少很少,所以有一些本来是负类的样本点没有提供,比如图中两个灰色的方形点,如果这两个点有提供的话,那算出来的分类面应该是H’,H2’和H1,他们显然和之前的结果有出入,实际上负类给的样本点越多,就越容易出现在灰色点附近的点,我们算出的结果也就越接近于真实的分类面。但现在由于偏斜的现象存在,使得数量多的正类可以把分类面向负类的方向“推”,因而影响了结果的准确性。
对付数据集偏斜问题的方法之一就是在惩罚因子上作文章,想必大家也猜到了,那就是给样本数量少的负类更大的惩罚因子,表示我们重视这部分样本(本来数量就少,再抛弃一些,那人家负类还活不活了),因此我们的目标函数中因松弛变量而损失的部分就变成了:
其中i=1…p都是正样本,j=p+1…p+q都是负样本。libSVM这个算法包在解决偏斜问题的时候用的就是这种方法。
那C+和C-怎么确定呢?它们的大小是试出来的(参数调优),但是他们的比例可以有些方法来确定。咱们先假定说C+是5这么大,那确定C-的一个很直观的方法就是使用两类样本数的比来算,对应到刚才举的例子,C-就可以定为500这么大(因为10,000:100=100:1嘛)。
但是这样并不够好,回看刚才的图,你会发现正类之所以可以“欺负”负类,其实并不是因为负类样本少,真实的原因是负类的样本分布的不够广(没扩充到负类本应该有的区域)。说一个具体点的例子,现在想给政治类和体育类的文章做分类,政治类文章很多,而体育类只提供了几篇关于篮球的文章,这时分类会明显偏向于政治类,如果要给体育类文章增加样本,但增加的样本仍然全都是关于篮球的(也就是说,没有足球,排球,赛车,游泳等等),那结果会怎样呢?虽然体育类文章在数量上可以达到与政治类一样多,但过于集中了,结果仍会偏向于政治类!所以给C+和C-确定比例更好的方法应该是衡量他们分布的程度。比如可以算算他们在空间中占据了多大的体积,例如给负类找一个超球——就是高维空间里的球啦——它可以包含所有负类的样本,再给正类找一个,比比两个球的半径,就可以大致确定分布的情况。显然半径大的分布就比较广,就给小一点的惩罚因子。
但是这样还不够好,因为有的类别样本确实很集中,这不是提供的样本数量多少的问题,这是类别本身的特征(就是某些话题涉及的面很窄,例如计算机类的文章就明显不如文化类的文章那么“天马行空”),这个时候即便超球的半径差异很大,也不应该赋予两个类别不同的惩罚因子。
看到这里读者一定疯了,因为说来说去,这岂不成了一个解决不了的问题?然而事实如此,完全的方法是没有的,根据需要,选择实现简单又合用的就好(例如libSVM就直接使用样本数量的比)。
SVM入门(十)将SVM用于多类分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。
还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标函数的优化问题,一次性得到多个分类面,就像下图这样:
多个超平面把空间划分为多个区域,每个区域对应一个类别,给一篇文章,看它落在哪个区域就知道了它的分类。
看起来很美对不对?只可惜这种算法还基本停留在纸面上,因为一次性求解的方法计算量实在太大,大到无法实用的地步。
稍稍退一步,我们就会想到所谓“一类对其余”的方法,就是每次仍然解一个两类分类的问题。比如我们有5个类别,第一次就把类别1的样本定为正样本,其余2,3,4,5的样本合起来定为负样本,这样得到一个两类分类器,它能够指出一篇文章是还是不是第1类的;第二次我们把类别2 的样本定为正样本,把1,3,4,5的样本合起来定为负样本,得到一个分类器,如此下去,我们可以得到5个这样的两类分类器(总是和类别的数目一致)。到了有文章需要分类的时候,我们就拿着这篇文章挨个分类器的问:是属于你的么?是属于你的么?哪个分类器点头说是了,文章的类别就确定了。这种方法的好处是每个优化问题的规模比较小,而且分类的时候速度很快(只需要调用5个分类器就知道了结果)。但有时也会出现两种很尴尬的情况,例如拿一篇文章问了一圈,每一个分类器都说它是属于它那一类的,或者每一个分类器都说它不是它那一类的,前者叫分类重叠现象,后者叫不可分类现象。分类重叠倒还好办,随便选一个结果都不至于太离谱,或者看看这篇文章到各个超平面的距离,哪个远就判给哪个。不可分类现象就着实难办了,只能把它分给第6个类别了……更要命的是,本来各个类别的样本数目是差不多的,但“其余”的那一类样本数总是要数倍于正类(因为它是除正类以外其他类别的样本之和嘛),这就人为的造成了上一节所说的“数据集偏斜”问题。
因此我们还得再退一步,还是解两类分类问题,还是每次选一个类的样本作正类样本,而负类样本则变成只选一个类(称为“一对一单挑”的方法,哦,不对,没有单挑,就是“一对一”的方法,呵呵),这就避免了偏斜。因此过程就是算出这样一些分类器,第一个只回答“是第1类还是第2类”,第二个只回答“是第1类还是第3类”,第三个只回答“是第1类还是第4类”,如此下去,你也可以马上得出,这样的分类器应该有5 X 4/2=10个(通式是,如果有k个类别,则总的两类分类器数目为k(k-1)/2)。虽然分类器的数目多了,但是在训练阶段(也就是算出这些分类器的分类平面时)所用的总时间却比“一类对其余”方法少很多,在真正用来分类的时候,把一篇文章扔给所有分类器,第一个分类器会投票说它是“1”或者“2”,第二个会说它是“1”或者“3”,让每一个都投上自己的一票,最后统计票数,如果类别“1”得票最多,就判这篇文章属于第1类。这种方法显然也会有分类重叠的现象,但不会有不可分类现象,因为总不可能所有类别的票数都是0。看起来够好么?其实不然,想想分类一篇文章,我们调用了多少个分类器?10个,这还是类别数为5的时候,类别数如果是1000,要调用的分类器数目会上升至约500,000个(类别数的平方量级)。这如何是好?
看来我们必须再退一步,在分类的时候下功夫,我们还是像一对一方法那样来训练,只是在对一篇文章进行分类之前,我们先按照下面图的样子来组织分类器(如你所见,这是一个有向无环图,因此这种方法也叫做DAG SVM)
这样在分类时,我们就可以先问分类器“1对5”(意思是它能够回答“是第1类还是第5类”),如果它回答5,我们就往左走,再问“2对5”这个分类器,如果它还说是“5”,我们就继续往左走,这样一直问下去,就可以得到分类结果。好处在哪?我们其实只调用了4个分类器(如果类别数是k,则只调用k-1个),分类速度飞快,且没有分类重叠和不可分类现象!缺点在哪?假如最一开始的分类器回答错误(明明是类别1的文章,它说成了5),那么后面的分类器是无论如何也无法纠正它的错误的(因为后面的分类器压根没有出现“1”这个类别标签),其实对下面每一层的分类器都存在这种错误向下累积的现象。。
不过不要被DAG方法的错误累积吓倒,错误累积在一对其余和一对一方法中也都存在,DAG方法好于它们的地方就在于,累积的上限,不管是大是小,总是有定论的,有理论证明。而一对其余和一对一方法中,尽管每一个两类分类器的泛化误差限是知道的,但是合起来做多类分类的时候,误差上界是多少,没人知道,这意味着准确率低到0也是有可能的,这多让人郁闷。
而且现在DAG方法根节点的选取(也就是如何选第一个参与分类的分类器),也有一些方法可以改善整体效果,我们总希望根节点少犯错误为好,因此参与第一次分类的两个类别,最好是差别特别特别大,大到以至于不太可能把他们分错;或者我们就总取在两类分类中正确率最高的那个分类器作根节点,或者我们让两类分类器在分类的时候,不光输出类别的标签,还输出一个类似“置信度”的东东,当它对自己的结果不太自信的时候,我们就不光按照它的输出走,把它旁边的那条路也走一走,等等。
大Tips:SVM的计算复杂度
使用SVM进行分类的时候,实际上是训练和分类两个完全不同的过程,因而讨论复杂度就不能一概而论,我们这里所说的主要是训练阶段的复杂度,即解那个二次规划问题的复杂度。对这个问题的解,基本上要划分为两大块,解析解和数值解。
解析解就是理论上的解,它的形式是表达式,因此它是精确的,一个问题只要有解(无解的问题还跟着掺和什么呀,哈哈),那它的解析解是一定存在的。当然存在是一回事,能够解出来,或者可以在可以承受的时间范围内解出来,就是另一回事了。对SVM来说,求得解析解的时间复杂度最坏可以达到O(Nsv3),其中Nsv是支持向量的个数,而虽然没有固定的比例,但支持向量的个数多少也和训练集的大小有关。
数值解就是可以使用的解,是一个一个的数,往往都是近似解。求数值解的过程非常像穷举法,从一个数开始,试一试它当解效果怎样,不满足一定条件(叫做停机条件,就是满足这个以后就认为解足够精确了,不需要继续算下去了)就试下一个,当然下一个数不是乱选的,也有一定章法可循。有的算法,每次只尝试一个数,有的就尝试多个,而且找下一个数字(或下一组数)的方法也各不相同,停机条件也各不相同,最终得到的解精度也各不相同,可见对求数值解的复杂度的讨论不能脱开具体的算法。
一个具体的算法,Bunch-Kaufman训练算法,典型的时间复杂度在O(Nsv3+LNsv2+dLNsv)和O(dL2)之间,其中Nsv是支持向量的个数,L是训练集样本的个数,d是每个样本的维数(原始的维数,没有经过向高维空间映射之前的维数)。复杂度会有变化,是因为它不光跟输入问题的规模有关(不光和样本的数量,维数有关),也和问题最终的解有关(即支持向量有关),如果支持向量比较少,过程会快很多,如果支持向量很多,接近于样本的数量,就会产生O(dL2)这个十分糟糕的结果(给10,000个样本,每个样本1000维,基本就不用算了,算不出来,呵呵,而这种输入规模对文本分类来说太正常了)。
这样再回头看就会明白为什么一对一方法尽管要训练的两类分类器数量多,但总时间实际上比一对其余方法要少了,因为一对其余方法每次训练都考虑了所有样本(只是每次把不同的部分划分为正类或者负类而已),自然慢上很多。