arXiv 转型:脱离康奈尔大学,独立运营并招聘 CEO

arXiv宣布独立运营并招聘CEO,引发学术界对其未来发展模式的担忧,免费学术资源或将面临挑战。

原文标题:arXiv变天:将脱离康奈尔大学独立,招聘CEO,网友:以后还能白嫖吗?

原文作者:机器之心

冷月清谈:

arXiv宣布将脱离康奈尔大学,转型为独立的非营利组织,并公开招聘CEO。此举标志着这个拥有35年历史的预印本平台进入新的发展阶段。文章回顾了arXiv的创建和发展历程,从最初的物理学预印本共享系统,到如今涵盖多个学科、拥有数百万论文的庞大数据库。在康奈尔大学的二十余年里,arXiv经历了爆炸式增长,但也面临AI投稿激增、质量控制、技术债务等多重挑战。独立后的arXiv需要独立筹资,这引发了学术界对其未来运营模式的担忧,大家担心可能会出现高级付费功能、广告或订阅费用等。新任CEO将负责战略规划、财务管理和技术基础设施建设,以应对arXiv面临的挑战,并确保其可持续发展。

怜星夜思:

1、arXiv独立后,如果真的开始收费或者引入广告,你觉得哪种方式对科研人员的伤害最小?或者有没有更好的开源节流的方案?
2、文章里提到arXiv面临AI投稿激增的问题,你觉得除了技术手段,还有什么方法可以有效控制低质量的AI论文?或者说,我们应该如何定义“低质量”的AI论文?
3、arXiv的这次变革,让你想到了学术界的哪些其他变化?你认为未来学术交流会朝着什么方向发展?

原文内容

图片
机器之心编辑部

每次打开 arXiv 都能看到的那个「康奈尔大学」标识,很有可能将成为历史了。



最近,arXiv 发布了一个官方信息,称「经过与康奈尔大学数十年富有成效的合作,并在西蒙斯基金会的支持下,arXiv 正转型为独立的非营利组织,这也标志着这个开创开放获取科学先河的平台,迈入了其 35 年发展历程的全新阶段。」。


与此同时,他们还发布了一个 CEO 职位的招聘公告,并表示该职位的薪资范围预计在 30 万美元左右,实际提供的薪资可能会根据与工作相关的知识、技能和经验而有所不同。



走向独立,arXiv 经历了什么?


arXiv 现在是全球最有影响力的电子预印本系统,始建于 1991 年 8 月,由 Paul Ginsparg 创立。最初,它只是 Ginsparg 在洛斯阿拉莫斯实验室用 NeXT 计算机编写的一组自动化分发预印本的 shell 脚本(通过邮件和 FTP 服务器)。



它的诞生源于一个简单的痛点:当时物理学家们通过邮件列表交换预印本,邮件箱很快就被塞爆。Ginsparg 想,何不让服务器自动处理这些请求?最初它只服务于高能物理领域,预计每年接收约 100 篇论文,但上线首月就涌入了近百篇投稿,弦理论大师 Ed Witten 的早期加入更让它迅速获得学术合法性。


1993 年,随着 Mosaic 浏览器发布,Ginsparg 为 arXiv 搭建了网页界面 —— 这个万维网时代的「原住民」由此诞生。


1994 年,它从 xxx.lanl.gov 更名为 arXiv.org,学科范围也从物理学扩展至数学、计算机科学等领域。


然而,arXiv 的真正转折点发生在 2001 年:由于洛斯阿拉莫斯实验室内部动荡,Ginsparg 带着项目回归母校康奈尔大学,arXiv 也随之落户该校图书馆。



此后,arXiv 经历了爆炸式增长:2008 年收录论文达 50 万篇,2014 年底达到 100 万篇,2021 年底超过 200 万篇。截至目前,平台累计收录的论文总数已超过 270 万篇,涵盖八个学科领域中的 150 多个类别,迄今为止已提供 320 亿次下载。


在康奈尔的二十余年里,arXiv 经历了从个人项目到机构基础设施的艰难转型。Ginsparg 曾多次试图「抽身而退」,但代码维护、审核争议和技术债务让他始终无法真正放手。直到 2022 年,西蒙斯基金会的 1000 万美元资助才终于让 arXiv 迎来大规模技术升级和团队扩张,代码库也从 Perl 重构为 Python。


然而,近几年,arXiv 开始面临更大的挑战。最紧迫的危机来自 AI 投稿的井喷 ——2023 年以来,计算机科学论文提交量激增,低质量稿件如潮水般涌来,而 arXiv 依赖的志愿者审核体系已不堪重负。


Ginsparg 本人仍在苦苦调试那块「圣杯疯子过滤器(the holy grail crackpot filter)」硬盘,试图用早期语言模型自动筛除伪科学论文,但他也承认:如果不亲自把关,质量就无法保证。这种「创始人依赖症」暴露了 arXiv 的结构性脆弱 —— 三十余年过去,它仍在与创始人试图逃离的引力搏斗。


更深层的张力在于开放与质量的永恒博弈。一方面,语言学家艾米丽・本德指责 arXiv 是「癌症」,纵容「垃圾科学」泛滥;另一方面,物理学家 Jorge Hirsch 又控诉平台「审查」合格研究,因「煽动性内容」撤回其论文。这种双向夹击让 arXiv 的审核政策进退维谷:收紧标准会被斥为学术守门人,放松管控则沦为伪科学的温床。2023 年那篇轰动一时的「室温超导」论文 —— 最终被证伪 —— 恰恰证明了这种困境:arXiv 的快速传播机制既能加速真理,也能放大谬误。



技术债务则是另一颗定时炸弹。Ginsparg 以 1960 年代 Fortran 程序员的方式写代码 ——「真正的程序员不写文档」—— 导致系统长期缺乏可维护性。尽管 2022 年后开启 Python 重构,但历史积弊与持续增长的规模压力仍在拉扯这个老牌平台的根基。


这些挑战的存在,迫使 aiXiv 寻求更深层次的变革。


招聘新 CEO,arXiv 将走向何方?


arXiv 目前的年度预算约为 600 万美元,拥有约 27 名员工(主要在美国远程办公),这些员工和志愿者一起服务于超过 500 万的月度用户。


新任 CEO 的职责涵盖战略规划、财务管理、技术基础设施及人员监督。此外,CEO 还需与康奈尔大学和西蒙斯基金会的董事会代表密切合作,共同确立组织的独立性。



arXiv 在公告中表示,「独立性使 arXiv 能够跟上其发展的各个方面:现代化其基础设施,扩大学科覆盖范围,并与国际利益相关者进行更深入的互动。」


面对这个突如其来的巨变,学术界和开发者社区的态度出奇地一致 —— 忧虑远大于期待。


过去,arXiv 有大学和基金会兜底,现在却要独立筹资维持生计。不少网友一针见血地指出:「这通常是变味的开始。为了活下去,你很快就会看到高级付费功能(Premium Features)和赞助内容悄悄爬上页面。」



科研人员最怕的,是独立后的高昂运营成本,最终会通过广告、收费墙(Paywall)或者机构订阅费的形式转嫁给学术界。甚至有悲观的网友调侃这是一条经典的「从非营利走向订阅收费的流水线」。




还有一部分人质疑,管理一个「仅仅是上传和下载 PDF 文件的网站」,真的需要花 30 万美元请个高管吗?不过,也有行业内人士反驳说,考虑到 CEO 需要在纽约这种地方主导一家科技类非营利组织的融资、法律和合规事务,这个薪资在当地其实算不上高。



作为整个 AI、物理、数学等硬核科技圈赖以生存的「基础设施」,arXiv 的这次转身无疑将深远地影响未来学术交流的走向。习惯了免费白嫖论文的我们,或许只能静候这位新任 CEO 走马上任,看看这艘 35 岁的学术巨轮究竟会驶向何方。


参考链接:https://www.reddit.com/r/MachineLearning/

https://jobs.chronicle.com/job/37961678/chief-executive-officer


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我认为“低质量”的AI论文,首先是缺乏创新性,只是简单地套用现有模型和方法;其次是实验设计不严谨,结论不可靠;最后是写作质量差,逻辑混乱,难以理解。所以,要控制这类论文,可以从这些方面入手制定更严格的审核标准。

这次arXiv的变化,让我想到了开放获取运动的兴起。越来越多的期刊开始采用开放获取模式,让更多人可以免费阅读科研成果。我觉得未来学术交流会更加开放、共享,信息传播的速度也会更快。但同时,如何保证学术质量、防止学术不端行为,也是我们需要认真思考的问题。

楼上说的捐款我看行,但我觉得可以参考一下游戏行业的做法,搞一些周边产品,比如定制T恤、马克杯啥的,科研人员也需要一点geek文化产品啊!另外,可以考虑和一些商业公司合作,提供一些数据分析服务,反正他们的数据也够多了,挖掘一下价值没准能带来收益。

单靠技术肯定不行,现在AI生成的内容越来越逼真了。我觉得应该加强人工审核,特别是引入同行评议机制,让领域内的专家来把关。另外,可以考虑对AI生成的论文进行标注,让读者更容易区分。

有没有觉得现在学术圈有点像饭圈?各种大牛、热点研究,大家一拥而上。我觉得未来学术交流应该更加理性、多元,鼓励不同的声音,而不是盲目追捧热点。另外,多一些跨学科的交流,说不定能碰撞出意想不到的火花!

我认为如果真的要收费,按机构订阅可能比个人付费好一些。毕竟科研经费很多时候是拨给机构的,个人付费会增加科研人员的负担。至于开源节流,是不是可以考虑引入一些社区共建的项目,比如让大家帮忙做一些数据清洗、分类的工作,减少人工成本?

收费肯定都不好,但如果非要选一个,我选机构订阅。但是!能不能考虑搞一个类似维基百科那样的定期捐款活动?告诉大家运营困难,号召全球科研人员和机构捐一点,说不定能缓解资金压力,还能显得咱社区有爱!

我觉得学术交流的未来一定是朝着更加个性化、智能化的方向发展。AI可以帮助我们更快地找到相关的研究,参与到更精准的讨论中。但是,我们也需要警惕算法带来的信息茧房效应,避免只接触到自己感兴趣的内容,而忽略了其他重要的信息。

与其想着怎么堵,不如想想怎么疏。我觉得可以搞一个“AI论文竞技场”,鼓励大家用AI来解决实际问题,优秀的论文给奖励。这样既能激发创新,又能筛选出真正有价值的AI研究。至于那些纯粹为了发论文而生的AI垃圾,自然会被淘汰。