实时追踪科研动态丨Huan Liu、Jiebo Luo、Jinyu Li等人8.15精选新论文，附ChatPaper综述

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/explain

2023年8月15日精选新论文列表：

1.SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

https://www.aminer.cn/pub/64dafb293fda6d7f064e2cae/

ChatPaper综述：指出了目前基于音频-文本提示的生成性语音模型在实现高质量的零样本文本转语音等创新方面取得了显著进展。然而，现有模型在处理各种音频-文本语音生成任务，包括转换输入语音和处理恶劣声学环境下捕获的音频时仍然存在限制。本文介绍了SpeechX，这是一个多功能的语音生成模型，能够进行零样本文本转语音和各种语音转换任务，处理干净和噪声信号。SpeechX将神经编解码语言建模与多任务学习相结合，利用任务相关的提示实现统一和可扩展的建模，并提供一种在语音增强和转换任务中利用文本输入的一致方式。实验结果显示，SpeechX在零样本文本转语音、噪声抑制、目标说话人提取、语音去除和带或不带背景噪声的语音编辑等各种任务中表现出较专门模型相当或更高的性能。

2.Platypus: Quick, Cheap, and Powerful Refinement of LLMs

https://www.aminer.cn/pub/64dafb2f3fda6d7f064e349c/

ChatPaper综述：介绍了一种名为Platypus的大型语言模型的细化方法，该方法通过精细调整和合并模型，在HuggingFace的开放语言模型排行榜上取得了最强的性能，并且排名第一。作者在文章中描述了他们的数据集Open-Platypus和细化合并模型的过程，并且通过验证测试数据泄露和训练数据污染的方法，为未来的研究提供了借鉴。Platypus家族的模型在量化的语言模型指标上表现出色，使用的细化调整数据和总体计算量远远少于其他最先进的细化调整模型所需的量。尤其是，13B的Platypus模型可以在单个A100 GPU上使用25k个问题在5个小时内进行训练。这证明了作者的Open-Platypus数据集的质量，并为该领域的进一步改进提供了机会。

3.OctoPack: Instruction Tuning Code Large Language Models

https://www.aminer.cn/pub/64dafb293fda6d7f064e2db0/

ChatPaper综述：该文研究了在大型语言模型上使用指令调整的问题。通过利用Git提交的代码变更与人类指令的自然结构，进行指令调整。研究者编译了CommitPack，其中包含了350种编程语言中的4TB的Git提交记录。在16B参数的StarCoder模型上，他们将CommitPack与其他自然语言和合成代码指令（xP3x、Self-Instruct、OASST）进行了比较，在HumanEval Python基准测试中取得了表现最好的结果（46.2%的pass@1）。此外，作者还引入了HumanEvalPack，将HumanEval基准测试扩展到了3个编码任务（代码修复、代码解释、代码合成）和6种语言（Python、JavaScript、Java、Go、C++、Rust）。他们的模型OctoCoder和OctoGeeX在HumanEvalPack中表现最好，证明了CommitPack在推广到更广泛的语言和自然编码任务中的优势。该研究还提供了代码、模型和数据的免费获取地址。

4.CausalLM is not optimal for in-context learning

https://www.aminer.cn/pub/64dafb293fda6d7f064e2cd5/

ChatPaper综述：文章说明了在上下文学习中，使用前缀语言模型（prefixLM）相比于因果语言模型（causalLM）能够取得更好的性能，而且这个结果是经验上得到的，但从理论上并不明确。作者采用理论方法来分析使用特定参数构建的前缀LM和因果LM的收敛行为。分析结果显示，两种LM类型都以线性速度收敛到它们的稳定点，但前缀LM收敛到线性回归的最优解，而因果LM的收敛动态遵循在线梯度下降算法，即使样本数量无限增长，也不能保证收敛到最优解。作者通过在合成和真实任务以及使用不同类型的transformers进行的实证实验证实了他们的理论主张，结果表明因果LM在所有设定中表现一贯较差。

5.VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

https://www.aminer.cn/pub/64dafb293fda6d7f064e2b97/

ChatPaper综述：介绍了VisIT-Bench（Visual InsTruction Benchmark）——一个用于评估面向现实世界应用的视觉语言模型的基准测试。通过策划70个“指令系列”，该基准测试旨在评估经过指令调整的视觉语言模型的能力。任务范围涵盖了从基本识别到游戏和创造性生成等多种任务，扩展了VQAv2和COCO等评估方法。在策划之后，数据集包含了592个测试查询，每个查询都有一个由人工编写的指令条件下的标题。这些描述了指令相关的因素，例如针对一个询问无障碍市店是否适合轮椅用户的指令，标题会描述店铺的坡道/潜在障碍物。这些描述使得可以收集每个实例的经过人工验证的参考输出，并使用仅文本的LLM（语言模型）进行候选多模态生成的自动评估，与人类判断相一致。通过人工和自动评估，可以量化模型与参考之间的质量差距；例如，在比较中，最佳的指令跟随模型只在27%的情况下击败了GPT-4参考。VisIT-Bench允许实践者动态参与，他们可以在项目网站上提交其模型的响应；数据、代码和排行榜可在http://visit-bench.github.io上获取。该论文说明了视觉语言模型在面对现实世界应用时存在的质量差距问题。

6.Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

https://www.aminer.cn/pub/64dafb2f3fda6d7f064e349b/

ChatPaper综述：文章讨论了在零样本图像到图像翻译任务中，如何利用导向扩散模型和图像编辑模型来实现跨大领域间隙的翻译。作者发现传统的图像到图像翻译方法在跨大领域间隙时不够有效，因此探索了使用导向扩散和图像编辑模型的方法，并提出了一种新的基准模型Revive-2I，能够通过文本提示实现零样本图像到图像翻译。作者发现在跨大领域间隙的长翻译任务中，导向和提示是必要的，因为需要关于目标领域的先前知识来弥合大的领域间隙。此外，作者还发现提示提供了关于目标领域的最佳和最可扩展的信息，因为分类器导向的扩散模型需要重新训练用于特定的用例，并且因为它们被训练在各种各样的图像上，所以缺乏对目标领域的更强约束。

7.Detecting and Preventing Hallucinations in Large Vision Language Models

https://www.aminer.cn/pub/64dafb293fda6d7f064e2acb/

ChatPaper综述：指出了大型视觉语言模型在生成细节描述方面存在的幻觉问题，包括虚构的对象、不准确的描述和错误的关系。为了解决这个问题，作者引入了一个名为M-HalDetect的多模态幻觉检测数据集，用于训练和评估幻觉检测和预防模型。该数据集包含了16000个细粒度标签的视觉问答示例，是第一个用于详细图像描述的综合性多模态幻觉检测数据集。与之前只考虑对象幻觉的工作不同，作者还对不准确的实体描述和关系进行了注释。作者还提出了细粒度的直接偏好优化方法，并训练了细粒度的多模态奖励模型，并使用最佳拒绝采样方法评估了它们的效果。人工评估结果显示，使用这些方法可以将幻觉率分别降低了41%和55%，相比基线方法有显著改进。

8.A Survey on Deep Neural Network Pruning-Taxonomy, Comparison, Analysis, and Recommendations

https://www.aminer.cn/pub/64dafb293fda6d7f064e2c44/

ChatPaper综述：说明了神经网络中存在的一个问题：现代深度神经网络的模型大小巨大，需要大量的计算和存储资源。这导致在资源受限的环境中部署这些模型以及加速推理时间变得困难。为了解决这个问题，研究人员越来越多地探索剪枝技术作为神经网络压缩的研究方向。然而，目前缺乏最新综合评估剪枝方法的综述论文。因此，该研究提供了一个综合评估现有深度神经网络剪枝研究工作的综述，以分类和比较剪枝方法，并探讨了新兴主题和研究方向。为了促进未来研究，研究人员还提供了一个包含不同应用的数据集、网络和评估的资源库，以及选择剪枝方法和展望有前景的研究方向的宝贵建议。

9.ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

https://www.aminer.cn/pub/64dafb293fda6d7f064e2e02/

ChatPaper综述：论文描述了现有的文本评估方法存在的问题以及如何通过多代理辩论的框架来解决这些问题。目前，使用大型语言模型（LLM）进行文本评估的单代理方法虽然有一定的潜力，但实验结果显示仍需要进一步改进，以缩小它们与人类评估质量之间的差距。为了弥补这一差距，研究者采用了多代理辩论的方法，从单代理的提示策略转向多代理的合作评估模式。多代理的方法可以使一组LLM与一系列智能对手协同工作，利用它们的不同能力和专长，提高处理复杂任务的效率和效果。在这篇论文中，研究者构建了一个名为ChatEval的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成（NLG）任务中生成的回答质量。研究结果表明，ChatEval不仅仅提供了文本评分，还提供了一种模拟人类评估过程的可靠评估方法。

10.Large Language Models for Information Retrieval: A Survey

https://www.aminer.cn/pub/64dafb293fda6d7f064e2d9e/

ChatPaper综述：主要讨论了大型语言模型和信息检索系统之间的结合，并强调了该领域的快速发展和仍然存在的一些问题。其中提到了数据稀缺、解释性和生成上下文合理但可能不准确的响应等挑战。文中还提到了传统方法（如基于术语的稀疏检索方法与快速响应）和现代神经架构（如具有强大语言理解能力的语言模型）的组合对于推动IR系统发展的必要性。此外，文中还介绍了大型语言模型（如ChatGPT和GPT-4）在自然语言处理领域的革命性作用，并强调了近期研究力图利用大型语言模型来改进IR系统。整篇论文旨在综合现有的方法并通过全面的概述提供细致入微的见解。

如何使用ChatPaper？
使用ChatPaper的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在这里插入图片描述

在ChatPaper页面中，可以选择基于单篇文献进行对话和基于全库（个人文献库）对话，可选择上传本地PDF或者直接在AMiner上检索文献。

ChatPaper使用教程：点此查看

实时追踪科研动态丨Huan Liu、Jiebo Luo、Jinyu Li等人8.15精选新论文，附ChatPaper综述

猜你喜欢