引用
交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。 开心延年-alipay<[email protected]> 10:18:56 风车车(54343885) 10:18:36 用多台内存服务器不行么 肯定可以啦 风车车(54343885) 10:19:14 现在内存这么便宜 开心延年-alipay<[email protected]> 10:19:21 不是啦 存储的就是ID的值 风车车(54343885) 10:19:26 放内存,效率应该很快咯 lykke.lm(715356603) 10:19:32 你对id 进行md5? lykke.lm(715356603) 10:19:41 然后呢 索引?? 开心延年-alipay<[email protected]> 10:19:47 很多网站ID的值存储的就是 MD5 所以尽量模拟真实情景啦 开心延年-alipay<[email protected]> 10:20:02 你可以存储任何值 lykke.lm(715356603) 10:20:18 很多网站的id 是url 的md5 不错大多数是 content的md5 bruce_yang(782506462) 10:20:27 lucene bruce_yang(782506462) 10:20:42 一亿索引才8G 多啊? lykke.lm(715356603) 10:20:52 你这个 能开源一下么 开心 bruce_yang(782506462) 10:21:06 开心你做的搜索引擎? bruce_yang(782506462) 10:21:21 会员魔法表情:《无聊》播放 回复 收藏 lykke.lm(715356603) 10:21:21 我现在数据量 上亿条 但是 搜索速度很慢 开心延年-alipay<[email protected]> 10:21:27 当然可以啦 开心延年-alipay<[email protected]> 10:21:30 业余爱好而已 bruce_yang(782506462) 10:21:32 开心 说说 bruce_yang(782506462) 10:21:33 这个 bruce_yang(782506462) 10:21:38 是啥啊 bruce_yang(782506462) 10:21:42 改写lucene的? 高调-失业中(13574798) 10:21:42 开心NC xiaolong(312210901) 10:21:58 每条数据有多大呢? 开心延年-alipay<[email protected]> 10:22:14 每条数据有多大呢? MD5 32长度 xiaolong(312210901) 10:22:57 。。。很多 开心延年-alipay<[email protected]> 10:23:23 呵呵 要源码的 留email 风车车(54343885) 10:23:38 [email protected] kwee(836232886) 10:23:41 [email protected] kwee(836232886) 10:23:48 风(51263) 10:23:51 [email protected] lykke.lm(715356603) 10:23:56 [email protected] bruce_yang(782506462) 10:23:59 [email protected] bruce_yang(782506462) 10:24:02 开心 bruce_yang(782506462) 10:24:10 感恩节 记得发源码 越测越开心(19730953) 10:24:14 [email protected] bruce_yang(782506462) 10:24:14 kwee(836232886) 10:24:16 越测越开心(19730953) 10:24:21 感恩 哈哈 伟大的小白(439297317) 10:24:20 什么东西 伟大的小白(439297317) 10:24:25 那么多人留有向 kelo_北京(13581754) 10:24:30 [email protected] lykke.lm(715356603) 10:24:32 你们也不搞搜索 凑设呢们热闹呢 匿-新媒(670906880) 10:24:34 [email protected] 开心延年-alipay<[email protected]> 10:24:38 其实源码改动量很小啦 bruce_yang(782506462) 10:24:54 先说说吧 bruce_yang(782506462) 10:24:58 你这个是啥 bruce_yang(782506462) 10:25:01 改的lucene? bruce_yang(782506462) 10:25:04 改的哪儿 zzy - Anchora(251547518) 10:25:06 同求 [email protected] 开心延年-alipay<[email protected]> 10:25:19 索引更改点 1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题) 2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做) 3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余) 4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处 开心延年-alipay<[email protected]> 10:25:57 伟大的小白(439297317) 10:25:57 lucene? 开心延年-alipay<[email protected]> 10:26:05 只改动了这几个类 lykke.lm(715356603) 10:26:25 发源码吧 开心 伟大的小白(439297317) 10:26:34 跳跃表的性能 > 二分法吧 kelo_北京(13581754) 10:26:41 是呀,开心 云 - 华(46249327) 10:26:50 单机 lucene能够支持十亿级别索引的查询 lykke.lm(715356603) 10:27:05 我也觉得不可能 开心延年-alipay<[email protected]> 10:27:18 代码给你 自己测试下就知道啦 bruce_yang(782506462) 10:27:23 改了建立索引的 java代码? lykke.lm(715356603) 10:27:23 我现在的索引大约10个g 单机 根本不行 伟大的小白(439297317) 10:27:34 难 追求速度 需要内存全加载 bruce_yang(782506462) 10:27:42 10G 多少条数据啊 bruce_yang(782506462) 10:27:44 lm 伟大的小白(439297317) 10:27:46 那多坑跌阿 bruce_yang(782506462) 10:27:47 luykke lykke.lm(715356603) 10:27:55 我那个 是网页 翟光亚(304428768) 10:28:01 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题) 这个会占用多大内存? 翟光亚(304428768) 10:28:09 感觉没有必要这样的 伟大的小白(439297317) 10:28:30 我一直没搞明白 伟大的小白(439297317) 10:28:41 跳跃表就是为了节约内存设计的 lykke.lm(715356603) 10:28:52 单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储 lykke.lm(715356603) 10:28:59 用MulitSearch 伟大的小白(439297317) 10:29:01 怎么二分法反而内存小 。。。。?why? 伟大的小白(439297317) 10:29:08 ss 开心延年-alipay<[email protected]> 10:29:09 [email protected];[email protected];[email protected];[email protected]; 开心延年-alipay<[email protected]> 10:29:14 文件二分法啊 开心延年-alipay<[email protected]> 10:29:18 文件是定长的 lykke.lm(715356603) 10:29:21 715356603@qq,com lykke.lm(715356603) 10:29:33 g给我发啊 哥们 kwee(836232886) 10:29:52 [email protected] 越测越开心(19730953) 10:29:53 还有[email protected] 支持下阿里兄弟 kelo_北京(13581754) 10:30:02 发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事 332106123(332106123) 10:30:20 [email protected] bruce_yang(782506462) 10:30:46 kelo 你眼睛分布式? 在路上(386728737) 10:30:47 同求,[email protected], bruce_yang(782506462) 10:30:48 研究 bruce_yang(782506462) 10:30:52 单机 ? bruce_yang(782506462) 10:30:56 还搞啥分布式 开心延年-alipay<[email protected]> 10:31:01 我业余时间搞着玩的哈 就修改了几天 bruce_yang(782506462) 10:31:01 知道sensei没 bruce_yang(782506462) 10:31:16 正需要做搜索呢 bruce_yang(782506462) 10:31:20 你那个不是会bug吧? 开心延年-alipay<[email protected]> 10:31:35 你测试下 开心延年-alipay<[email protected]> 10:31:45 验证下结果是否正确就知道了 开心延年-alipay<[email protected]> 10:31:56 邮件中我给出了测试代码 在路上(386728737) 10:32:25 强烈建议开心把源码共享到群 kelo_北京(13581754) 10:32:39 是呀 开心延年-alipay<[email protected]> 10:33:11 都发给大家了 风(51263) 10:33:50 [email protected],我也要一份 交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。 lykke.lm(715356603) 10:28:59 用MulitSearch 伟大的小白(439297317) 10:29:01 怎么二分法反而内存小 。。。。?why? 伟大的小白(439297317) 10:29:08 ss 开心延年-alipay<[email protected]> 10:29:09 [email protected];[email protected];[email protected];[email protected]; 开心延年-alipay<[email protected]> 10:29:14 文件二分法啊 开心延年-alipay<[email protected]> 10:29:18 文件是定长的 lykke.lm(715356603) 10:29:21 715356603@qq,com lykke.lm(715356603) 10:29:33 g给我发啊 哥们 kwee(836232886) 10:29:52 [email protected] 越测越开心(19730953) 10:29:53 还有[email protected] 支持下阿里兄弟 kelo_北京(13581754) 10:30:02 发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事 332106123(332106123) 10:30:20 [email protected] bruce_yang(782506462) 10:30:46 kelo 你眼睛分布式? 在路上(386728737) 10:30:47 同求,[email protected], bruce_yang(782506462) 10:30:48 研究 bruce_yang(782506462) 10:30:52 单机 ? bruce_yang(782506462) 10:30:56 还搞啥分布式 开心延年-alipay<[email protected]> 10:31:01 我业余时间搞着玩的哈 就修改了几天 bruce_yang(782506462) 10:31:01 知道sensei没 bruce_yang(782506462) 10:31:16 正需要做搜索呢 bruce_yang(782506462) 10:31:20 你那个不是会bug吧? 开心延年-alipay<[email protected]> 10:31:35 你测试下 开心延年-alipay<[email protected]> 10:31:45 验证下结果是否正确就知道了 开心延年-alipay<[email protected]> 10:31:56 邮件中我给出了测试代码 在路上(386728737) 10:32:25 强烈建议开心把源码共享到群 kelo_北京(13581754) 10:32:39 是呀 开心延年-alipay<[email protected]> 10:33:11 都发给大家了 风(51263) 10:33:50 [email protected],我也要一份 广州-ZBIRD(258987928) 10:34:56 [email protected] 广州-ZBIRD(258987928) 10:35:07 在路上(386728737) 10:35:59 开心,都改了哪些类? 开心延年-alipay<[email protected]> 10:36:12 在路上(386728737) 10:36:28 能否兼容lucene3.3~3.4版本? 开心延年-alipay<[email protected]> 10:36:40 TermInfosReader与TermInfosWriter 开心延年-alipay<[email protected]> 10:36:46 肯定不兼容了 开心延年-alipay<[email protected]> 10:36:51 索引都变了 bruce_yang(782506462) 10:36:51 找不到啊 开心延年-alipay<[email protected]> 10:36:56 你以为我是作者啊 bruce_yang(782506462) 10:36:57 叫啥名字 lykke.lm(715356603) 10:37:06 呵呵 开心延年-alipay<[email protected]> 10:37:07 你邮箱多少 bruce_yang(782506462) 10:37:14 [email protected] bruce_yang(782506462) 10:37:28 不兼容? bruce_yang(782506462) 10:37:41 擦 kwee(836232886) 10:37:43 [email protected] 开心延年-alipay<[email protected]> 10:37:47 就三天晚上 还兼容啊 呵呵 在路上(386728737) 10:38:14 我的意思是说,代码能否工作在3.4下,索引重建 bruce_yang(782506462) 10:38:30 北京一家牛逼个欧诺公司 bruce_yang(782506462) 10:38:33 公司 bruce_yang(782506462) 10:38:36 又要不去的没 bruce_yang(782506462) 10:38:42 乐荐网络( www.joyrec.com) 开心延年-alipay<[email protected]> 10:40:44 没测试过呀 bruce_yang(782506462) 10:42:41 还是没收到呢 bruce_yang(782506462) 10:42:42 开心 开心延年-alipay<[email protected]> 10:43:33 你的邮箱不让发吧 高调-失业中(13574798) 10:43:33 群共享源码 bruce_yang(782506462) 10:43:46 [email protected] bruce_yang(782506462) 10:43:48 这个吧 kwee(836232886) 10:44:00 [email protected]. bruce_yang(782506462) 10:46:23 收到了 tks 高调-失业中(13574798) 10:46:30 [email protected] kwee(836232886) 10:46:53 谢谢 收到。 伟大的小白(439297317) 10:47:03 变那么多人研究luncene了? 开心延年-alipay<[email protected]> 10:47:12 空间不足 无法上传 汗 高调-失业中(13574798) 10:47:35 上传到零时空间 bruce_yang(782506462) 10:48:16 lucene4 听说改动很大 kelo_北京(13581754) 10:48:25 邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据 bruce_yang(782506462) 10:48:26 性能提升 非常大 bruce_yang(782506462) 10:48:41 kelo。北京 开心延年-alipay<[email protected]> 10:48:43 lucene4 都出来啦 开心延年-alipay<[email protected]> 10:48:47 改动了啥呀 bruce_yang(782506462) 10:48:47 你现在数据多少 bruce_yang(782506462) 10:48:57 lucene4 已经 测试了 bruce_yang(782506462) 10:48:58 开始 bruce_yang(782506462) 10:49:08 算法改动很大 伟大的小白(439297317) 10:50:30 lucene4把api接口都换了 伟大的小白(439297317) 10:50:41 实现策略也是 伟大的小白(439297317) 10:50:48 基本不能过度 kelo_北京(13581754) 10:51:16 没看到呀 kelo_北京(13581754) 10:51:25 看看svn里头的 kelo_北京(13581754) 10:51:48 呵呵,自玩的 清澈高远(305412982) 10:51:55 lucene更新很快 bruce_yang(782506462) 10:52:19 bruce_yang(782506462) 10:52:27 http://paris8.org/a/bbs/viewthread.php?tid=6098 伟大的小白(439297317) 10:53:37 真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿 bruce_yang(782506462) 10:53:45 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0 bruce_yang(782506462) 10:53:47 原文 bruce_yang(782506462) 10:54:31 哪位研究过sensei 开心延年-alipay<[email protected]> 10:55:10 不行了 得干活了 如果还有人想要源码 发邮件给[email protected] 我定期回复 伟大的小白(439297317) 10:55:11 上次也是 去年弄得cas 今年发现版本更新 bruce_yang(782506462) 10:55:40 搞这么大 更新太快了 bruce_yang(782506462) 10:55:52 lucene3 变化很大 bruce_yang(782506462) 10:55:59 现在4也很大 广州-ZBIRD(258987928) 10:56:17 谁转发一份给偶。呵呵。谢谢 伟大的小白(439297317) 10:56:41 lucene2 -> 3 不兼容 -> 4 不一定兼容 bruce_yang(782506462) 10:58:17 linkedin 公司的分布式搜索 bruce_yang(782506462) 10:58:23 哪位研究过 源远流长(117405390) 10:58:30 zoie? bruce_yang(782506462) 10:58:34 不是 bruce_yang(782506462) 10:58:38 sensei 日期:2011/11/24 开心延年-alipay<[email protected]> 10:37:07 你邮箱多少 bruce_yang(782506462) 10:37:14 [email protected] bruce_yang(782506462) 10:37:28 不兼容? bruce_yang(782506462) 10:37:41 擦 kwee(836232886) 10:37:43 [email protected] 开心延年-alipay<[email protected]> 10:37:47 就三天晚上 还兼容啊 呵呵 在路上(386728737) 10:38:14 我的意思是说,代码能否工作在3.4下,索引重建 bruce_yang(782506462) 10:38:30 北京一家牛逼个欧诺公司 bruce_yang(782506462) 10:38:33 公司 bruce_yang(782506462) 10:38:36 又要不去的没 bruce_yang(782506462) 10:38:42 乐荐网络(www.joyrec.com) 开心延年-alipay<[email protected]> 10:40:44 没测试过呀 bruce_yang(782506462) 10:42:41 还是没收到呢 bruce_yang(782506462) 10:42:42 开心 开心延年-alipay<[email protected]> 10:43:33 你的邮箱不让发吧 高调-失业中(13574798) 10:43:33 群共享源码 bruce_yang(782506462) 10:43:46 [email protected] bruce_yang(782506462) 10:43:48 这个吧 kwee(836232886) 10:44:00 [email protected]. bruce_yang(782506462) 10:46:23 收到了 tks 高调-失业中(13574798) 10:46:30 [email protected] kwee(836232886) 10:46:53 谢谢 收到。 伟大的小白(439297317) 10:47:03 变那么多人研究luncene了? 开心延年-alipay<[email protected]> 10:47:12 空间不足 无法上传 汗 高调-失业中(13574798) 10:47:35 上传到零时空间 bruce_yang(782506462) 10:48:16 lucene4 听说改动很大 kelo_北京(13581754) 10:48:25 邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据 bruce_yang(782506462) 10:48:26 性能提升 非常大 bruce_yang(782506462) 10:48:41 kelo。北京 开心延年-alipay<[email protected]> 10:48:43 lucene4 都出来啦 开心延年-alipay<[email protected]> 10:48:47 改动了啥呀 bruce_yang(782506462) 10:48:47 你现在数据多少 bruce_yang(782506462) 10:48:57 lucene4 已经 测试了 bruce_yang(782506462) 10:48:58 开始 bruce_yang(782506462) 10:49:08 算法改动很大 伟大的小白(439297317) 10:50:30 lucene4把api接口都换了 伟大的小白(439297317) 10:50:41 实现策略也是 伟大的小白(439297317) 10:50:48 基本不能过度 kelo_北京(13581754) 10:51:16 没看到呀 kelo_北京(13581754) 10:51:25 看看svn里头的 kelo_北京(13581754) 10:51:48 呵呵,自玩的 清澈高远(305412982) 10:51:55 lucene更新很快 bruce_yang(782506462) 10:52:19 bruce_yang(782506462) 10:52:27 http://paris8.org/a/bbs/viewthread.php?tid=6098 伟大的小白(439297317) 10:53:37 真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿 bruce_yang(782506462) 10:53:45 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0 bruce_yang(782506462) 10:53:47 原文 bruce_yang(782506462) 10:54:31 哪位研究过sensei 开心延年-alipay<[email protected]> 10:55:10 不行了 得干活了 如果还有人想要源码 发邮件给[email protected] 我定期回复 伟大的小白(439297317) 10:55:11 上次也是 去年弄得cas 今年发现版本更新 bruce_yang(782506462) 10:55:40 搞这么大 更新太快了 bruce_yang(782506462) 10:55:52 lucene3 变化很大 bruce_yang(782506462) 10:55:59 现在4也很大 广州-ZBIRD(258987928) 10:56:17 谁转发一份给偶。呵呵。谢谢 伟大的小白(439297317) 10:56:41 lucene2 -> 3 不兼容 -> 4 不一定兼容 bruce_yang(782506462) 10:58:17 linkedin 公司的分布式搜索 bruce_yang(782506462) 10:58:23 哪位研究过 源远流长(117405390) 10:58:30 zoie? bruce_yang(782506462) 10:58:34 不是 bruce_yang(782506462) 10:58:38 sensei