奶酪(524300045) 16:33:15 语言都是一样,思想最重要 andy(40508730) 16:33:27 伟大的小白(439297317) 16:31:16 各种语言都用 不是说 让做刷马桶的去烧饭 你刷马桶要用马桶刷 你烧饭要用烧饭的 andy(40508730) 16:33:36 主要思想是完成工作 0.0(237667802) 16:33:38 思想这东西,太抽象了 天上虹(175535850) 16:33:42 linux下c/c++推荐基本书吧, 罗成(409661706) 16:33:45 语言太杂了 真不好···奔波于语法的学习 伟大的小白(439297317) 16:34:06 思想.. 对你说赫赫 你对c来个闭包思想看看 低调(313316432) 16:34:07 语法还真不是重点 西电-hadoop(715691357) 16:34:12 恩 最关键的 你得能上网 能google 能百度 能csdn 能加hadoop技术交流群 伟大的小白(439297317) 16:34:20 你对 java来个指针思想看看 天上虹(175535850) 16:34:30 更重要的是没事了能上上防御塔 伟大的小白(439297317) 16:34:29 思想这东西 你忽悠忽悠刚毕业的还差不多 低调(313316432) 16:34:31 对各种库啊 api啊什么的 记得多 天上虹(175535850) 16:34:43 大家看人人小站没 摧毁了一座防御塔 0.0(237667802) 16:34:58 别再谈思想了,谈不起 罗成(409661706) 16:35:05 最合适就是最好的吧·· 0.0(237667802) 16:35:49 最多谈谈架构 西电-hadoop(715691357) 16:36:24 有个问题放在那里 你就赶紧想个法子解决了 就行了 天上虹(175535850) 16:36:24 没有哪种思想能适合每一个公司的业务的 罗成(409661706) 16:36:47 老板就别想给1份的工资就让人做2份工作的事···招的是JAVA程序员 就别逼人家搞C的项目···业余时间帮你用C做个开源消息队列还行 天上虹(175535850) 16:37:34 我以前说想去搞搞c的。。。没想到真想起我了。。。 0.0(237667802) 16:37:50 那就搞呗 0.0(237667802) 16:38:07 把自己卖给了老板,不搞,人家不给你饭吃 天上虹(175535850) 16:38:17 加薪搞不搞c 罗成(409661706) 16:39:01 中国就是项目搞得太急躁··没时间重构··· 不能精雕细琢 0.0(237667802) 16:39:45 没有品质优良的项目,哪来重构的基础 西电-hadoop(715691357) 16:40:04 都啥时代了 谁还有心思搞绣花针 能搞出来 卖出去 能用就行了 反正用的人也不知道咋回事 西电-hadoop(715691357) 16:40:08 哈哈 天上虹(175535850) 16:40:18 话说中国干什么事情都说要”又快又好“,上至天朝下至百姓 伟大的小白(439297317) 16:40:25 重构了你的代码 谁来重构我的钱包 0.0(237667802) 16:40:36 不必抱怨那么多 海风(78441391) 16:46:51 问大家一个问题,有没有碰到 只能Map,不能Reduce的情况 Reduce=0% 卡这了 nknk(290377570) 16:48:23 你用combine了吗? 海风(78441391) 16:53:25 在hive命令行运行的 小Q(178960751) 18:14:29 连鸿蒙国际这样的烂东西都能上人民日报.汗! 小Q(178960751) 18:15:07 kwee(836232886) 18:15:34 娱乐新闻嘛日期:2011/11/24 lykke.lm(715356603) 9:15:11 org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /user/suse/tik/segments/20111123175211/content/part-00003/data for DFSClient_attempt_201111220922_0412_r_000003_1 on client 192.168.1.15 because current leaseholder is trying to recreate file. at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1045) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:981) at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:377) at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:508) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:959) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:955) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:953) 请问谁遇到过这种错误 lykke.lm(715356603) 9:15:24 运行几个小时之后就报这个错误 332106123(332106123) 9:16:47 好像是权限问题 lykke.lm(715356603) 9:16:53 不是 lykke.lm(715356603) 9:17:02 要是权限问题的话 任务根本运行不起来 lykke.lm(715356603) 9:17:09 我这个是运行了 10几个小时的时候报的 开心延年-alipay<[email protected]> 10:13:41 目标: 让单机版的lucene能够支持十亿级别索引的查询 索引更改点 1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题) 2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做) 3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余) 4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处 下表为对100W~10亿条md5值进行创建索引以及查询的情况 读的时间为查询10W条md5的时间,单位毫秒 写为创建完整索引的时间,单位为毫秒。 lykke.lm(715356603) 10:15:34 lucene 搜索 85.2 g的索引文件要多久 lykke.lm(715356603) 10:15:54 5 秒多? xiaolong(312210901) 10:16:28 什么需求需要在单板机上做索引呢 (来自手机QQ: http://mobile.qq.com/v/ ) 风车车(54343885) 10:16:38 这个好高级呀 开心延年-alipay<[email protected]> 10:16:45 50毫秒 lykke.lm(715356603) 10:16:50 不可能吧 开心延年-alipay<[email protected]> 10:16:57 修改了索引啦 lykke.lm(715356603) 10:17:01 85,2 g 50毫秒 lykke.lm(715356603) 10:17:12 你怎么修改的呢》 bruce_yang(782506462) 10:17:13 此代码只应天上有,人间哪得几回看 lykke.lm(715356603) 10:17:14 能说说么 开心延年-alipay<[email protected]> 10:17:17 二分法查找 性能还是不错的 lykke.lm(715356603) 10:17:30 和查找没关系 难道你不用lucene 检索么?》 风车车(54343885) 10:17:38 不是把所有的索引都加载到内存中么 开心延年-alipay<[email protected]> 10:17:46 lucene的索引结构改了 开心延年-alipay<[email protected]> 10:18:00 全加到内存了 肯定达不到亿的级别 开心延年-alipay<[email protected]> 10:26:05 只改动了这几个类 lykke.lm(715356603) 10:26:25 发源码吧 开心 伟大的小白(439297317) 10:26:34 跳跃表的性能 > 二分法吧 kelo_北京(13581754) 10:26:41 是呀,开心 云 - 华(46249327) 10:26:50 单机 lucene能够支持十亿级别索引的查询 lykke.lm(715356603) 10:27:05 我也觉得不可能 开心延年-alipay<[email protected]> 10:27:18 代码给你 自己测试下就知道啦 bruce_yang(782506462) 10:27:23 改了建立索引的 java代码? lykke.lm(715356603) 10:27:23 我现在的索引大约10个g 单机 根本不行 伟大的小白(439297317) 10:27:34 难 追求速度 需要内存全加载 bruce_yang(782506462) 10:27:42 10G 多少条数据啊 bruce_yang(782506462) 10:27:44 lm 伟大的小白(439297317) 10:27:46 那多坑跌阿 bruce_yang(782506462) 10:27:47 luykke lykke.lm(715356603) 10:27:55 我那个 是网页 翟光亚(304428768) 10:28:01 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题) 这个会占用多大内存? 翟光亚(304428768) 10:28:09 感觉没有必要这样的 伟大的小白(439297317) 10:28:30 我一直没搞明白 伟大的小白(439297317) 10:28:41 跳跃表就是为了节约内存设计的 lykke.lm(715356603) 10:28:52 单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储 lykke.lm(715356603) 10:28:59 用MulitSearch 伟大的小白(439297317) 10:29:01 怎么二分法反而内存小 。。。。?why? 伟大的小白(439297317) 10:29:08 ss 开心延年-alipay<[email protected]> 10:29:09 [email protected];[email protected];[email protected];[email protected]; 开心延年-alipay<[email protected]> 10:29:14 文件二分法啊 开心延年-alipay<[email protected]> 10:29:18 文件是定长的 lykke.lm(715356603) 10:29:21 715356603@qq,com lykke.lm(715356603) 10:29:33 g给我发啊 哥们 kwee(836232886) 10:29:52 [email protected] 越测越开心(19730953) 10:29:53 还有[email protected] 支持下阿里兄弟 kelo_北京(13581754) 10:30:02 发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事 332106123(332106123) 10:30:20 [email protected] bruce_yang(782506462) 10:30:46 kelo 你眼睛分布式? 在路上(386728737) 10:30:47 同求,[email protected], bruce_yang(782506462) 10:30:48 研究 bruce_yang(782506462) 10:30:52 单机 ? bruce_yang(782506462) 10:30:56 还搞啥分布式 开心延年-alipay<[email protected]> 10:31:01 我业余时间搞着玩的哈 就修改了几天 bruce_yang(782506462) 10:31:01 知道sensei没 bruce_yang(782506462) 10:31:16 正需要做搜索呢 bruce_yang(782506462) 10:31:20 你那个不是会bug吧? 开心延年-alipay<[email protected]> 10:31:35 你测试下 开心延年-alipay<[email protected]> 10:31:45 验证下结果是否正确就知道了 开心延年-alipay<[email protected]> 10:31:56 邮件中我给出了测试代码 在路上(386728737) 10:32:25 强烈建议开心把源码共享到群 kelo_北京(13581754) 10:32:39 是呀 开心延年-alipay<[email protected]> 10:33:11 都发给大家了 风(51263) 10:33:50 [email protected],我也要一份 广州-ZBIRD(258987928) 10:34:56 [email protected] 广州-ZBIRD(258987928) 10:35:07 在路上(386728737) 10:35:59 开心,都改了哪些类? 开心延年-alipay<[email protected]> 10:36:12 在路上(386728737) 10:36:28 能否兼容lucene3.3~3.4版本? 开心延年-alipay<[email protected]> 10:36:40 TermInfosReader与TermInfosWriter 开心延年-alipay<[email protected]> 10:36:46 肯定不兼容了 开心延年-alipay<[email protected]> 10:36:51 索引都变了 bruce_yang(782506462) 10:36:51 找不到啊 开心延年-alipay<[email protected]> 10:36:56 你以为我是作者啊 bruce_yang(782506462) 10:36:57 叫啥名字 lykke.lm(715356603) 10:37:06 呵呵 日期:2011/11/24 开心延年-alipay<[email protected]> 10:37:07 你邮箱多少 bruce_yang(782506462) 10:37:14 [email protected] bruce_yang(782506462) 10:37:28 不兼容? bruce_yang(782506462) 10:37:41 擦 kwee(836232886) 10:37:43 [email protected] 开心延年-alipay<[email protected]> 10:37:47 就三天晚上 还兼容啊 呵呵 在路上(386728737) 10:38:14 我的意思是说,代码能否工作在3.4下,索引重建 bruce_yang(782506462) 10:38:30 北京一家牛逼个欧诺公司 bruce_yang(782506462) 10:38:33 公司 bruce_yang(782506462) 10:38:36 又要不去的没 bruce_yang(782506462) 10:38:42 乐荐网络(www.joyrec.com) 开心延年-alipay<[email protected]> 10:40:44 没测试过呀 bruce_yang(782506462) 10:42:41 还是没收到呢 bruce_yang(782506462) 10:42:42 开心 开心延年-alipay<[email protected]> 10:43:33 你的邮箱不让发吧 高调-失业中(13574798) 10:43:33 群共享源码 bruce_yang(782506462) 10:43:46 [email protected] bruce_yang(782506462) 10:43:48 这个吧 kwee(836232886) 10:44:00 [email protected]. bruce_yang(782506462) 10:46:23 收到了 tks 高调-失业中(13574798) 10:46:30 [email protected] kwee(836232886) 10:46:53 谢谢 收到。 伟大的小白(439297317) 10:47:03 变那么多人研究luncene了? 开心延年-alipay<[email protected]> 10:47:12 空间不足 无法上传 汗 高调-失业中(13574798) 10:47:35 上传到零时空间 bruce_yang(782506462) 10:48:16 lucene4 听说改动很大 kelo_北京(13581754) 10:48:25 邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据 bruce_yang(782506462) 10:48:26 性能提升 非常大 bruce_yang(782506462) 10:48:41 kelo。北京 开心延年-alipay<[email protected]> 10:48:43 lucene4 都出来啦 开心延年-alipay<[email protected]> 10:48:47 改动了啥呀 bruce_yang(782506462) 10:48:47 你现在数据多少 bruce_yang(782506462) 10:48:57 lucene4 已经 测试了 bruce_yang(782506462) 10:48:58 开始 bruce_yang(782506462) 10:49:08 算法改动很大 伟大的小白(439297317) 10:50:30 lucene4把api接口都换了 伟大的小白(439297317) 10:50:41 实现策略也是 伟大的小白(439297317) 10:50:48 基本不能过度 kelo_北京(13581754) 10:51:16 没看到呀 kelo_北京(13581754) 10:51:25 看看svn里头的 kelo_北京(13581754) 10:51:48 呵呵,自玩的 清澈高远(305412982) 10:51:55 lucene更新很快 bruce_yang(782506462) 10:52:19 bruce_yang(782506462) 10:52:27 http://paris8.org/a/bbs/viewthread.php?tid=6098 伟大的小白(439297317) 10:53:37 真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿 bruce_yang(782506462) 10:53:45 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0 bruce_yang(782506462) 10:53:47 原文 bruce_yang(782506462) 10:54:31 哪位研究过sensei 开心延年-alipay<[email protected]> 10:55:10 不行了 得干活了 如果还有人想要源码 发邮件给[email protected] 我定期回复 伟大的小白(439297317) 10:55:11 上次也是 去年弄得cas 今年发现版本更新 bruce_yang(782506462) 10:55:40 搞这么大 更新太快了 bruce_yang(782506462) 10:55:52 lucene3 变化很大 bruce_yang(782506462) 10:55:59 现在4也很大 广州-ZBIRD(258987928) 10:56:17 谁转发一份给偶。呵呵。谢谢 伟大的小白(439297317) 10:56:41 lucene2 -> 3 不兼容 -> 4 不一定兼容 bruce_yang(782506462) 10:58:17 linkedin 公司的分布式搜索 bruce_yang(782506462) 10:58:23 哪位研究过 源远流长(117405390) 10:58:30 zoie? bruce_yang(782506462) 10:58:34 不是 bruce_yang(782506462) 10:58:38 sensei
关于搜索聊天记录
猜你喜欢
转载自sealbird.iteye.com/blog/1276560
今日推荐
周排行