| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2153 人关注过本帖
标题:谁可以提供些资料啊?
只看楼主 加入收藏
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
找到一个小办法,暂时缓解了压力,希望下午走运了~~~~ 吃饭先了


to,,,chenjin145,,, 还是跟kai那句,关键的关键就是你以为容易的那部分,就是怎么提取我想要的

这个就是关键,不是抓抓数据就行
2006-10-18 12:22
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
我一直认为很难
<div class=div1>张三说:论坛人民万岁</div>
<div class=div2>作者:静夜思</div>

你说哪个是标题?
2006-10-18 13:29
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
论坛暂时不提取,先从简单的新闻网开始,一般来说主题和作者会有字体上的区别,例如作者名会用其它样式

VIPS就是视觉分割的原理,靠字体和颜色还有其它一些视觉因素来归类网页板块,

而大家最不看重的提取其实是最难,要识别哪段是核心就是关键,反而蜘蛛算法网上到处是例子不是重点
2006-10-18 13:35
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
你们公司太锻炼人了~!
2006-10-18 13:45
chenjin145
Rank: 1
等 级:禁止访问
帖 子:3922
专家分:0
注 册:2006-7-12
收藏
得分:0 

關鍵是人為添的

查找頻率高的數據 自然就成為以後抓取的關鍵


[url=javascript:alert(1);] [div]fdgfdgfdg\" on\"[/div] [/url]
2006-10-18 13:49
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
楼上的,那个是pagerank算法啊~~~
2006-10-18 13:50
chenjin145
Rank: 1
等 级:禁止访问
帖 子:3922
专家分:0
注 册:2006-7-12
收藏
得分:0 



你是否太注重了xx算法!!!


[url=javascript:alert(1);] [div]fdgfdgfdg\" on\"[/div] [/url]
2006-10-18 13:52
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 

不是,名字只是一个思想的代号,问题是别人想到先,我们想不到,惟有用别人起的代号,

你觉得新浪那篇文章不用VIPS的话,可以有什么思想来解决,你想到了也可以叫 chenjin145算法

2006-10-18 14:01
chenjin145
Rank: 1
等 级:禁止访问
帖 子:3922
专家分:0
注 册:2006-7-12
收藏
得分:0 

地址


[url=javascript:alert(1);] [div]fdgfdgfdg\" on\"[/div] [/url]
2006-10-18 14:07
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
没地址 这个程序要适应所有页面
2006-10-18 14:09
快速回复:谁可以提供些资料啊?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.018186 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved