能利用爬虫技术做到哪些很酷很有趣的事情很有用的事情

能利用爬虫技术做到哪些很酷很有趣很有用的事情?
准备学习python爬虫。各位大神都会用爬虫做哪些有趣的事情?今天突然想玩玩爬虫,就提了这个问题。跟着YouTube上的一个tutor写了个简单的程序,爬了一点豆瓣的数据。主要用到request和bs4(BeautifulSoup)模块。虽然简陋,毕竟是人生中的第一只爬虫啊……以示纪念,代码写在博客里了:
按时间排序
399 个回答
不酷,但比较有用。最近爱上了上张大妈,每天起床,午饭,睡前刷一刷,不亦乐乎。
但是,平时工作小忙,遇见一些便宜好货,晚刷一会儿去看就空了。
于是搞了一个小APP。
其原理很简单,就是爬虫,定期刷张大妈首页看看有没有更新。
如果有更新了,那就看这批更新的货物,有没有包含我设置的关键字,如果有,就给我发条PUSH通知,快去抢!
举个例子:
俺在APP里新加关键字:
发现更新里面,有表,就发通知给我。
我用手机收到了,赶快划开看看。
感觉自己的钱包又要更瘦了。
把这个APP起名叫张小弟
大妈和小弟的合影。
作为一个电影爱好者,伪设计师和对编程有些兴趣的人学了点爬虫当然是来抓取豆瓣top250电影的海报啦不过学得不多 被豆瓣发现是机器人了(颤抖吧人类) 所以有些图片有问题 也没有全部抓到。。不过学得不多 被豆瓣发现是机器人了(颤抖吧人类) 所以有些图片有问题 也没有全部抓到。。
前一阵子父母要来国外看我,于是乎就要考虑买机票的事情了。 然后就用scrapy写了个爬虫想看看机票的价格趋势。 基本上已经完成了,只不过因为爬阿里Trip很多都是动态的JavaScript,然后就用到了selenium来辅助。代码地址:
还有一个爬虫是爬了15年NASA NEO LEAF INDEX的数据,然后把所有数据转换成了netcdf格式 保存成gif图片。
链接: 欢迎大家提点建议啊。
很早之前就关注了这个话题,今天来答。其实我做的事情和很像,或许是每个程序员都有想过爬教务这种事情吧。不同的是,我并没有触及社交,定位暂时只是校内的工具。毕竟在现在国内这种大环境下做社交是一种很可笑的事情,或许以后会做,等想到微信什么做不到的旮旯再去做吧。所有的信息是在服务器上爬取的,服务器做中转站,以统一的接口返回给客户端。最初开始做打算是去年三月份,自己写个demo,然后四月份拉人组队一起做(iOS、Android和服务器)。中间考试各种拖拉直到去年十二月份才完成,本来打算上线,又因为一些不可抗拒因素拖延了很久,过两天终于终于终于要上线了。美工是我自己的做的....(=_=找个靠谱的美工好难啊.....)主页是这样的,流量是宿舍流量,余额是校园卡余额课表是这样的还有别的还可以查看校园卡消费记录等等(好像暴露了什么......)嗯,可以方便的向校园卡内圈存money当然还有一些别的一些乱七八糟的页面登录页面,用校内的netid就可以登录
刚学Python没多久,在写知乎爬虫。爬虫在这个repo里,有兴趣的可以试一下(Python 3.5)。V 0.1
爬取number字符串中的知乎收藏夹,每次爬取一页,将问题与答案写入collection文档,
按回车键爬取下一页。自动过滤图片。
这是0.1版本的效果V 0.2
解决同一问题下有多个回答被连续收藏的问题
创建一个以收藏夹名字为名的文件夹,每次载入整个收藏夹,并将收藏夹的每一页创建一个以页码为名字的txt文档放入此文件夹。
这是0.2版本的效果V 0.3
将people字符串改为某个知乎用户即可创建以用户名为文件夹名的文件夹,并爬取此用户所有的收藏夹。
这是0.3版本的效果V 0.4
解决因为没有登录知乎而无法保存部分用户收藏夹的问题
get_all_followees_collections()
获取某个用户所有关注者的所有收藏夹
update_collections()
更新自己所有的收藏夹(即更新自上次打开收藏夹之后更新的内容)
如果我的代码有问题请告知我,如果对爬虫感兴趣可以私信交流。
没怎么刻意地学习爬虫,差不多半年前遇见了一个pornsite,其实是个付费porn论坛,其每一个帖子的付费部分都有这固定的格式,像是:下载链接:xxx下载链接:xxx下载链接:xxx下载链接:xxx密码:yyy我那时也就是在想怎么用linux里面的wget/curl等工具来实现那些压缩包的自动下载。但在下载之前我需要提纯帖子里面的关键信息,所以我就参照了一个遍历目录中文件夹的shell代码写了一个在指定板块里面遍历所有帖子链接的功能:for tid in `curl "" | grep -Eo xxx | grep -Eo xxx`; do xxxxxxxxxx然后对每一个帖子,用curl下载其内容,用for+grep获取下载链接,用grep获取密码。grep是以行工作的,可能需要将&br先变成\n再说。这个pornsite的下载链接使用了某非主流网盘,一个月会员好像是20来者(现在涨到了38),我就买了一个月。VIP下载页面里面的真·下载链接有着明显的特征,在某个标签里面藏着。文件大小也好提取,后面用于统计(比如我一次只下载10GB的内容,多了就停止脚本运行)。真·下载链接是一坨base64过的玩意,有时间限制,但可以用wget直接下载下来,不需要任何cookies。所有压缩包下载下来后就可以调用rar或者unzip或者其他工具进行自动解压,然后我通过一段加密压缩的shell函数将其重新打包成方便我一次性下下来的压缩包。然后我一边完善这个破脚本一边从这个破站上面下东西,250多页我差不多处理了100页。在此期间我还拖了一个全是俄罗斯妹纸的pornsite全站所有片子,打包出了1100多个平均1.5GB的压缩包。还有一个神奇的pornsite,直到我会员到期的最后一天才开始对它写脚本,等我开始拖时不到两个小时我的会员就停止了,至今都不知道是到期了还是被封了。之后我觉得有点无聊了,因为里面并没有啥好看的片子,论好看程度还不如知乎美人鱼。所以我tm的不干了。感觉这段时间所做之事并没啥卵用的样子。对了,我也想拿shell写一个抓取知乎美人鱼照片的脚本出来,毕竟本渣渣并不会用python。至于会参照别人的代码设置特征规则还是我自己摸索。。。算了我还是自己摸索吧。毕竟在写siterip script方面我也是身经百战了。两年前我想获得某个业界知名把妹达人的视频,我发现那个家伙跑了至少五个wp站,然后买了教程就能获得一个账号,我就写了一个php脚本遍历每个站的所有用户,然后拿用户名相同的密码尝试登录。结果是五个站点里面存在几个用户名和密码相同的用户,其中一个是管理员。然后高潮来了,后台发现他的站点都装了某款自动备份插件,然后备份用的网盘的登录凭据也给出了,登进去一看,除了发现那个老油条有二十几个站外,哇~他的教程我全都有了。然而还是并没有啥卵用,我照着他的教程学了两个月,还是没有什么短发眼镜妹,那坨英文教程我也卖不出去,并不会有人要(当然那家伙厚颜无耻地挂着599美元的价格是另外一个问题)。所以我就是喜欢做这种然并卵的事情呢。不过我倒是获得了一个额外的好处,那就是在协会周末交流的时候,我就给我的基友们展示在各种移动设备上面搭建*AMP+WP把妹教程站是一种怎样的体验,其中包括各种核的Android机、某双核Win8平板还有最近出的两代WIn10国产寨板等。好在我看到了这个问题,看了这一圈答案后,对爬虫重新提起了兴趣,感觉还是要提高自己的姿势水平。
每天爬取互联网相关的短新闻,然后早晨8、9点用微信图文的形式发出来~~就在刚刚弄的,4月1号上线,求关注~!
来个nodejs写的tumblr爬虫,设置种子链接后自动爬取关联用户的post用parse5+xml写的,100个并发访问的稳定内存占用130M左右,比cheerio强很多最后来个按赞数排序的成果展示
1.引言作为一个python初学者,一直听说python有很强大的做爬虫的能力,但一直没有去尝试。这几天做了一番研究,又受了这个问题后面几个抓取网络图片的答案的启发,决定自己也试试。虽然自己的摄影爱好已经荒废很久,但平常还是会上上像网易摄影,Lofter这样的摄影网站,寻求点“摄影素材”,哈哈,当然不是只看美女了。有时看到一个挺喜欢的摄影师,就想把他专辑里的图片都下载下来“研究”一番,但是逐个相册点开,再右键另存为,估计全部保存完手已经废掉了。很有必要将这个过程自动化,这就是爬虫能派上用处的地方了。2.举个栗子首先来试用一下这个小app的功能,我将python的代码用pyinstaller打包,做成一个独立的.exe程序,方便没有装python解释器和相应库的用户使用,下载可以戳这个网址: ,目前只有32位的版本,64位的电脑无法使用。下载下来后双击打开应用,弹出一个命令行界面,要求你输入需要下载的第一个页面。如何确定这个页面了?就是先打开某个摄影师的主页,如“一张王义博”的主页, ,然后点击第一个相册(当然你想从别的相册开始下载也可以),然后复制这个页面的地址为 。将其添加到命令行界面中,注意网址的两端要加上引号,然后回车。然后软件要求你输入你想保存图处的路径,如输入“D:/IMG/",注意也需要加上引号。然后回车,软件就会开始下载,也许会出一个关于BeautifulSoup的warning信息,不用管,程序会正常运行,然后开始下载图片。看需要下载的页面的多少,以及带宽情况,下载的时间会有所差异。如果图片的地址无法打开,则会显示”404 not found"的信息,程序会继续下载之后的图片。当下载完成后,会显示“this is the last page, downloading completed!', 然后敲enter键退出即可。在保存路径里,查看下载下来的图片,像我的:点进去,则会显示一个个相册,所有照片都按相册分类放好了。点进去,则会显示一个个相册,所有照片都按相册分类放好了。再点进去,自然就是你想要的”摄影素材“了。再点进去,自然就是你想要的”摄影素材“了。3.代码解析其实整个功能的实现并不复杂,大约有70多行代码而已,具体的代码见我的GitHub页面,import urllib2 as ul
from urllib2 import HTTPError
from bs4 import BeautifulSoup
首先是导入一些必要的库,主要包括urllib2, 解析网页需要用的BeautifulSoup, 操作文件的原生库OS。def getBS(url):
photo = ul.urlopen(url)
bs = BeautifulSoup(photo,from_encoding="gb18030")
然后定义一个函数,用来获取特定网页的beautifulsoup对象。def downloadPhoto(bs,author,pageIndex,path):
girl = bs.findAll('img',{"class":"z-tag data-lazyload-src"})
for img in girl:
link = img.get('data-lazyload-src')
html = ul.urlopen(link)
except HTTPError as e:
content2 = html.read()
with open(path+author+'/'+str(pageIndex)+'/'+link[-15:],'wb') as code:
code.write(content2)
这是负责下载照片的函数,输入的变量包括网页的beautifulsoup对象,摄影师,正在下载的页面数,以及保存图片的路径。函数通过解析出图片的url,打开后然后保存,注意需要考虑到图片无法打开的情况,使用python的try...except...语句来处理。def getNextID(soup):
content = soup.get_text()
loc = content.find('window.NEXTID')
end = loc+16
while True:
if content[end+num] == ';':
num = num + 1
nextID = content[end:end+num]
return nextID
这是一个获取下一个相册页面的ID的函数,通过分析网易摄影网站的源代码,我发现下一个页面的地址并没有显示的出现,而是将下一页面的ID放到了一个”window.NEXTID = XXXXX"的语句,通过查找这个字符串,找到这个ID,再加上每个网址都相同的部分,就可以获取下一个网页的地址。def getAuthor(beginPage,path):
html = ul.urlopen(beginPage)
bs = BeautifulSoup(html)
title = bs.title.get_text()
byLoc = title.find('by')
author = unicode(title[byLoc+2:])
os.makedirs(path+author+'/')
return author
这是一个获取摄影师名称的函数,通过解析最开始的页面,在title元素中by以后的部分即为作者名,然后创建一个文件夹,用来放之后的所有相册。def netEasePic(beginPage):
pageIndex = 1
page = beginPage
ppLoc = page.find('pp/')
author = getAuthor(page,path)
while True:
soup = getBS(page)
os.makedirs(path+author+'/'+str(pageIndex)+'/')
downloadPhoto(soup,author,pageIndex,path)
print 'the %s page is being downloaded!' %(pageIndex)
pageIndex = pageIndex + 1
nextID = getNextID(soup)
if nextID == '0':
print 'this is the last page, downloading completed!'
page = page[:ppLoc+3]+nextID+'.html'
然后是整个应用的主函数了,这里通过建立一个循环,并引用之前的函数,实现了相册页面的逐个爬取,并下载图片。当判断nextID为0时,则到达了最后一个页面,跳出循环,下载图片结束。4.结语第一次写爬虫,尚未用到像Scrapy这样的爬虫框架,相对比较粗糙,似乎性能也较一般,但凑合能用,后期也许还有进一步改进的地方。如果大家有任何的问题,可以在评论里指出。福利已经发送,使用者请注意身体(严肃脸)。
有图预警。我是爬吉他谱。这个对于学习吉他的同学们挺有用的。一切的一切开始于一个吉他教学的网站。嗯,吉他谱编配挺不错的,右键把谱子保存下来以后慢慢练好了。然而,这个网站禁用了右键……真是个悲伤的故事。这显然难不倒我啊,直接F12,一路找下来,找到了图片的URL。嗯,吉他谱编配挺不错的,右键把谱子保存下来以后慢慢练好了。然而,这个网站禁用了右键……真是个悲伤的故事。这显然难不倒我啊,直接F12,一路找下来,找到了图片的URL。新建标签,复制粘贴,右键大法就可以用了。新建标签,复制粘贴,右键大法就可以用了。等等,我可是程序员啊,如果让同行知道我这样保存图片会被嘲笑的好么!等等,我可是程序员啊,如果让同行知道我这样保存图片会被嘲笑的好么!听说用Python爬这些东西比较流行。可是,我并不会啊(摊手)。程序员要有不断学习新技术的能力,不能怂,就是干。在网上找了Python教程和爬虫的例子,配完环境后开始动手写。仿照别人例子的框架,不懂的就去查。直接贴成果吧。只是以那个网站全站资源索引作为根页面开始爬的,去除掉一些只有VIP才可以看的,共爬到415张照片。再除去一些封面,吉他谱有300多张,平均每首歌3张图片的话,也有100首左右的歌曲了。再除去一些封面,吉他谱有300多张,平均每首歌3张图片的话,也有100首左右的歌曲了。说实话Python确实强大,我写的爬虫核心代码不到一百行,只用了urllib2和BeautifulSoup,就完成了这样的工作。稍作修改就能去爬别的网站的吉他谱啦哈哈我真是个天才。什么,你问速度怎么样?呃,爬的过程有点慢,因为他喵的我连Python的多线程都不会……说实话Python确实强大,我写的爬虫核心代码不到一百行,只用了urllib2和BeautifulSoup,就完成了这样的工作。稍作修改就能去爬别的网站的吉他谱啦哈哈我真是个天才。什么,你问速度怎么样?呃,爬的过程有点慢,因为他喵的我连Python的多线程都不会……说多了都是泪,我还是看书去吧。噢对了,我只做收藏练习用,不转载不盈利,侵删。从高票一路看下来,各种大神,差点就放弃写了。不过,通过分享自己的经历,让你愿意力所能及,去发掘身边有意思的事情,也算有点意义。不跟大神们比,跟昨天的自己相比,有所进步,也算没有辜负一日三餐哈哈。最重要的是,开心就好~
这个话题还讨论的这么火热,你们难道不知道有个叫“八爪鱼”的爬虫软件嘛?好LOW啊
学校开网的命名规则是楼号加寝室号加ABCD,密码是身份证后六位,恰好学校有个后台差费,我又恰好会写验证码的识别,我又恰好搞到一份全校的身份证号对应寝室号的一份名单,爬出来整个大一将近1500个人的账号密码, 就是那种给营业厅打个电话解绑就可以在自己电脑上用那种
去年开始就断断续续的爬某钥匙的wifi信号。至今已经迭代了5次数据,上传了3次,有近300W条ssid信号,做成一个搜妹子ssid的搜索引擎。准备有空继续优化数据以及试着爬某锋的wifi信号,有大牛帮忙分析一下某锋的加密方法吗?定位妹子ssid的引擎网址:tk
3年前,因为我觉得一个黄色网站的广告太多,没有搜索功能,每点一个页面还有强制弹窗广告,就用爬虫把网站所有的内容都用爬虫抓取下来,并且优化了一下,还支持响应式布局和瀑布流,方便在ipad和手机上看,变成了一个只有我能访问的h站.......登录后,就可以抓取网站内容登录后,就可以抓取网站内容抓取后的文章列表.会自动删除无效的h图.等下有关[素人]瀑布流的图片就出现了,考虑到不能传播银淫秽内容,我就不上传当然,这个网站还是需要登录的,账号和密码也不告诉你...要不然我就成黄网站长,并且传播淫秽内容了.会因为不公开网址和账号密码被举报吗?
--------------更新说明----------------1.更新了策略回测的数据到3-282.有同学问怎么获得雪球以前的数据,这里说下吧,其实说起来很简单,就是遍历所有用户的Timeline就好了-----------------正文-------------------似乎还没有人说用Python选股?最近在做一个希望把Python的爬虫与机器学习的遗传算法结合的小项目,还顺便写了一个网站,给大家看看吧。1.最开始是关注到传说中的“雪球热度指数”,又叫雪球杀猪榜,据说上榜的股票一般都命途多舛。自己也观察了一段时间,发现上面的股票经常进去不是跌停就是涨停。后来自己炒股就在想是不是自己也能利用下这方面的数据?然后,我注意到雪球每一只股票旁边都有这样一栏内容——“XXXXX人关注了该股票”。 就想是不是能把所有股票的这些数据爬下来,刻量下每只股票的关注热度情况?哪只股票关注的最多?哪只股票关注的最少?于是说干就干,用python原生的ullirb+re写了个爬虫脚本,爬下来2800多只股票专注人数,大概是这么个情况:横坐标是各只股票的关注总人数,纵坐标是从SH600000——SZ000001——SZ300498,数据更新日期为03-11 9:00。临时做的图,比较简陋,就说下关注人数最多的是SH600036-招商银行,大概有71万多。具体的统计描述我就不说了,跟我接下来要讲的东西关系不大。横坐标是各只股票的关注总人数,纵坐标是从SH600000——SZ000001——SZ300498,数据更新日期为03-11 9:00。临时做的图,比较简陋,就说下关注人数最多的是SH600036-招商银行,大概有71万多。具体的统计描述我就不说了,跟我接下来要讲的东西关系不大。得到这个数据后我就想,假如我每天同一时间爬一次,是不是可以得到一个“每日新增关注人数变化情况”?如果定时在每天早上盘前爬取,是不是可以在开盘前就知道哪只股票新增加的关注人数最多?今天最火?最可能被爆炒?2.还是说干就干,将之前的爬虫代码经过多线程和异步的优化后,爬取一次雪球上所有股票大概要5-6分钟,这个精度足够了。然后就边爬边学,自己又去看了点MySQL,过年回家看了些Flask,加上之前有些前端基础,就写了可视化展示数据的网站出来——(查询个股格式SH600000,SZ000001,以此类推)(顺便说一句,网很多flask的教程真是坑啊,思路很不清晰,最根本的东西都没搞清楚,建议大家先看看Web发展的历史,搞清前后端定义,了解交互的过程,再看看Flask的文档就可以了)首页主要是搜索栏和卖萌用,搜索栏可以查询特定股票的走势和关注人数变化情况:首页主要是搜索栏和卖萌用,搜索栏可以查询特定股票的走势和关注人数变化情况:上面是股票的K线图和每日新增关注人数的变化上面是股票的K线图和每日新增关注人数的变化最下面是关注总人数的变化趋势。最下面是关注总人数的变化趋势。当然,最主要的是“每日情报”,里面有每日Top10,按新增关注人数绝对值和百分比排序的二十只最热门股票。经过这段时间自己观察,这些Top10的热门股票综合表现还都是很不错,经常早上看到top10出来,开盘后去查下实时分时图,发现大盘不崩的情况下,高开封板还是不少的。经过这段时间自己观察,这些Top10的热门股票综合表现还都是很不错,经常早上看到top10出来,开盘后去查下实时分时图,发现大盘不崩的情况下,高开封板还是不少的。3.但是因为这个观测是我今年1月4日才开始跑的,样本还是太少,而且之前的每日新增数据不可得(其实是可以的,最近在想要不要做),所以我一直没怎么进行回测,都在维护爬虫和网站。前几天看到数据量差不多了,还是用python的几个数据处理的库写了下“追涨杀跌top10策略”的回测。按照每天以开盘价等份地买入新增关注人数“绝对值”的top15)的股票,以第二天开盘价卖出,剔除掉开盘一字板的股票,从到,一共45个交易日——(未计算交易费用,未考虑冲击成本)总收益为19%,标准差8%,最大回撤15%(这个的确有点大)1.收益曲线与沪深300指数对比明显可以看到top收益率是远高于同期指数的,但波动率也远大于沪深3002.到底TopX是最优策略?上面是按绝对值的top15来回测的,这里有绝对值/相对值和TopX两个维度,到底那种组合的收益率最高?收益曲线最好?于是我从Top10-Top50依次回测了一遍数据,最后得到的结果:Top9 is the best这次是考虑了交易费用和滑点的,可以看到收益率上表现还是不错的,但波动依旧明显较大,毕竟是追涨杀跌的策略,而且换手率很高,是个相当高频的策略。这次是考虑了交易费用和滑点的,可以看到收益率上表现还是不错的,但波动依旧明显较大,毕竟是追涨杀跌的策略,而且换手率很高,是个相当高频的策略。44个交易日23.75的换手率,相当于每天换一半仓了,虽然这里的回测计算了交易费用,也将仓位设得较小已避免冲击成本的影响,但实际交易中可能会有更多的损失。-------------------更新,将回测数据更新到了3.28--------------------------------------------更新,将回测数据更新到了3.28-------------------------可能纯粹按照这个简单直接的top策略并不实用,我后面也针对性的做了些改进。可能纯粹按照这个简单直接的top策略并不实用,我后面也针对性的做了些改进。3.策略优化——选股的优化根据以往的数据来看,关注人数的暴涨一般对应两种情况:一种是默默连涨或者连扳了三四天,大家纷纷关注,关注人数暴涨;另一种是之前的K线走势没有任何预兆情况下的暴涨,可能是突然出了什么消息或者什么相关行情,板块有所变化。所以我在后面的策略又加上了筛选条件,去掉了前五日涨幅超过18%的股票。(参数这里随便写的)——止损止盈然后设置了个股5%止损点,即开仓后当日跌幅超过5%,第二人即使仍在topX之列,也清仓出局。4.加入遗传算法大家看到这可能觉得我上面两种优化方法用的参数毫无理由,的确,我开始也是随便加着试的,所以现在这里就需要用到我们的遗传算法了......具体回测效果明天再贴吧,今天先睡了...
看完这个问题就对爬虫产生了比较大的兴趣呢,然后就开始看一些资料,自己动手写了一个爬妹子图的小爬虫,因为刚开始,所以没有涉及到很多正则,主要是为了熟悉库的使用。看完这个问题就对爬虫产生了比较大的兴趣呢,然后就开始看一些资料,自己动手写了一个爬妹子图的小爬虫,因为刚开始,所以没有涉及到很多正则,主要是为了熟悉库的使用。可以一键download某个网站的妹子图片,默认参数是爬前10页,源码中参数 n 即想爬的页数。第一次写,不好的地方还请大神多多指点源码:
看起来很厉害的样子……还在学数据库的渣渣
微信公众号?Django?DigitalOcean服务器?一个采集指定tumblr用户视频和照片的爬虫=发送ID到公众号即可得到解析出来的直链。后来发现tumblr居然有API,用API,只要一秒解析一个用户全部数据
先占个坑,有时间再来回答
冒死一答!这个答案会不会被关小黑屋啊!!??去年,在知乎上发现了一个关于日本爱情动作片和各位大姐姐资料的网站(请不要问我网址,我已经忘记了,忘记了......)。正好那几日很闲,于是写了个python脚本,把网站爬下来,并置入数据库。之后做了一些简单的分析,发现(以下数据均截至去年):1. 该网站登记影片大致从2001年开始,共有20余万部,而且以每年数万部的速度增加!!2. 从业的工作室有4千余家。3. 发行量最大的工作室,共出品了八千多部影片。而另有将近一半的工作室,一共只出过一部影片。4. 从业的大姐姐有3万余名。5. 最敬业大姐姐一共拍了1千7百多部影片,如果一天一部,也需要拍将近5年!6. 作品上千的大姐姐有7位!!!.......最让人惊讶的是,由于一开始脚本写的有点问题,导致一共爬了两遍网站。对比两次的数据,发现这个网站居然还在修正数年前的影片信息!!!日本人居然能把这些信息,十几年如一日的统计起来,而且还在不断修订。这个民族,实在是有点让人害怕。
已有帐号?
无法登录?
社交帐号登录能利用SAE做到哪些很酷很有趣很有用的事情_百度知道
能利用SAE做到哪些很酷很有趣很有用的事情
提问者采纳
弄了个爬虫,根据关键字去抓天涯的八卦。马航失联的时候抓了好多阴谋论和预言的帖子。 TaskQueue 服务比 cURL 批处理好用的多
其他类似问题
为您推荐:
sae的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁能利用爬虫技术做到哪些很酷很有趣很有用的事情_百度知道
能利用爬虫技术做到哪些很酷很有趣很有用的事情
我有更好的答案
最近在研究的最常见就是模拟登录。,不过一般大型的网站都有防爬虫。延伸下去可以攻击,并发攻击
其他类似问题
为您推荐:
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁准备学习python爬虫。各位大神都会用爬虫做哪些有趣的事情?今天突然想玩玩爬虫,就提了这个问题。跟着YouTube上的一个tutor写了个简单的程序,爬了一点豆瓣的数据。主要用到request和bs4(BeautifulSoup)模块。虽然简陋,毕竟是人生中的第一只爬虫啊……以示纪念,代码写在博客里了:
抓知乎女神(关注者大于1000)的头像啊!!!这是爬下来的知乎妹子们的头像!!大家可以点击大图查看妹子昵称,前面是搜索到顺序号,中间的就是妹子的昵称,最后是我自己爬取时妹子的粉丝数!因为知乎每位用户主页的url地址不具有规律性,所以采用的是搜索算法中最简单的BFS搜索。从某一单一用户出发,向上遍历其关注的人,这里遍历其关注的人是因为其关注的人中往往是高质量用户,而关注其的人有很多死粉,从而降低搜索的时间。同时采用BloomFilter来判断是否已经爬取过该用户。BloomFilter可以保证遍历过的人不会再次被遍历,但也很小的概率错误地认为没有被爬取的用户已经被爬取过。当然在程序中还有很多细节,比如若不考虑女性则可以不访问用户主页就可以下载妹子头像,因为可以直接从其关注者页面中判断下载,这样就省去了很多解析的时间。还有就是字符串的问题,因为我是在windows系统上做的爬虫,各种编码解码的问题很多。还有网络方面的问题,需要加timeout以不至于在申请资源时卡顿造成整个程序卡顿。存在问题:1.采用BFS搜索到后期效率很差,因为每一位用户被爬取到以后就不会再被爬取,而现实中往往存在许许多多的小圈子,导致到后期总是找到以前已经找到过的用户。2.该程序在尝试爬取大约20万个网页后,还是会出现不明原因卡顿,整个程序卡死,我没有在scrapy上编写程序,不知道是什么原因造成的。3.没有采用多线程,造成爬取速度较慢,其实如果不加性别限制,其实还是挺快的,因为只需要解析关注者页面就可以获取头像图片url地址,但是若要对性别或是学校啊等其他条件加一定限制的话,就需要解析其主业,造成速度变慢。4.BloomFilter采用的是自己在网上看的代码自己改写的,没有采用在Linux下可以直接用的模块pybloomfiltermmap,我也一直在怀疑是不是自己写的bloomfilter造成程序卡死。最后再帖几张高质量妹子头像啊!!!欢迎大家一起参与讨论哈,也欢迎大家提供意见啊!!本人python小白一枚,看了大家都那么精彩的答案,就花几天时间写了一下,感觉收获还是很大,也有很多乐趣!********************************************我是华丽丽的分割线********************************************这是我第一次在知乎里认真写答案,看到那么多赞和评论心里还是蛮高兴的。然后呢?想要看到更多妹子图的请点击我的个人博客 ,博客刚开不久,请大家多多关照指导。有什么技术问题我也会和大家一起探讨,也希望技术达人能够解决一下我上面的问题。其实我相信有很多的童鞋也一定做过类似的问题并且从中得到锻炼的同时得到了许多乐趣。我选择下载妹子图纯粹只是提高一下大家的关注度,爬取高质量妹子图也算是个动力吧。。准备再对代码进行一定的修改增强其功能,但是可恶的是学校上一次把寝室的网口给封了,不知道是不是这爬虫的原因。搞得我现在都不大敢运行这程序。也是醉了醉了醉了。最后,谢谢大家给我的赞,等忙完这一段时间,准备好好写一下这个程序,已算是练手基础上的更上一层楼吧。********************************************我是华丽丽的分割线********************************************我也是开源社区的追随者,所以源码一定是会公开的,只是现在还想再多做一些功能上的优化。也是最近一段时间忙于毕业季啦,所以请大家见谅。实际上等不及的朋友看我的博客对于有一定编程基础的人应该花不了太长时间就可以写出一个自己的版本出来。另一个问题是大家对照片版权方面的疑问,这个问题其实在facejoking出来时就已经引起过很大的争议,当年还有很多类似facejoking的网站也都因为侵权问题而死去。在这里我也不是很清楚这方面法律的知识,我的观点也肯定偏向于维护自己。一是这些照片本来也就是公开的,任何人都可以查找到,我只是做了一个搜集整理。二是这些照片并不能代表个人的肖像权或者是隐私之类,比较头像这个东西哪怕你是美女也可以放一张帅哥的照片。三是这反而其实有种给女神们做广告的感觉,虽然实际意义应该不大。当然这不是我懂的东西,大家也可以讨论发表自己的观点。最后,非常感谢大家给我的赞,这也是我继续回答问题的动力之一。谢谢!********************************************我是华丽丽的分割线********************************************代码已经上传,详见
,还是感谢大家给我的赞,这让我很受鼓舞,在这里我也收获了很多虚荣心上的满足吧,继续努力,不当小白。注:自动关注功能我已经实现了,但是具体代码没有上传,因为我在用我的小号测试时自动关注到200多个人时就被封号了,为了避免给一些人带来封号的困扰,故没有上传,还望见谅。衍生问题:对知乎的大量访问下载图片并没有带来封号,而自动关注超过200多人就被知乎机器人自动封号了,请问一般网站这种技术如何实现?能否采用封IP亦或是其他一些方式来避免网站内容被爬取? 本人在这方面是纯粹的小白,希望有懂这一方面知识的人能够解答指导。
谢邀.&br&&br&2011年夏天我在google实习的时候做了一些Twitter数据相关的开发,之后我看到了一片关于利用twitter上人的心情来预测股市的论文(&a href=&///?target=http%3A//battleofthequants.net/wp-content/uploads/0-10-15_JOCS_Twitter_Mood.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&battleofthequants.net/w&/span&&span class=&invisible&&p-content/uploads/0-10-15_JOCS_Twitter_Mood.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&)。实习结束后我跟几个朋友聊了聊,我就想能不能自己做一点twitter的数据挖掘,当时只是想先写个爬虫玩玩,没想最后开发了两年多,抓取了一千多万用户的400亿条tweet。&br&&br&上&img src=&///equation?tex=%5Cbullet+& alt=&\bullet & eeimg=&1&&分析篇&br&先给大家看一些分析结果吧。大家几点睡觉呢? 我们来统计一下sleep这个词在twitter上出现的频率。&br&&img src=&/23e22bbccb_b.jpg& data-rawwidth=&702& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&702& data-original=&/23e22bbccb_r.jpg&&&br&看来很多人喜欢在睡前会说一声我睡了。那我们再看一个更有意思的 :&Thursday&这个词的每天出现的频率。&br&&img src=&/cfd80e402460_b.jpg& data-rawwidth=&674& data-rawheight=&426& class=&origin_image zh-lightbox-thumb& width=&674& data-original=&/cfd80e402460_r.jpg&&&br&这里2月2号是周四,不出意料,这一天提到周四的频率最高。而且好像离周四越近这个频率越高。可是,为什么2月1号的频率反而低了呢?是因为2月1号大家不说周四而说明天了(有的人会说2月2号也可以说是今天,但是因为在2月2号提到当天的次数太高,因此还是有很多人用周四这个词)。&br&&br&做了词频统计我们还可以做一些语义分析。我们可以利用unsupervised learning来分析一条tweet的感情色彩。我们对每一条tweet的高兴程度在0至1之间打分,并对每天做平均值,就得到了下面这张图。这里最明显的特征恐怕就是周期性了。是的,大家普遍周末比较高兴。不过这张图的开始和中间有两个点与周期不吻合。如果我告诉你这两天是1月1日和2月14日,那你肯定会想到为什么了,元旦和情人节很多人是很高兴的(不排除slient majority存在的可能)。&br&&img src=&/157aeff47a35d8731dcf4f_b.jpg& data-rawwidth=&712& data-rawheight=&412& class=&origin_image zh-lightbox-thumb& width=&712& data-original=&/157aeff47a35d8731dcf4f_r.jpg&&&br&这很有意思,但似乎没什么用啊。那我们来看下面这张图,还是2012年的情感分析,不过这里对用户进行了过滤,只保留了来自投资人和交易员的tweet (根据用户的tweet我们可以估计他/她的职业)。蓝线是这些用户的感情色彩,红线是S&P 500指数。看来行情好的时候大家都高兴啊。&br&&img src=&/d927c42c39dea513a2b4c5_b.jpg& data-rawwidth=&707& data-rawheight=&421& class=&origin_image zh-lightbox-thumb& width=&707& data-original=&/d927c42c39dea513a2b4c5_r.jpg&&&br&最后我们再来看两个统计图吧。2012年是美国大选年,这里统计了在所有和奥巴马相关的tweet里跟提到经济的tweet占的比例。红线是这个比例,黑线是S&P 500&br&&img src=&/09d2fff37b94bc786aa3dbafbfce2a81_b.jpg& data-rawwidth=&683& data-rawheight=&372& class=&origin_image zh-lightbox-thumb& width=&683& data-original=&/09d2fff37b94bc786aa3dbafbfce2a81_r.jpg&&&br&貌似和美国经济有负相关性啊!为什么呢,我们看下面的图就明白了。这个比例和美国失业率正相关,而经济和失业率又是负相关的。换句话说,美国人(尤其是共和党的)找不到工作了就开始埋怨奥巴马了。&br&&img src=&/ac9eadda21ea14b97e2c_b.jpg& data-rawwidth=&703& data-rawheight=&406& class=&origin_image zh-lightbox-thumb& width=&703& data-original=&/ac9eadda21ea14b97e2c_r.jpg&&&br&除了上面的分析外我做了很多其他的研究,比如如何判断一个用户的职业,验证六度分隔理论, 以及网络扩张速度的建模,不过这里就先不赘述了。&br&&br&最后要说的是以上的分析在统计上都是不严谨的,twitter上的信息杂音非常大,又有很强的demographic bias,有很多因素都没有考虑。我们只能希望大数定律能过弥补一些误差。写在这里只是抛砖引玉,给大家看一下爬虫可以做什么。大家感兴趣的话之后我可以补充一下这两个话题:&br&1. 怎样判断一条tweet的感情色彩&br&2. 怎样估计一个twitter用户的职业&br&&br&下&img src=&///equation?tex=%5Cbullet+& alt=&\bullet & eeimg=&1&&技术篇 &br&当时Twitter用户大概已经有上亿了,每天新的tweet也有几千万甚至上亿。能不能把这些数据全部抓取下来呢?这是可能的。Twitter是有API的,不过每个IP地址每小时可以抓取150个用户最近的tweet,以这个速度要把几亿个用户抓取一遍需要近一百年。但是,大部分Twitter用户是不活跃甚至从来不发tweet的,还有很多用户是印尼等国家(不是他们不重要,我真的看不懂他们发的tweet),如果我们把不说英语,不发tweet以及follow人数不超过5个(好像注册twitter后用户会被要求follow 5个人)的用户过滤掉,我们就剩下了大约10,000,000个用户,十年就可以搞定了。&br&&br&十年好像还是太长了。。。不过twitter的访问限制是基于IP地址的,只要我从多个IP访问twitter不久好了(我真的没有DDOS twitter的意思啊)?那么下一步就是搜集大量代理服务器来访问twitter api。为了做twitter的爬虫我专门做了一个爬虫去搜集免费代理服务器。免费的东西总是有代价的,这些服务器非常不稳定。因此我又建立了一套代理服务器管理系统,定期更新IP地址,删除不能用的服务器。最后这套系统平均每天有几百个可用的服务器,大约半个月就可以把一千万个用户抓取一遍了。&br&&br&此外我又做了一些动态优化,根据twitter用户的follower数量决定他们的抓取频率,以提高重要用户tweet的实时性。&br&&br&在一年半的时间里,这套系统一共抓取了400亿条tweet,加起来得有10TB,估计占来自美国tweet数量的一半左右。那么问题来了,怎么存贮这些tweet呢?如果要做分析的话恐怕把数据读一遍就要好几天了。很多人马上会说hadoop, cassandra, spark等等。不过作为一个穷学生我哪里有钱去做一个cluster呢?这些数据存在AWS上就得每月1000刀了。&br&&br&自己动手,丰衣足食。解决方案就是自己组装一个服务器,买了8块3T硬盘做了一个12TB的磁盘矩阵放在寝室里。&br&&img src=&/cbcfae89e18cf_b.jpg& data-rawwidth=&578& data-rawheight=&408& class=&origin_image zh-lightbox-thumb& width=&578& data-original=&/cbcfae89e18cf_r.jpg&&&br&软件使用了最为传统的MySQL,这是一个存了400亿条数据的MySQL数据库。我花了大量时间去做优化,尝试了各种各样的partition, ordering, indexing。最后可以实现一天之内对100-200亿条数据进行线型搜索或过滤,或者几秒钟内调取某一天的或某一条tweet。&br&&br&这台服务器现在留在了MIT,毕业后我把它提供给了一位教授做研究。&br&&br&PS:&br&这个项目在2013年停止了,因为social media已经不在火,而且twitter于2013年中关闭了相关的API接口。&br&这个项目的初衷是学术性质的,我不想违反twitter的服务条款,因此这些数据没有被出售或者用来谋求商业价值,而是留给了MIT做研究。&br&在这期间与几个朋友进行了很愉快的合作,未征得他们允许就不在此提名了。&br&暂时没有开源的打算,因为当时水平有限,代码写得太丑了(用java写的)。&br&&br&PS2:&br&很多人问怎么找代理服务器,请大家google一下吧。当然如果不能翻墙的话有代理服务器恐怕也不能用。&br&&br&谢绝转载。
谢邀.2011年夏天我在google实习的时候做了一些Twitter数据相关的开发,之后我看到了一片关于利用twitter上人的心情来预测股市的论文()。实习结束后我跟几个朋友聊了聊,我就想能不能自己做一点twitter的数据挖掘,当时只是想先写个爬虫…
该轮到我祭出我当年研究生期间在实验室里参与或旁观的各种有用或者有趣的课题了:&br&&br&&br&&b&1. 建立机器翻译的语料库。&br&&/b&&br&这是我研究生期间的核心课题,我先来介绍下背景。&br&&br&大家其实都用过谷歌翻译、百度翻译,虽然确实槽点很多,但不妨碍机器翻译相较过去已经达到基本可用的程度了。&br&&br&我大概说下机器翻译的原理。&br&&br&在几十年前,计算机学家们的思路是,既然是人工智能的范畴,就让计算机懂得语法规则、知道词语含义,跟小孩子上学时学习的语言课程一样去做训练,就应该可以了。&br&&br&但结果是,基于语义和语法规则的机器翻译效果糟糕得一塌糊涂。&br&&br&究其原因,还是每个词语的含义实在太多、每句话的语境不同意思也会不同,更别说不同语言中要表达清楚同一个意思的方式也完全不同。&br&&br&比如下图这个,你觉得英语国家的人能看懂吗:&br&&img src=&/fde733f6de210d24877d7_b.jpg& data-rawwidth=&426& data-rawheight=&241& class=&origin_image zh-lightbox-thumb& width=&426& data-original=&/fde733f6de210d24877d7_r.jpg&&&br&其实,当时也有另一派,叫做统计派。他们认为,就跟当年战胜国际象棋世界冠军的“深蓝(&a href=&/?target=http%3A///link%3Furl%3DIym7AIofDuZHuZ1Mu90uTl5phakkGrHMXtn_F_hJlwXY3_S-spqptGjvktXaNjN2wps9nUOAZf_fpDT7FktuMKBx2z0Pbg67meT1JqEUuEi& class=&internal&&深蓝(美国国际象棋电脑)&/a&)”一样,应当用统计的方式去做。大家知道,“深蓝”并没有领会象棋的下法,而只是熟悉几百万的棋局,懂得怎样走从概率上看起来是最正确的。&br&&br&机器翻译也是这样,完全可以输入人工翻译的大量语料,然后做出统计模型,让计算机尽可能地熟悉别人是怎么翻译的,从而耳濡目染,也能“假装”可以翻译了。&br&&br&但那个年代并没有条件收集大量语料信息。后来很多年后,谷歌出现了,随之出现的还有它的超大数据规模和超强的计算能力,于是谷歌的统计机器翻译系统也就是全球正确率最高的系统之一了。而目前你所用过的、见到的机器翻译工具,全都是用的统计方法。&br&&br&故事大概就是这样。目前学术界的机器翻译方法中,统计机器翻译基本是垄断的地位。而效果的好坏,则基本就看语料库的规模。(想了解更多,推荐阅读 &a href=&/?target=http%3A///subject//& class=&internal&&数学之美 (豆瓣)&/a& 的第2章“‘自然语言处理 — 从规则到统计”及第3章“统计语言模型”)&br&&br&所以你知道了,我的任务就是跟同学做一个爬虫和简易的分析系统,从而建立一个大规模的语料库。&br&&br&网上双语的资源还是挺多的,大都像这种:&br&&img src=&/cdc305db019aff9_b.jpg& data-rawwidth=&807& data-rawheight=&438& class=&origin_image zh-lightbox-thumb& width=&807& data-original=&/cdc305db019aff9_r.jpg&&&br&&br&我们的爬取步骤大概是:&br&1. 对当前网页进行简易判断,如果有双语嫌疑,则收录整理出来双语的正文;如果没有,弃用;&br&2. 将正文内容进行详细判断,确定是双语文本,则进行段落对齐和句子对齐,整理到语料库;如果没有,弃用;&br&3. 对当前网页的所有链接网页,重复步骤 1&br&&br&有详细介绍的我们申请的专利在这里:&a href=&/?target=http%3A///Patent/& class=&internal&&/Patent/&/a&&br&&br&其实我们当时的双语判断算法和对齐算法这些都不是难点,难点在机器配置、爬虫设计和服务器维护上。我们几乎天天流窜在机房(配置机器、接线、装机)、实验室(编写、运行代码)、网络中心(跪求带宽)、学校物业(空调他妈又坏了)这几个地方,总是没法消停。&br&&br&最痛苦的是,假期里回家远程访问下爬虫,发现 down 机了... 整个假期的宝贵时间就浪费了。&br&&br&这是我们当时在又闷又热又吵的机房的照片:&br&&img src=&/15d8a51e049e861deee9d_b.jpg& data-rawwidth=&658& data-rawheight=&470& class=&origin_image zh-lightbox-thumb& width=&658& data-original=&/15d8a51e049e861deee9d_r.jpg&&&br&&br&好在最后我们终于爬到了要求的语料规模,并且通过了国家项目的验收。现在这些包括中英俄日的庞大语料正在百度翻译中起到重要的作用,如果你用过百度翻译,不妨给我点个感谢 ^_^&br&&br&如果你对机器翻译感兴趣,也可以自己爬点双语语料,做个翻译器玩玩。这是一个极其简易的搭建教程:&a href=&/?target=http%3A//www.52ml.net/5014.html& class=&internal&&机器翻译系统的搭建&/a&。可以用它介绍的 1500 句对,也可以自己多爬一些。搭建好之后,你输入一句话,看到机器像模像样地回一句半生不熟的翻译,还是有可能会被萌到的。&br&&br&当然,要是你希望像我们一样搭建千万级甚至亿级的语料库,并且做一个翻译器,那你需要有特别强大计算能力和存储能力的服务器、非常宽的带宽,以及强大的耐心和毅力...&br&&br&&br&&b&2. 社会计算方面的统计和预测&/b&&br&&br&很多朋友已经提到了可以通过爬虫得到的数据做一些社会计算的分析。我们实验室爬取了大规模的新浪微博内容数据(可能是非商用机构中最多的),并针对这些数据做了很多有趣的尝试。&br&&br&&b&2.1 情绪地图&/b&&br&&br&&a data-hash=&caf8f6e3f896c9159678bfe3& href=&///people/caf8f6e3f896c9159678bfe3& class=&member_mention& data-editable=&true& data-title=&@Emily L& data-tip=&p$b$caf8f6e3f896c9159678bfe3&&@Emily L&/a& 提到了著名的根据情绪预测股市的论文:&a href=&/?target=http%3A//battleofthequants.net/wp-content/uploads/0-10-15_JOCS_Twitter_Mood.pdf& class=&internal&&http://battleofthequants.net/wp-content/uploads/0-10-15_JOCS_Twitter_Mood.pdf&/a& 。其实我们也仿照做了国内的,不过没有预测,只是监测目前微博上大家的情绪,也是极有趣的。&br&&br&我们把情绪类型分为“喜悦”“愤怒”“悲伤”“恐惧”“惊奇”,并且对能体现情绪的词语进行权重的标记,从而给每天每个省份都计算出一个情绪指数。&br&&br&界面大概是这样:&br&&img src=&/a87e32a978bd62d68ae30a0f201fe2e8_b.jpg& data-rawwidth=&1172& data-rawheight=&673& class=&origin_image zh-lightbox-thumb& width=&1172& data-original=&/a87e32a978bd62d68ae30a0f201fe2e8_r.jpg&&&br&可以直观看到全国各省份的情绪。不过实际上我感觉省份的区别不明显,最明显的是每天全国情绪指数的变动。&br&&br&比如春节是 2 月 18 日,那天的情绪指数是 41.27,前一天是 33.04,后一天则是 39.66。跟除夕夜都在吐槽和抱怨春晚,而大年初一则都在拜年情绪高涨,初二有所回落这样的状况预估是一致的。&br&&br&比如今年 1 月 2 日,上海踩踏事故开始登上各大媒体头条,成了热点话题,整个微博的情绪指数就骤降到 33.99 。&br&&br&再比如 5 月份情绪指数最高的是 5·20,因为今年开始流行示爱和表白;其次就是五一假期那几天。同样跟现实状况的预估是一致的。&br&&br&访问地址:&a href=&/?target=http%3A//123.126.42.100%3A5929/flexweb/index.html& class=&internal&&http://123.126.42.100:5929/flexweb/index.html&/a&&br&&br&&br&&b&2.2 饮食地图&/b&&br&&br&我们抽取出所有美食相关词语,然后基于大家提到的美食次数,做了这么一份饮食地图。你可以查看不同省份、不同性别的用户、不同的时间段对不同类别食物的关注程度。&br&&br&比如你可以看到广东整体的美食关注:&br&&img src=&/828748bacf8cc10e1cfd6b9b800447be_b.jpg& data-rawwidth=&1293& data-rawheight=&517& class=&origin_image zh-lightbox-thumb& width=&1293& data-original=&/828748bacf8cc10e1cfd6b9b800447be_r.jpg&&&br&&br&还可以把男的排除掉,只看女的:&br&&img src=&/afe6dd79379_b.jpg& data-rawwidth=&1256& data-rawheight=&517& class=&origin_image zh-lightbox-thumb& width=&1256& data-original=&/afe6dd79379_r.jpg&&&br&还可以具体到,看广东女性每天&b&早上&/b&会提到什么&b&喝的&/b&:&br&&img src=&/2df292abafcea847ea966_b.jpg& data-rawwidth=&1272& data-rawheight=&515& class=&origin_image zh-lightbox-thumb& width=&1272& data-original=&/2df292abafcea847ea966_r.jpg&&&br&&br&访问地址:&a href=&/?target=http%3A///& class=&internal&&微博用户饮食习惯分析&/a&&br&&br&&br&&b&2.3 票房预测&/b&&br&&br&这是我们实验室最大胆的尝试,希望利用微博上大家表现出来的,对某部电影的期待值和关注度,来预测其票房。&br&&br&细节就不介绍了,目前对某些电影的预测比较准,某些则差很多。因为显然,很多电影是大家不用说也会默默买票,而很多电影是大家乐于讨论但不愿出钱到电影院去看的。&br&&br&界面是这样的:&br&&img src=&/b59e88bfa44d7dd03438bfc_b.jpg& data-rawwidth=&1025& data-rawheight=&404& class=&origin_image zh-lightbox-thumb& width=&1025& data-original=&/b59e88bfa44d7dd03438bfc_r.jpg&&&br&&br&访问地址:&a href=&/?target=http%3A///& class=&internal&&电影票房预测-SCIR&/a&&br&&br&最后贴上我们实验室的官方网站:&a href=&/?target=http%3A//ir./& class=&internal&&哈尔滨工业大学社会计算与信息检索研究中心&/a&&br&&br&&br&&b&3. 写在后面&/b&&br&&br&现在国内的社交平台(微博、豆瓣、知乎)已经积累了很多信息,在上面可分析的事情太多啦。大到政府部门需要的舆情监控,小到可以看看喜欢的姑娘最近情绪如何。&br&&br&其中有些会特别有价值,比如一些重要的预测(股市预测、票房预测),真的做成了的话商业价值根本不可估量;还有些会特别有趣,比如看看 5·20 的时候大家最爱说的情话是什么,看看我跟李开复之间最近的关系链是什么。&br&&br&说到这,我突然很想做个知乎的分析。&br&&br&在内容方面,比如看看全知乎的文字里最常出现的人名到底是 &a data-hash=&f9de5a09af78bfe4d1da5& href=&///people/f9de5a09af78bfe4d1da5& class=&member_mention& data-editable=&true& data-title=&@张佳玮& data-tip=&p$b$f9de5a09af78bfe4d1da5&&@张佳玮&/a&还是 &a data-hash=&48ddfaada296462afb5d564b& href=&///people/48ddfaada296462afb5d564b& class=&member_mention& data-editable=&true& data-title=&@梁边妖& data-tip=&p$b$48ddfaada296462afb5d564b&&@梁边妖&/a&;比如看看政治或者历史话题下,以表达情绪的词作为依据,大家的正能量多还是负能量多;比如看看当大家提到哪些东西时,情绪会最激动(中医?老罗?穆斯林?)。&br&&br&在关系方面,比如看看我的朋友、传说中认识所有知乎女 V 的谁谁谁到底还有哪个女 V 没有关注;比如看看知乎有哪些社交达人,虽然没多少赞但关系链却在大 V 们中间;比如看看有没有关注了我同时还被 &a data-hash=&ec57f5cef8eba& href=&///people/ec57f5cef8eba& class=&member_mention& data-editable=&true& data-title=&@朱炫& data-tip=&p$b$ec57f5cef8eba&&@朱炫&/a& 关注的,这样我可以托他给我介绍大师兄。&br&&br&有没有人一起来嗨?让我看到你的手!&br&&img src=&/de5cacbd4beb_b.jpg& data-rawwidth=&200& data-rawheight=&200& class=&content_image& width=&200&&
该轮到我祭出我当年研究生期间在实验室里参与或旁观的各种有用或者有趣的课题了:1. 建立机器翻译的语料库。这是我研究生期间的核心课题,我先来介绍下背景。大家其实都用过谷歌翻译、百度翻译,虽然确实槽点很多,但不妨碍机器翻译相较过去已经达到基本可…
已有帐号?
无法登录?
社交帐号登录
爱技术,爱生活。

我要回帖

更多关于 一件有趣的事情作文 的文章

 

随机推荐