1. 了解微信、微博、小视频每天产生的数据量与数据类型。微信:数据量:月活量高达10亿,日活量有3千万之多,十分的稳定,是我国国民级别的app,可以说是现在社会已经离不开它们了。数据类型:主要是聊天记录。 微博:数据量: 月活量也在3亿左右。日活量有1千万之多,在有骇人听闻,或者振奋人心的新闻出现时就在短短几个小时内超过微信的数
转载
2023-12-04 20:00:46
279阅读
记得以前一位同事说过,好的技术人员都是比较懒的,因为懒,他会想尽办法找到解决问题的最有效的方法。
如果不使用Excel函数,完全可以通过人肉的方式从微博中提取内容,但是,如果数据量很大、需要耗用很多时间怎么办?
为了分析在微博中总共分析了多少条使用“形色”软件识别出的花花草草,采用了以下步骤。
1. 使用微博的搜索功能,搜索出所有包含“形色”关键
转载
2024-01-19 17:15:44
59阅读
大数据开发、只能硬件和图形图像需求增长最快,需求人员最多。对微博数据分析平台搭建,以及微博数据分析平台数据存储模块设计与实现。 最好有一定软件开发方面的知识功底,比如了解网站开发、OA开发、Linux操作系统引言、云端实验室环境基于开源的ambari大数据平台,部署了7个节点: 一、 项目背景企业可能对用户在微博上的评价内容有监测需求,如活动效果、用户对产品的评价,用户关注于产品的价格还
转载
2023-12-28 06:32:47
63阅读
用户信息表(t_user_info)字段名称字节数类型描述User_id4uint32用户编号(主键)User_name20Char[20]名称Msg_count4uint32发布消息数量,可以作为t_msg_info水平切分新表的auto_incrementFans_count4uint32粉丝数量Follow_count4Uint32关注对象数量备注:以User_id取模分表 用户之
转载
2023-07-09 19:02:45
131阅读
接下来首先用一个图梳理下我们用到的方法和技术,然后再逐一介绍。 基础及关联算法 这一层算法的主要作用是为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析为推荐业务提供指导。 这一部分中常用的算法和技术如下: 分词技术与核心词提取 是微博内容推荐的基础,用于将微博内容转化为结构化向量,包括词语切分、词语信息标注、内容核心词/实体词提取、语义依存分析等。分类与
转载
2024-01-14 14:27:11
83阅读
爬取主页进入到要爬取人的主页:在搜索框输入,然后查找 这个粉丝数量就是我们要获取的目标 F12进入开发者模式,点击小箭头,点击粉丝数 可以看到对应的位置 右键点击span标签,复制selector即可获取到粉丝数text = browser.find_element_by_css_selector('#app > div:nth-child(1) > div:nth-child(1)
微博手机客户端。大家在新浪微博app你能随时随地的了解一些有趣的资讯,而且这年头手机微博上的那些事无非就这么几个,而微博相对某些人来说,首先是微博,其实是微博,最后还是微博。新浪微博是全中国最主流,最具人气,当前最热门的微博产品。手指刷一刷迅速获取最热最火最快最酷最新的资讯。功能特点:新浪微博基于Android平台的新浪微博手机客户端,集阅读、发布、评论、转发、私信、关注等主要功能为一体,本地相机
转载
2023-05-18 13:36:58
114阅读
随着互联网的发展,人们在新浪微博、Twitter、Facebook、等社交媒体的网络社交活动也越来越活跃。就新浪微博而言,2023年春晚期间活跃用户3亿左右。由于我国网民群体庞大、网络社交活动不受地域限制、话题自由开放等特点,使得微博签到数据能够很好地反映社会热点问题、社会现象及社会舆论。 通过微博签到数据可以表征城市的网络活力。结合网络活力、人口密度、城市人均GDP等数据,进行聚类分析可以得出不
转载
2023-11-11 22:22:59
113阅读
我的目录微博三个接口的获取1.用户搜索接口(8)用户搜索接口格式2.用户信息、用户微博接口(3)用户信息接口格式(4)用户微博接口格式 不知不觉2021年了,先祝大家元旦快乐!这段时间有些忙,在学习tk,特地买了一本书来学(《Python GUI设计 tkinter菜鸟编程》),根据书中所学和网上资料,开发微博图片采集工具GUI版本。 本篇文章会详细讲解weibo三个接口的获取。 微博三个接
转载
2023-11-09 22:39:18
164阅读
随着大数据和社交网络的火爆发展,社交网络上产生的数据也越来越有价值,特别是微博微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值将非常巨大, 要采集的数据为指定城市的所有微博用户的相关信息。比如微博名称,微博地址,微博数量,粉丝数量,名片等等,进入正题,看看具体一步一步怎么操作来实现的。打开八爪鱼采集器,新建一个任务之后,如下图选择分组:新浪微博,这里其实随便什么分
转载
2023-10-28 23:24:10
93阅读
1.新浪微博基于MySQL的分布式数据库实践http://tech.it168.com/a2011/0415/1178/000001178546.shtml2.新浪微博,腾讯微博mysql数据库主表猜想*3.百度学术:基于Hadoop的微博舆情分析预警系统研究http://xueshu.baidu.com/s?wd=+基于Hadoop的微博舆情分析预警系统研究+&rsv_bp=0&
转载
2024-01-24 12:59:05
50阅读
+----------------------------------+ Xweibo 软件系统简介 +----------------------------------+ Xweibo是一款可以搭建微博系统的开源解决方案。Xweibo基于新浪开放API,通过绑定新浪微博帐号可实现与新浪微博的无缝连接。具备目前微博流行的各种丰富的功能,远期会与新浪微博完全同步,并提供持续升级服务支持
转载
2023-11-22 23:47:55
59阅读
为A用户建立 收件箱 与 发件箱 概念
A关注50000人,A被5000000人关注 发布微博:
我觉得可以采用拉的形式,也就是说:
A用户发布一条微博,保存一条记录到自己的发件箱(缓存或者数据库),
关注A(5000000 - 不在线)的人会获得这条微博。
如果采用推的形式,就需要往5000000人的收件箱里推,不但要考虑分布式计算,还要考虑那些人收件箱
原创
2010-12-03 17:15:36
669阅读
第一次写博客,mark一下。以前没写过技术分享博客也是因为没什么好分享的,现在觉得有些经验和思考过程还是值得记录下来的;一则便于以后查阅,二则如果能给别人带来些许帮助,则无比幸甚。这次是因为工作需要做一些市场声量的分析,需要爬取一些论坛内容,微博内容做数据分析,懒得找其他盈利性的网站购买,就自己研究了一下Python 爬虫,写出来一个小小的爬虫爬虫主要分两大部分:1,下载网页功能(就是把网页内容以
转载
2023-08-20 21:40:25
0阅读
基于微博签到页的微博爬虫项目链接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboLocationCrawler1 实现功能这个项目是用来爬取微博签到页的微博数据(每三个小时爬一次),并写进sqlite数据库。关于微博签到页打个比方,就是类似这个https://weibo.com/p/100101B2094757D069A7
新浪微博的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*****。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!我们使用到的是第三方作者开发的爬虫库weiboSpider(有工具当然要用工具啦)。这里默认大家已经装好了Python,如果没有的话可以看我们之前的文章:Python详细安装指南。1.
转载
2023-10-12 09:36:56
305阅读
1.新浪微博基于MySQL的分布式数据库实践http://tech.it168.com/a2011/0415/1178/000001178546.shtml2.新浪微博,腾讯微博mysql数据库主表猜想*3.百度学术:基于Hadoop的微博舆情分析预警系统研究http://xueshu.baidu.com/s?wd=+基于Hadoop的微博舆情分析预警系统研究+&rsv_bp=0&
转载
2015-03-02 20:44:00
224阅读
2评论
作者:周萝卜今天再分享一份超级棒的数据,就是2020年全年的微博热点数据,说实话,这里面如果认真分析的话,还是可以找到很多有意思,有价值的信息的。但是由于我已经写过一篇2019年微博热点数据分析的文章了,这里就不再重复了,有兴趣的同学可以点击这里查看2019微博热点分析这里分享数据出来,希望更多的朋友可以从数据当中挖掘出更多的有价值的信息,大家一起学习进步!下面是一些简单的数据汇总,欢迎大家一起讨
转载
2023-08-14 15:21:17
196阅读
[实验数据] 本实验所用数据为新浪微博数据,包含了从2013年1日到14日期间的12,102,744条微博。数据集已经存放在HDFS上,路径为“/data/13/3/post/post.csv”,各字段以制表符分隔。数据集还存放在了Hive上,表名为“bigdata_cases.post”。各字段的定义为:字段 定义
PostId 微博标识符
UserId 用户标识符
UtcTime 微博发布
转载
2024-01-20 02:52:35
95阅读
首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。本人本着客观的态度分析,如果不正确的地方欢迎批评指正。文章目录1 数据说明 2 粉丝
转载
2023-10-11 14:55:20
54阅读