Python分析抖音数据,让视频爆起来

通过对抖音短视频的数据分析,发现平台在2019年10月20日至29日期间因活动推广用户量、播放量大幅增长。3500左右的作者贡献了80%的播放量,符合二八定律。热门歌曲与高播放量作品关联性强,大部分播放量集中在7-12秒的视频中。0点至5点及19点至0点是作品发布和播放的高峰期。建议作者选择热门背景音乐,发布7-12秒的视频,并在夜间活跃时段发布以提高曝光率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,,版权归原作者所有,如有问题请及时联系我们以作处理

作者:松鼠爱吃饼干  

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

随着短视频的APP兴起,在短视频社交市场,抖音短视频异常火爆表现突出,希望通过本次的分析,给到用户发布视频的几点建议。

数据分析

1 平台

日播放量,日用户量,日作者量,日作品量

 

日播放量,日用户量,日作者量,日作品量随时间的变化趋势基本一致:平稳增长;在2019-10-20到2019-10-29时间段内,各指标均先出现巨大增长,后趋近平稳,再回落到正常水平值。猜测该时间点平台有进行活动推广,以至于吸引了大量用户。

作者:作品数量,作品获赞率

 

作者作品数量与播放率成正比关系

作者作品数量和点赞率并没有太大的关系

作者:播放量贡献

 

3500,18%左右作者贡献了平台80%的播放量,服从二八法则。

2 作品

作品来源

 

可以看出大量作品来源与渠道0,占比98.48%。

选用的歌曲 top10

 

数量排名前十的背景音乐ID分别是:22、220、25、68、110、33、468、57、43、238(没有多余资料可查看对应歌曲名称)

 

上面所说的2019-10-21到2019-10-29时间段内,各歌曲作品的播放量都有增高,其中ID为 22,220, 68,25 的歌曲有暴涨趋势。

歌曲与点赞率,完播率

 

不同背景音乐作品的点赞率和完播率差距不大,即产生播放量后的点赞和完整播放结果差别不大

 

不同背景音乐作品的播放量差异巨大,个别歌曲播放量表现突出

 

结合上上图,平台大部分播放量的歌曲组成是小部分热门歌曲。

 

不同歌曲作品的点赞率与完播率在时间上的差异不大

不同作品时长与产品量和播放量的关系

 

不同时长的产品量和播放量正常正比关系

时长为7-12s的产品量(播放量)占大部分

23s以上播放量基本为0

作品时长与完播率,点赞率

 

完播率在2s-43s内总体稳定在0.4左右,在43s之后浮动较大;

点赞率在2s-43s内基本维持在0.6上下摇摆之内,在43s之后浮动较大。

作品发布时间(24H)

 

不同时段产品量与播放量基本成正比关系

10-17时间段,平台的作品量和播放量较低(工作/学习时间)

19-0-5 整个时间段的播放量都是比较高的。

作品发布时间与完播率,点赞率

 

0-5时间段内,作品的完播率和点赞率较高

总结

分析结果总结

平台:

  • 增加活动推广:吸引新用户,保持老用户
  • 增加作者激励项目:激励作者发布作品
  • 扩展渠道:吸引新用户涌入

作者:

  • 渠道:0
  • 背景音乐:热门歌曲
  • 作品时长:7-12s, 最好不超23s
  • 作品发布时间:19-0-5点,其中0-5点效果更佳
  • 积极参加平台活动

 

### 使用Python编写爬虫程序抓取视频数据 要实现从平台抓取热门内容或视频数据,可以按照以下方法构建一个高效的爬虫程序。以下是详细的解决方案: #### 1. 数据源的选择与API接口 提供了官方开放平台,开发者可以通过申请权限获取部分公开数据的访问权[^2]。如果目标是非公开数据,则需依赖于逆向工程解析其前端请求逻辑。通常情况下,网页端会通过AJAX调用后端服务加载动态内容。 #### 2. 技术栈准备 为了完成这一任务,需要引入几个核心库: - `requests` 或 `httpx`: 处理HTTP请求。 - `BeautifulSoup` (来自 `bs4`) : 解析HTML文档结构。 - `pandas`: 存储并初步清洗采集到的信息。 - `selenium` (可选): 如果页面涉及大量JavaScript渲染,可能需要用到自动化浏览器工具模拟真实用户行为[^3]。 #### 3. 实现代码示例 下面是一个简单的脚本框架用于演示基本功能: ```python import requests from bs4 import BeautifulSoup import pandas as pd def fetch_douyin_data(url, headers=None): response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') items = [] for item in soup.find_all('div', class_='video-item'): # 假设这是包含单个视频元信息的一个标签名及其类属性值 title = item.find('span', attrs={'class': 'title'}).text.strip() likes_count = int(item['data-like-count']) # JSON-LD或其他形式嵌入的数据字段 video_info = { "Title": title, "Likes Count": likes_count } items.append(video_info) df = pd.DataFrame(items) return df if __name__ == "__main__": url_to_scrape = "https://www.douyin.com/discover/hot-videos" custom_headers = {"User-Agent":"Mozilla/5.0"} result_df = fetch_douyin_data(url=url_to_scrape, headers=custom_headers) print(result_df.head()) ``` 注意:以上仅为伪代码示意,具体实现细节取决于实际网站布局以及反爬机制强度等因素的影响[^1]^。 #### 4. 高效存储与后续处理 收集来的原始数据建议保存至数据库或者CSV文件以便长期维护和二次开发。同时也可以考虑对接机器学习算法做进一步的情感分析、趋势预测等工作流操作^。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值