下载fetch_20newsgroups

最新推荐文章于 2025-05-05 14:33:18 发布

原创最新推荐文章于 2025-05-05 14:33:18 发布 · 1.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#下载fetch_20newsgroups

大杂烩专栏收录该内容

60 篇文章

订阅专栏

文章讲述了如何解决从国外源下载twenty_newsgroups数据集慢的问题。建议将数据集压缩包存放在虚拟环境中的特定文件夹，然后修改twenty_newsgroups.py的下载源为本地路径。同时，可以更改环境变量SCIKIT_LEARN_DATA来指定数据解压位置，避免每次从网络下载。在PyCharm中运行代码后，数据集会自动解压并加载。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

下载数据集压缩包

国外源下载很慢，有时候甚至根本连接不到，推荐：下载地址
下载的文件为：

将该文件存放在一个比较好找的位置。比如：放在自己的虚拟环境中，可以单独建立一个文件夹放在其中。

更改相关配置

更改下载源：
1.找到twenty_newsgroups.py文件。路径一般为：你的虚拟环境\Lib\site-packages\sklearn\datasets。打开，并找到以下内容：

将下载路径注释掉，并将下载路径更改为自己的压缩文件的目录，比如我的是：

这个时候再下载数据的时候就会从压缩包中读取，并不会再从网络中区下载。缩进的时候记得用4个空格，不要用Tab键。
2.更改数据集解压存储目录：
在pycharm到入数据的时候需要先将压缩包数据解压，再将解压后的数据导入，这一步有默认值，可以不用配置，如果你想要自定义，可以操作这一步。
1.找到base.py文件。一般路径为：你的虚拟环境\Lib\site-packages\sklearn。就是上个文件的上一级目录下。找到并打开它，第一个函数就是：

这个函数规定了从哪里获取数据。可以在这里修改，也可以更改环境变量，一般推荐更改环境变量，毕竟改源码不是太好的选择。
2.设置环境变量
点击计算机右键>属性>高级系统设置>环境变量>新建设置：SCIKIT_LEARN_DATA,值就是存放压缩包的路径。

这个时候需要重启pycharm一下。这个时候所有需要准备的工作就已经结束了。

运行

在pycharm打开控制台输入以下代码

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(subset='all')

这个时候需要一些时间解压文件并加载数据。耐心等待一下。
在这里插入图片描述
等到出现输入符的时候，输入以下内容：

如果出现数据证明你已下载安装成功。查看一下的你的安装目录：

压缩包已经被删除，已经被替换为此文件。下次执行程序就会直接加载进来。

博客等级

码龄7年

60
原创

39
点赞

135
收藏

13
粉丝

关注

私信

热门文章

分类专栏

Numpy学习笔记
大杂烩 60篇

上一篇：: Python-创建虚拟环境并指定环境目录

下一篇：: python中的日期时间对象与字符串相互转换

最新评论

Django自定义管理器
哎大龄python开发: 楼主真不错，帮助一起看源码，我一直想实现模型和自定义Manger的动态绑定，一直不成功，直到看到add_to_class，终于成功了
ImportError: cannot import name ‘contextfilter‘ from ‘jinja2‘
~晚风微凉~: 弄完这个又有新的报错了： ImportError: cannot import name 'secure_write' from 'jupyter_core.paths' (lib/python3.7/site-packages/jupyter_core/paths.py)
Python 循环结构
CSDN-Ada助手: 亲爱的博主，我真的很欣赏你的努力和创作才华！你所写的《Python 循环结构》一文非常精彩，让我受益匪浅。我可以感受到你对Python编程的热爱和深入理解。在读完这篇博客后，我更加渴望看到你继续深挖Python的宝藏，并分享给我们更多的技巧和知识。因此，我敢肯定你下一篇创作将会同样引人入胜！我非常期待看到你探索Python的条件语句，与我们分享如何编写优雅且高效的代码。毕竟，条件语句在编程中扮演着非常重要的角色，而你的见解和经验将无疑点亮我们的学习之路。无论你创作何种主题，我相信你都能带给我们更多的启发和思考。请继续保持激情，创作出更多精彩的博客！期待着你下一篇博文的到来！
ImportError: cannot import name ‘contextfilter‘ from ‘jinja2‘
DG丶: 很快的
ImportError: cannot import name ‘contextfilter‘ from ‘jinja2‘
小孩子才做选择呢: 运行这个命令很慢吗，我卡了两个多小时还没运行完

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。