找回密码
 立即注册

你都用 Python 来做什么?

0
回复
145
查看
[复制链接]

4

主题

33

回帖

46

积分

新手上路

Rank: 1

积分
46
来源: 2023-12-21 09:43:52 显示全部楼层 |阅读模式
发现很多人都在学习 Python ,但是没有明确的说明可以做什么,主流的功能是什么?想知道目前利用 Python 开发的都在干什么?
回复

使用道具 举报

6

主题

26

回帖

24

积分

新手上路

Rank: 1

积分
24
2023-12-21 09:44:17 显示全部楼层
Python能做的事情非常多,小到爬虫、自动化脚本,大到web开发、机器学习,python都可以搞定。

先说说我是怎么玩python,再聊Python有哪些应用场景。
1. 数据可视化

好看的数据可视化的图片是怎么样做的?
哪些 Python 库让你相见恨晚?
Python中除了matplotlib外还有哪些数据可视化的库?
使用pyecharts绘制词云图-淘宝商品评论展示
数据可视化,Seaborn画图原来这么好看
seaborn常用的10种数据分析图表
Superset,基于web的开源BI工具,github三万star
教你用pyecharts制作交互式桑基图,赶快学起来吧!
干货 | Bokeh交互式数据可视化快速入门
2. 空间地理信息

聊一聊Python中优秀的6个地图可视化库
24页PPT | 如何利用python进行地图可视化?
geopandas,用python分析地理空间数据原来这么简单!
干货 | 使用pyecharts绘制交互式动态地图
3. 爬虫

小白如何入门 Python 爬虫?
selenium入门详细指南(附淘宝抢购案例)
哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
使用requests爬取python岗位招聘数据
电影《毒液》豆瓣短评 爬虫&分词&词云展示
有哪些足不出户,能用十天左右时间掌握的新技能?
干货!python爬虫100个入门项目
干货!python爬虫100个入门项目 续
4. 自动化办公

用python进行办公自动化都需要学习什么知识呢?
python自动化办公太难?学这些就够用了
python读写excel等数据文件方法汇总
xlwings,让excel飞起来!
python操作CSV和excel,如何来做?
请教下 Python 高手,如何用 Python 自动化操作 Excel?
5. 数据科学

使用python进行数据分析工作,要掌握哪些数学知识?
Vaex :突破pandas,快速分析100G大数据量
jieba分词-强大的Python 中文分词库
numba,让python速度提升百倍
最全Python数据科学小抄,赶紧收藏吧!
看图涨知识,一百天搞定机器学习
Python数据分析案例 | 台风最喜欢在我国哪个省市登陆
pandas_profiling :教你一行代码生成数据分析报告
干货!小白入门Python数据科学全教程
深入了解机器学习 (Descending into ML):线性回归
机器学习5大数学知识,你必须要掌握!
Python机器学习·微教程
Keras中的多变量时间序列预测-LSTMs
一文读懂随机森林的解释和实现
机器学习中的数据缩放-Python Scikit-Learn实现方法
如何使用Python scikit-learn机器学习库做分类和回归预测
机器学习中的泛化能力
6. 数据库

如何使用python连接数据库?
Python sqlite3数据库模块使用攻略
如何通过Python将CSV文件导入MySQL数据库?
python与mysql怎么完成大量的数据交互?
7. 开发工具

有哪些值得推荐的 Python 开发工具?
这6款Python IDE&代码编辑器,你都用过吗?
初学 Python 者自学 Anaconda 的正确姿势是什么?
Jupyter Notebook & Lab快捷键大全
15个好用到爆炸的Jupyter Lab插件
泣血整理,Jupyter Notebook最常用的五大配置技巧
实用 | PyCharm常用快捷键整理
JupyterLab,极其强大的下一代notebook!
8. 其他

你用 Python 写过哪些有趣的脚本?
使用Python验证常见的50个正则表达式
利用Python将PDF文档转为MP3音频
pdfkit | 利用python实现html文件转pdf
干货 | 解放双手,用Python实现自动发送邮件
教你使用Python下载b站等各大主流网站音视频
教你使用Python制作酷炫二维码
Github上好玩的50个python项目汇总 (一)
Github上好玩的50个python项目汇总 (二)
应用场景

1、爬虫
python由于其强大的库生态,非常适合写爬虫,自带了urllib
beautifulsoup4等爬虫工具,可以请求并解析网页,利用他们便可以写出复杂的爬虫脚本;另外,python第三方库中还有requests、scrapy、PySpider之类的明星工具,集成了非常强大的爬虫系统;
刚开始入门爬虫,你甚至不需要去学习python的类、多线程、模块之类的略难内容。找一个面向初学者的教材或者网络教程,花个十几天功夫,就能对python基础有个三四分的认识了,这时候你可以玩玩爬虫喽!

先说下python入门,实在是太容易了,因为语法简单,思维与人类的思维很相近。入门的时候,别整天想着看很多资料,网上各种找,最后都留在了收藏夹吃灰。其实对于刚接触编程的小白而言,最容易卡在安装Python环境和实操代码这一步。
其他语言也有爬虫库,但是python优势在于简洁,几行代码就可以实现一个爬虫:
# 导入urlopen函数
from urllib.request import urlopen
# 导入BeautifulSoup
from bs4 import BeautifulSoup as bf
# 请求获取HTML
html = urlopen("http://www.baidu.com/")
# 用BeautifulSoup解析html
obj = bf(html.read(),'html.parser')
# 从标签head、title里提取标题
title = obj.head.title
# 打印标题
print(title)2、web开发
python并没有像java、go那么适合做web开发,但python的实力仍不容小觑,看看招聘网站上python开发的岗位也不少。


python中适合web开发的框架主要有Django、FlaskTornado等,下面分别看看它们的优势。
企业级开发框架——Django
它是当前Python世界里最负盛名且最成熟的网络框架。最初用来制作在线新闻的Web站点,目前已发展为应用最广泛的Python网络框架。Django的各模块之间结合得比较紧密,所以在功能强大的同时又是一个相对封闭的系统,但是其健全的在线文档及开发社区,使开发者在遇到问题时能找到解决方法。
支持快速建站的框架——Flask
Flask是Python Web框架族里比较年轻的一个,于2010年出现,这使得它吸收了其他框架的优点,并且把自己的主要领域定义在了微小项目上。同时,它是可扩展的,Flask让开发者自己选择用什么数据库插件存储他们的数据。很多功能简单但性能卓越的网站就是基于Flask框架而搭建的,比如http://httpbin.org/就是一个功能简单但性能强大的HTTP测试项目。Flask是一个面向简单需求和小型应用的微框架。
高并发处理框架——Tornado
Tornado是使用Python编写的一个强大的可扩展的Web服务器。它在处理高网络流量时表现得足够强健,却在创建和编写时有着足够的轻量级,并能够被用在大量的应用和工具中。Tornado作为FriendFeed网站的基础框架,于2009年9月10日发布,目前已经获得了很多社区的支持,并且在一系列不同的场合中得到应用。除FriendFeed和Facebook外,还有很多公司在生产上转向Tornado,包括Quora、Turntable.fm、http://Bit.ly、Hipmunk及MyYearbook等。
3、机器学习&深度学习
说到AI,这应该是python的看家本领了,其数据科学生态可谓波澜壮阔、群星云集,不仅有tensorflow、pytorch、caffe、keras等主流框架,还有Gensim、NLTK、OpenCV、Mahotas等专注于nlp、cv细分领域的经典工具。


世界上最大的数据科学比赛网站kaggle支持的主要语言就是python,无非是因为python简洁的语法,以及丰富的支持库。
简单介绍一下机器学习和深度学习的区别。
机器学习:
机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。器学习直接来源于早期的人工智能领域,传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。
深度学习:
深度学习是一种实现机器学习的技术。
深度学习本来并不是一种独立的学习方法,其本身也会用到有监督和无监督的学习方法来训练深度神经网络。但由于近几年该领域发展迅猛,一些特有的学习手段相继被提出(如残差网络),因此越来越多的人将其单独看作一种学习的方法。
几种常用的框架:
TensorFlow (Google)
TensorFlow最初是由Google Brain Team的研究人员和工程师开发的。其目的是面向深度神经网络和机器智能研究。自2015年底以来,TensorFlow的库已正式在GitHub上开源。TensorFlow对于快速执行基于图形的计算非常有用。灵活的TensorFlow API可以通过其GPU支持的架构在多个设备之间部署模型。
TensorFlow已被广泛应用于学术研究和工业应用。一些值得注意的当前用途包括Deep Speech,RankBrain,SmartReply和On-Device Computer Vision。
Keras
深度学习框架在两个抽象级别上运行:低级别--数学运算和神经网络基本实体的实现(TensorFlow, Theano, PyTorch etc.)和高级别--使用低级基本实体来实现神经网络抽象,如模型和图层(Keras) 。
Theano (蒙特利尔大学)
Theano是另一个用于快速数值计算的Python库,可以在CPU或GPU上运行。它是蒙特利尔大学蒙特利尔学习算法小组开发的一个开源项目。它的一些最突出的特性包括GPU的透明使用,与NumPy紧密结合,高效的符号区分,速度/稳定性优化以及大量的单元测试。
PyTorch (Facebook)
Pytorch在学术研究者中很受欢迎,也是相对比较新的深度学习框架。Facebook人工智能研究组开发了pyTorch来应对一些在它前任数据库Torch使用中遇到的问题。
4、自动化测试
自动化测试(尤其是单元测试的自动化),是 极限编程 和 敏捷软件开发的一个关键特征,这也被称为测试驱动开发 (TDD)。 单元测试的用例可以在代码编写完成之前就设计好,并作为功能的一种定义形式存在。随着新的代码不断完成编写,单元测试随之进行,缺陷被不断找出,因而代码也不断得到改进。由于开发人员能够及时发现缺陷然后立即作出改变,修复的代价大大减小,这种不断发展的开发方式被认为比瀑布模型这类开发结束再测试的方式更为可靠。
python自动化测试也是不错的选择,目前主要用selenium、pyppeteer、pytest。
小结

自动发邮件,自动化操作excel,定制酷炫二维码,下载视频、MP3,爬虫,HTML\网页自动生成PDF,制作可视化图表,地理空间分析,数据分析,连接数据库,机器学习...
python能做太多有趣的事了,想看看我是怎么玩的可以关注我噢!我主页有很多专业的python干货内容,大家自取吧。

最后,努力学习,学以致用。生活中可以用到Python的位置远比你想象的多得多,等到你学会Python之后你会发现生活中有很多的问题都是可以通过Python来帮助你快速解决的。
加油吧,少年!
<hr/>一直在创作python&数据内容,从未停止哈哈,觉得不错点个关注<a href="http://www.zhihu.com/people/pydatalysis" class="internal">朱卫军~
还有之前梳理的python选书小诀窍,推荐大家也看看:
有什么好的自学 Python 的书籍推荐?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

235

主题

61

回帖

798

积分

高级会员

Rank: 4

积分
798
2023-12-21 09:44:46 显示全部楼层
别只收藏不点赞啊。。so sad~~如果本项目对你有帮助,请star支持开发者,感谢~
如果你是云村的忠实居民,你可以用Python优雅的下载你在网易云音乐找不到的音乐,mxget就是这样产生的。


举个栗子,有一天你想听周董的歌,奈何我大云村没有版权,怎么办,装个QQ音乐吧。然后又有一天云村跟鹅厂都没有xxx音乐,咋办,再装个xxx客户端呗。No,现在你不需要了,通过 mxget 你可以轻松全网搜索,下载并试听你喜欢的音乐,覆盖国内所有音乐平台(网易/QQ/咪咕/酷狗/酷我/虾米/千千)。
比如我想听五月天的《如果我们不曾相遇》,酷我上有,那先搜索一下吧~
$ mxget search --from kw -k 如果我们不曾相遇

看到每条结果后面的那串数字了吗,这是歌曲对应的唯一ID,有了它你就能使用 mxget 下载相应的音乐了。
$ mxget song --from kw --id 7151614

mxget能自动的为你更新音乐标签以及内嵌歌词,你只要追加 --tag 指令。
$ mxget song --from kw --id 7151614 --tag

看看效果~


想要 .lrc 格式的歌词文件?没问题,只要使用 --lyric 指令。
$ mxget song --from kw --id 7151614 --lyric



这就够了吗?当然不,使用 mxget 你甚至一步就能将专辑/歌单/歌手热门歌曲下载到本地。
以五月天的专辑《自传》为例,你通过酷我网页版找到它的音乐ID为 553963 。


然后使用mxget:
$ mxget album --from kw --id 553963

一气呵成有木有~~再看看效果吧~


不仅如此,mxget还支持库调用,这意味着你可以利用mxget编写一些好玩的脚本,比如你想要获取网易云音乐某个歌单变灰的歌曲列表,以便通过其它平台下载它们再上传到音乐云盘上去。
import asyncio
import sys
import typing

from mxget import exceptions
from mxget.provider import netease

_SONG_REQUEST_LIMIT = 1000


async def get_playlist(playlist_id: typing.Union[int, str]) -> typing.List[dict]:
    async with netease.NetEase() as client:
        resp = await client.get_playlist_raw(playlist_id)
        try:
            total = resp['playlist']['trackCount']
            tracks = resp['playlist']['tracks']
            track_ids = resp['playlist']['trackIds']
        except KeyError:
            raise exceptions.DataError('get playlist: no data')

        if total == 0:
            raise exceptions.DataError('get playlist: no data')

        if total > _SONG_REQUEST_LIMIT:
            async def patch_tracks(*args: typing.Union[int, str]):
                return await client.get_song_raw(*args)

            tasks = []
            for i in range(_SONG_REQUEST_LIMIT, total, _SONG_REQUEST_LIMIT):
                j = i + _SONG_REQUEST_LIMIT
                if j > total:
                    j = total
                song_ids = [track_ids[k]['id'] for k in range(i, j)]
                tasks.append(asyncio.ensure_future(patch_tracks(*song_ids)))

            await asyncio.gather(*tasks)
            for task in tasks:
                if not task.exception():
                    tracks.extend(task.result().get('songs', []))

        song_ids = [s['id'] for s in tracks]
        resp = await client.get_song_url_raw(*song_ids)
        data = resp.get('data')
        if data is None or not data:
            raise exceptions.DataError('get song url: no data')

        code_map = dict()
        for i in data:
            code_map[i['id']] = i['code']

        for s in tracks:
            s['code'] = code_map.get(s['id'])

        return tracks


def filter_grey_songs_form_playlist(playlist_id: typing.Union[int, str]):
    """获取网易云音乐歌单变灰歌曲列表,使用前请临时将歌单设为公开"""
    loop = asyncio.get_event_loop()
    try:
        resp = loop.run_until_complete(get_playlist(playlist_id))
    except exceptions.ClientError as e:
        print(e)
        sys.exit(1)

    grey_songs = [song for song in resp if song.get('code') == 404]
    for i, v in enumerate(grey_songs):
        artist = '/'.join([a['name'].strip() for a in v['ar']])
        print('[{:02d}] {} - {} - {} - {}'.format(i + 1, v['name'], artist, v['al']['name'], v['id']))


def main():
    if len(sys.argv) < 2:
        playlist_id = input('Playlist ID: ')
    else:
        playlist_id = sys.argv[-1]

    filter_grey_songs_form_playlist(playlist_id)


if __name__ == '__main__':
    main()最后,mxget提供了简易的RESTful API。它能干什么?mxget暂不支持音乐试听功能,但你如果是一枚前端大佬,可以通过在本地部署mxget的API服务,自己搞一个。同时欢迎你给项目提交PR,合并你的成果到主repo。


说了这么多,你应该如何获得这个工具呢?很简单,你只要:
$ pip3 install -U mxget想要了解更多?Show you the code:winterssy/pymxget
另有 Golang 版实现哦,传送门:https://github.com/winterssy/mxget

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

6

主题

26

回帖

34

积分

新手上路

Rank: 1

积分
34
2023-12-21 09:45:43 显示全部楼层
多图,请确保在Wi-Fi环境下点开!
主要是爬取数据,并把爬回来的数据进行分析和挖掘,做过的小项目主要有:

  • 扒了扒蔡徐坤100万+微博转发中,假流量占了多少的比例
随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像。


发现102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。6916条数据中,除去重复转发的粉丝,真实粉丝数量只剩下3926个。也就是说,真实转发的粉丝数量,占总转发量的3.84%。




与之相比,吴青峰10006条转发数据中,只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。




另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。
爬虫和数据分析代码戳:CaiXuKun,具体的数据分析文章戳:《用大数据扒一扒蔡徐坤的真假流量粉》

2. 爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利
使用多线程爬虫爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条(时间:2019年4月30日0时至5月7日0时7天,平均每隔5分钟获取一次各类型游戏所有主播直播数据),并分析直播平台和游戏主播行业是否真如我们想象般的暴利,以及游戏主播的回报跟付出的努力是否成正比


全平台7天内出现的主播有4601人,其中有3266位主播具有打赏收入,有1335位主播是没有打赏收入的。在3266位有打赏收入的主播中,历史总打赏小于100元的有1143人,占总数的35%。历史总打赏小于1万元的有2491人,占总数的76%。历史总打赏大于10万元的有177人,占总数的5%。



那么努力和收获是成正比的吗?图表中的趋势告诉我们:是的。总收入一百元以内的直播,平均每日直播2.2小时,而总收入一百万到一千万的主播,平均每日直播5.7小时!
可能大家觉得这个时间不长,但是要知道玩游戏是一项需要全神贯注的游戏,主播要是走神了没玩好,人气就不在了,礼物也刷不上来。试想一下每日要全神贯注玩6个半小时的游戏,还要解说和互动,就知道辛苦程度如何了。


可以看到,节假日的观看人数要比非节假日高。每日观看人数从7点开始攀升,到12点达到小峰值(500万左右),再从下午的4点开始急剧攀升,下午6点的观众人数,是12点的3-4倍。说明观众习惯下午下班后打开APP观看直播。下午6点一直到晚上12点,都是直播的黄金时间。

爬虫和数据分析代码戳:LiveStreaming,具体的数据分析文章戳:《用大数据扒一扒蔡徐坤的真假流量粉》

3. 爬取英语外籍老师与本土老师招聘数据,分析洋外教是否真的是一群没学历、没教学经验的外国人拿着高工资在我们国家逍遥快活
爬取外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,并分析外教教师的招聘状况。



大部分中教的工资都在10K以内,而大部分的外教工资都在10K以上。中教的月平均工资是8.3K(按照城市为单位平均后是7.9K),而外教的月平均工资是15.7K,大概是中教的2倍。



在国内实习的外教月薪可以轻松破万,入门级的外教更是可以拿到15.8K的高薪。而我们的教师,即使工作了五到十年,还是拿不到入门级外教的工资。




Any education(也就是不管你的学历)的外教,来到中国可以拿的月平均工资是13.9K人民币,比我们硕士毕业的英语老师还要高出不少。有本科学历的外教平均工资是16.3K,硕士毕业的轻松上2万。




我们把外教群里的外教来源省份画了出来,可以看到,有来自美国纽约的、有来自加拿大多伦多的,有来自英格兰的,当然,也有来自法国巴黎的(法语)、有来自土耳其伊斯坦布尔的(土耳其语)、有来自荷兰阿姆斯特丹的(荷兰语),有来自西班牙拉科鲁尼亚的(西班牙语),还有来自其它各种各样地方的,你们自己感受一下。

爬虫和数据分析代码戳:ESL,具体的数据分析文章戳:《没经验没学历的外教为啥能拿1.4W+的高薪?》

4. 爬取最近大火的程序员集体抵制996的项目996.ICU中,Issues页面讨论数据和点了star的程序员Github个人信息数据,并且分析这群抵制996的程序员都是何方神圣
爬取了Github热门项目996.ICU中Issues页面的10037条讨论数据和39987条点了star的程序员Github个人信息数据。


可见,抵制996的程序员,最多的是来自阿里系的公司,有148人,其次是腾讯、百度、京东等,以加班文化著称的华为,排名才第9。当然,还有很多来自小米、微软、谷歌、中兴、联想、ThoughtWorks等各个公司的程序员。


可以看到,浙大以59人star了该repos排名榜首,其次是上海交大、清华、电子科大、北邮、武大、哈工大、中科大、复旦大学。这些大学,都是非常有名的大学啊,也是出产程序员的大学。当然,还有很多人来自于华中科大、卡耐基梅隆大学、北航、北理工、中山大学等学校的学生。



北京以2094人位居榜首!其次是上海、杭州、深圳等等。这些城市,恰恰是国内互联网行业发展得最好的城市。看来这个repos确实在全国程序员界都引起了巨大的反响,乃至新加坡、日本、美国等地的程序员都前来支持。



这群程序员的平均粉丝数为10.9,关注数为14.6,repos数为19.1。从数据可以看出,大部分都是默默无闻又兢兢业业的苦逼基层程序员。



关注996工作制的程序员中,有程序员大牛。排名第一的是一个熟悉的面孔,轮子哥!另外有来自腾讯的Coco,来自滴滴的singwhatiwanna,技术博主颜海镜等,这些人都在关注996。在39987个star了该repos的程序员中,粉丝数大于1000的有47人,大于500的有110,大于100的有598人。说明还是有很多有影响力的程序员在关注996工作制。

爬虫和数据分析代码戳:ICU996,具体的数据分析文章戳:《大胆,都是哪些程序员在反对996?!》

5. 爬取丁香人才网的医生招聘数据,分析儿科医生的生存处境
看了《人间世》第二季第8集《儿科医生:坚守,还是逃离?》之后,爬取了丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的真实处境。




相比于公立医院招聘中更看重高学历人才,民营医院招聘时更加看重医生的工作经验。所以公立医院中由于学历导致发展受限的有经验的医生,很多都跳槽去民营医院了。


儿科岗位平均招聘持续时间是73天,将近2个半月的时间,位居榜首!看来儿科招人难,确实是千真万确的,而外科是最好招人的。


儿科医生在所有类型的单位里,公立医院开出的工资是最低的。连诊所和药房的工资都比公立医院高。


相同工资水平下,民营医院对学历不限和大专的要求比公立医院多,而公立医院对本科、硕士、博士的要求比民营医院多。也就是说,在民营医院,不需要那么高的学历,就可以拿到跟公立医院同价位的待遇。
爬虫和数据分析代码戳:Paediatrician,具体的数据分析文章戳:《儿科医生的眼泪,全被数据看见了》

6. 爬取北上广深链家网全部租房数据,并给出租房建议
爬取北上广深链家网全部租房房源数据,并且得出租金分布、租房考虑因素等建议。
把北上广深四个城市的房源都以小点的形式投射在地图上,先来看看北京的:



上海的:



广州的:



深圳的:



租房房源分布透露出来的信息其实不多,我们更关心的是各区域的价格。为此我计算了各房源每平米每月的租金,并绘制了热力地图,先来看北京的。


热力地图还有互动版本,可以随意放大缩小定位到自己感兴趣的区域:北京市每平米租金热力图

上海市


互动地图点击:上海市每平米租金热力图

广州市


互动地图点击:广州市每平米租金热力图

深圳市


互动地图点击:深圳市每平米租金热力图
爬虫和数据分析代码戳:BSGS_Rent,具体的数据分析文章戳:《北上广深租房图鉴》

7. 全国367个城市春节期间的空气质量指数数据爬取和分析
爬了全国367个城市从除夕到初七的空气质量数据,数据有68155条,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效。







可以看到,PM2.5和PM10在除夕晚上六点之后开始飙升



全国大部分城市空气质量指数飙升为原来的1-5倍,有城市甚至飙升到20-25倍!




有些管控严格的城市,虽然除夕当晚管控地很好,可是时间一过就开始反弹飙升。
爬虫和数据分析代码戳:Fireworks_and_Pm2.5,具体的数据分析文章戳:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?》

8. 爬取电影《流浪地球》的猫眼评论和评分,并分析该电影出现低分的原因
爬了102580条《流浪地球》的猫眼评论,分析观众打分的时间规律,并对观众的评论做了词云图,分析大家打高分和低分的原因。







晚上21点、22点的时候(也就是观影高峰期)最容易出现低评分。



对高分的评论画了词云图,高分的观众觉得:
1. 这部电影很不错、很好看、很震撼、很感人,会大力推荐;
2. 观众乐于把这部片跟好莱坞的科幻片进行比较,并且认为其特效完美、场面宏大,是中国里程碑式的科幻大片,相比以前有很大进步;
3. 吴京、刘慈欣、导演多次被提及,说明观众对演员、剧本和导演都有很大的认可度,认为演员演技优秀、剧本扎实、导演良心。



对低分的评论也画了词云图,打低分的观众觉得:
1. 这部影片虽然特效很好,但是剧情东拉西扯、强行煽情、年轻演员演技捉急、没有逻辑,是烂片;
2. 吴京的英雄主义和强行的爱国情怀让这部片看起来像太空版的《战狼》,很尴尬;
3. 女主的演讲是本片最大的败笔,年轻演员撑不起这样的巨作。

爬虫和数据分析代码戳:TheWanderingEarth,具体的数据分析文章戳:《十万条评论告诉你,给《流浪地球》评1星的都是什么心态?》

9. 模拟登录微博手机端爬取海量表情包(其实代码同样也可以爬小姐姐的图片)
爬了一千多张点赞量最高、目前最火的表情包,让自己的表情包库再也不捉襟见肘。



另外还用这个爬虫爬了很多女装大佬的美图,哈哈哈。


以及很多小姐姐的美图。


爬虫代码戳:Weibo_Comment_Pics,具体的爬虫步骤分析文章戳:《开年表情包局部富有指南,盘它!》

10. 分析美国从1920年以来,每个年代的人的流行英文名
总数据有1924665条,通过分析每个年代的流行英文名,为需要取英文名的童鞋提供一些建议。





2010年以来最受欢迎的男生英文名



2010年以来最受欢迎的女生英文名



注:横轴是该名字人数在每个年代所占总数的百分比





几乎发音相同的名字的书写变体

数据分析代码戳:English_names,具体的数据分析文章戳:《看完这片分析,楼下的Tony和Kevin都改名了!》

11. 分析了70多万场绝地求生的比赛数据,总结出独家吃鸡攻略
分析了总共20多G、70多万场的绝地求生比赛数据,总结出各种地图哪里跳的人最多、近战最佳武器、狙击最佳武器等,程序员嘛,靠技术吃鸡也很重要。


海岛地图中,跳机场跟学校是死得最快的。


沙漠地图中,跳Pecado、San Martin、Power Grid是死得最快的。



开车对吃鸡很重要!!!




满配的M416是海岛和沙漠地图中最好用的枪。



每场比赛场均有1.47个人自己被自己蠢倒(也就是自毙),自毙的方式中,手榴弹高居榜首!哈哈哈。

数据分析代码戳:PUBG-juediqiusheng-data_analysis,具体的数据分析文章戳:《【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!》

12. 为新媒体运营的女票写了一个公众号文章采集器,一键采集各个行业内公众号发表的文章
整个项目只有50行代码,每天早上9点的时候都把昨天一天以来各个行业内公众号发表的文章的标题、摘要和链接等相关信息爬下来,形成一个文档发给女票,这样可以大大方便阅读。


这是爬回来的文档。
爬虫代码戳:Wechat_article_collector,具体的爬虫步骤分析文章戳:《50行代码教你打造一个公众号文章采集器》

13. 爬取雪球网投资组合的历史调仓记录,以及每日根据模型输出自动化调仓
模拟登录雪球网,爬取特定投资组合的历史调仓记录,实时计算收益率。并且每日根据数据模型的预测输出,进行自动化调仓。




需要爬取的投资组合历史调仓记录





爬回来的数据



自动化调仓

持续更新中,欢迎大家关注我的公众号,更多的项目都会在这里第一时间更新:Alfred数据室。
所有项目的代码和数据在Github:interesting-python
如果你也想用Python获取数据,进行有趣的数据分析,Alfred数据室应众多读者要求出品的《实战玩转python爬虫》课程将会是你的好帮手。
课程以目标为导向,设计十大原创案例由浅入深覆盖Python爬虫所需知识点,让你在实战练习中查漏补缺,掌握基础知识,让你告别漫无目的的独自摸索,跟着老师清晰课程框架进行系统性学习,用项目培养爬虫思维,让学习可以举一反三。
课程咨询请添加微信:AlfredLabAssistant

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

95

主题

43

回帖

339

积分

中级会员

Rank: 3Rank: 3

积分
339
2023-12-21 09:46:38 显示全部楼层
【流量预警】
图片巨多!
特吃流量!!
建议在 WIFI 或 有线 下查看!!!

==========================================
2019/02/19 更
颜色转换


2019/02/13 更
识别七段数码管


检测带颜色的小球,求平均颜色


2018/11/17 更
使用 cv2.distanceTransform 计算平面点到两条曲线的距离场
颜色从深蓝到深红,代表距离由近到远。



the min dist map



the max dist map

曲线原图(Finding distance between two curves):



2018/11/14 更:
移除 细小的彩色标记物



2018.11.04 更:
集成 AI 推理到 PyQt5 中



2018.11.03 更 :
构建简单的 AI 应用: 结合使用 Tensorflow + Keras ,并结合 Flask 搭建服务器端 AI 推理环境。在本地读取图片,POST 到服务器端,并返回网络推理结果。
(1) Win 客户端 + Win 服务端 (全本地), 耗时约为 5 s。



基于 Python + Tensorflow + Keras + Flask + Opencv 的 AI 推理应用; Win 服务端 + Win 客户端; CPU版, 耗时 ≈ 5 s。

(2)本地 Win 客户端 +远程 Ubutnu 服务端 , 耗时 约为 1 s。



基于 Python + Tensorflow + Keras + Flask + Opencv 的 AI 推理应用; 本地 Win 客户端 +远程 Ubutnu 服务端 ; GPU版,耗时 ≈ 1 s。

其中,使用 GPU 版的响应时间统计如图, 平均响应为 1.1 s:




2018.10.02 更:
测试几个正多边形顶点贝塞尔曲线拟合(故意非封闭


结合 OpenCV(cv2), 显示曲线化简 贝塞尔曲线拟合效果:



2018/09/22 更:
试着查找物体并简单标注下



2018.02.28 更
爬 国家统计局统计数据 呀,如平均工资。以前不知从哪里听说的xxx市平均月薪三千,没想到查了下数据,发现2016年xxx市平均月薪已经五六千了。 (纸面上,不计M2和通胀等因素)十年翻翻·真·不是梦。可是在祝贺超大型城市经济腾飞的同时,不免也感慨老家二十八线农村的萧条。其实,那些未上榜的地方才是大多数,发达了还是衰败了,又有谁关注了呢。





部分城市平均月薪

<hr/>2018.01.04 更:编程给图像随机填色呀









可否通过编程为《秘密花园》填充出和谐的颜色?<hr/>原始回答:

爬知乎呀



Python 知乎爬虫

爬豆瓣读书呀



Python 豆瓣爬虫

爬漫画呀



Python 漫画爬虫

爬 必应 每日一图 呀



Python 必应每日一图(必应主页背景)爬虫

爬天气呀



Pyhthon 命令行查询天气

登录wlan呀



Python 命令行登录 wlan

查询单词呀



Python 查单词

颜色检测呀



Python OpenCV 颜色检测(乒乓球)

<hr/>以下主要是专栏文章里的东西 , 专栏地址:

OpenCV
瓜子计数呀



Python OpenCV 瓜子计数

细胞图像检测呀



Python OpenCV 细胞计数(cells counting)

车道线检测呀



Python OpenCV 车道线检测

手写数字识别呀



Pyhton OpenCV 手写数字识别

图像预处理呀



Python OpenCV 霍夫圆检测和极坐标变换

当做 PhotoShop 用来 P图 呀



高X格的 ”Hello, World!", 彩虹色的。


如何有格调地输出“Hello, World!”?怎样在本地搭建一个类似于 [知乎插入LaTeX公式] 的应用?
待续。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册
商业洽谈 文章投递 寻求报道
客服热线: 400-113-0968
关注微信