[新时达千股千评]王氏国际

女神节股市很不安静,数据能够下载下来留作留念。PowerQuery能够用来抓取股票信息,便是要注意几个细节:

首要找到你需求的数据的网站,证卷之星、同花顺、东方财富、新浪财经等等,许多网站都有行情中心,供给当天的股票行情信息以及前史信息查询。这些信息都是揭露的,匿名拜访就能够下载,可是有个问题,网站会有反爬机制,拜访过于频频就会被断开衔接,或许一次性抓取数据过多也会被断开衔接。

接下来便是要看哪些网站能抓,哪些不能抓?

第一种:供给详细网页的静态网址的能够抓

第二种:地址栏里只供给主站地址,可是能够找到详细页面网址的

张两种网址应该都能够抓取,第二种中有的也不可,由于后边的Request中有网站下发的随机码,没有任何规则,就不能抓。

还有便是怎么推迟抓取,仿照人类的速度

PowerQuery中供给了一个能够使程序推迟运转的M函数Function.InvokeAfter,这个函数有两个参数。前面是函数,后边是推迟的时刻距离。

这个函数的用法与其他函数有些不同:

函数里边需求用"=>"来转一下。右下角改写时就会有显着的推迟。

把这个函数用到抓取过程中,写成这个姿态

[新时达千股千评]王氏国际

最终便是页数多时,要分隔抓取

测试了几个网站,信息抓取的时分,假如页数过多,就会被回绝,一般来说30页左右,应该能够承受,我们也能够依据实际情况自己试一试。

这个是抓取了5页的比如。悉数A股的股票行情信息,有2700多行,假如20行一页的话,也要有100多页,分红5次,就能抓取完了。

抓取下来的信息,最好是转成本地文件,要不然改写数据是特别慢,还简单被网站回绝拜访,上图是我抓取下来的3月8日的A股股票信息,导入到PowerBI里做的个可视化图表。

发布于 2024-01-05 07:01:39
收藏
分享
海报
7
目录