用python爬蟲爬取下來的資料是怎麼樣的

1樓：匿名使用者

看你爬什麼咯？如果是網頁，那就是頁面**；如果是制定內容，那爬取的時候就給定匹配的關鍵字，返回你指定的資料（字串，list，json都可以）

我想用python爬蟲爬取資料，但是資料格式不是很懂，誰能給我說說怎麼爬取？

2樓：兔子吃清草

這已經是乙個json格式的文字了，直接把文字請求下來轉換成json就行了，就會變成python裡dict和list巢狀的結構。

3樓：陽光的雷咩咩

這個返回的已經是json了。

所以就d =

print(d)

python爬蟲獲取資料犯法嗎？

4樓：八爪魚大資料

爬取網上公開的，網頁所有者允許爬的資料，不違法；

爬取網上公開的，網頁所有者拒絕被爬取的資料，違反職業道德，可能會違法；

爬取內網資料，隱私資料，屬於黑客行為，違反職業道德，也是違法的；

5樓：家威

犯法不犯法的，最主要的是你需要用到，恰好我能做到。

6樓：佳薇

爬蟲資料被監管。現在找渠道都要走穩定的安全的。需要的祥聊。

7樓：網友

這個，應該是犯法的吧，建議你不要這樣做。

python爬蟲是否能夠爬取所有型別的資料呢？

8樓：電飯鍋

「所有**皆可爬」，都是人寫出來的，框架不變。但是資料爬取的攻防一直都是個話題，你去採集乙個**站和阿里巴巴**，難度差別很大。另外你即使是個python高手，如果領導給你幾百幾千個簡單**爬取，你會發現用python寫很慢。

總結就是你要採集多個**建議用標準化的一些採集軟體。

答：你去用下發源地採集器。

如何用python 爬蟲抓取金融資料

9樓：山茶泡泉

提取碼：4591華爾街學堂 python金融實務從入門到精通。最近，越來越多的研究員、**經理甚至財務會計領域的朋友，向諮詢：

金融人需要學python麼？事實上在現在，這已經不是乙個問題了。python已成為國內很多頂級投行、**、諮詢等泛金融、商科領域的必備技能。

中金公司、銀河**、南方**、銀華**在招聘分析師崗位時，紛紛要求熟練掌握python資料分析技能。

課程目錄：python在金融資管領域中的應用。

安裝anaconda步驟。

python基礎知識。

python基礎金融分析應用。

成為程式設計能手：python知識高階。

利用python實現金融資料收集、分析與視覺化。

10樓：匿名使用者

618ip**是一款強大的換動態ip軟體，範圍可覆蓋全國城市。

軟體可用於遊戲試玩、遊戲掛機、營銷、優化、文件分享、管理、問答推廣、資料採集、點讚、增效回訪、使用者註冊等。

python爬蟲爬下來的資料怎麼匯入到mysql

11樓：流雨清揚

去裝乙個 pymsql包。

然後import pymysql #匯入pymsql模組#鏈結資料庫，注意port是int型，不是str，所以不要用引號conn = root',password='root',host=''port=3306,database='test_demo',use_unicode=true,charset="utf8"

#獲取游標。

cursor = 插入資料，注意看有變數的時候格式。

"insert into tieba_user(`uuid`,`user_name`,`user_rank`,`user_level`,`level_status`,`tieba_name`) values (%s,%s,%s,%s,%s,%s)",user_id, user_name, user_rank, user_level, level_statu, tieba_name))

#提交。#關閉連線。

類似這樣。

為什麼python寫的爬蟲有時候抓取的資料是亂碼

12樓：地瓜說機

# -*coding:utf-8 -*

import urllib2

import re

url='?see_lz=1'

#開啟頁面並進行轉碼。

page='gbk')

print 'open %s'%url

none_re='|

#換行符轉換。

br_re='

#標題。title_re='(

#搜尋文章標題，並去掉檔案標題可能含有的特殊符號。

title=,page)

title='\

replace('/replace(':

replace('*replace('?

replace('"replace('>replace('<

replace('|

#搜尋文字內容。

content=,page)

with open('%title,'w') as f:

print 'writing % now...title

for i in content:

#對html特殊符號進行替換處理。

i=, i)

i=, n', i)

#寫入文字檔案。

'utf-8').strip()+n')

print 'done!'

13樓：彤寧薇

首頁和發布出來的資料是常規的發布資料，可以些爬蟲抓取解析儲存到本地。你給的那個頁面，裡頭的資料圖表是用 flash 來展示的，這塊沒弄過，不知道在爬取的時候應該怎麼解析資料。

基於python的scrapy爬蟲，關於增量爬取是怎麼處理的

14樓：網友

一、增量爬取的思路：即儲存上一次狀態，本次抓取時與上次比對，如果不在上次的狀態中，便視為增量，儲存下來。對於scrapy來說，上一次的狀態是抓取的特徵資料和上次爬取的 request佇列（url列表），request佇列可以通過request佇列可以通過scrapy.

的pending_requests成員得到，在爬蟲啟動時匯入上次爬取的特徵資料，並且用上次request佇列的資料作為start url進行爬取，不在上一次狀態中的資料便儲存。

二、選用bloomfilter原因：對爬蟲爬取資料的儲存有多種形式，可以是資料庫，可以是磁碟檔案等，不管是資料庫，還是磁碟檔案，進行掃瞄和儲存都有很大的時間和空間上的開銷，為了從時間和空間上提公升效能，故選用bloomfilter作為上一次爬取資料的儲存。儲存的特徵資料可以是資料的某幾項，即監控這幾項資料，一旦這幾項資料有變化，便視為增量持久化下來，根據增量的規則可以對儲存的狀態資料進行約束。

比如：可以選網頁更新的時間，索引次數或是網頁的實際內容，cookie的更新等。

用python爬蟲爬取下來的資料是怎麼樣的

苗族的服飾資料，苗族的服飾是怎麼樣的？

李小璐的個人資料，李小璐的個人簡介是怎麼樣的？

校用公寓床是怎么樣的，校用公寓床是怎麼樣的？

其他用戶還看了：