為什麼我用python爬京東的網頁爬下來的是空標籤

1樓：匿名使用者

現在幾乎所有的大**都在主要的欄目做了防爬行的處理。象這樣的還算是簡單的。大不了你分析一下js。如果不想分析js。就麻煩些。

你安裝乙個pyqt，裡面有乙個qtbrowser，你可以驅動這個瀏覽器去爬行。要幾百行**才能搞定。

用瀏覽器開啟這個**，然後通過瀏覽器的乙個功能，獲得渲染後的html網頁。這樣就解決 js的問題了。不過爬行速度很受限制。因為瀏覽器開啟乙個網頁的速度很慢。

2樓：明日復明日香

只能去分析js裡面是怎麼獲取這些值的。

3樓：洋娃娃金剛鸚鵡

問題讓人看起來好解啊暈。

python使用json爬取京東評論，在瀏覽器頁面的request url 開啟是空白的，所以導致no json object 5

4樓：麻花藤是濺人

json不是一種格式嗎，能當爬蟲用？你訪問的url既然是空白的，那就說明不是這個url，注意找找究竟是哪個url，能訪問並且顯示想要的內容才是對的。最後就是如果能訪問，爬蟲卻抓取不下來，就得考慮是不是被檢測到爬蟲了，需要修改請求頭部等資訊隱藏自身。

5樓：匿名使用者

我也遇到了這個問題，請問樓主解決了麼？

6樓：匿名使用者

headers 要增加乙個商品鏈結。

為什麼用 python 獲取京東網頁時，**元素的內容是空的

7樓：剛蛋都沒了

之前我用php的curl獲取資訊的時候也是這樣，jd的**是通過預設選中規格，然後通過js拼到頁面上的，所以我們看著有資料但是拿不到。

python爬蟲，有個網頁點選之後才會出現標籤，這種元素怎麼爬，xpath有，但是定位不到，和frame無關 255

8樓：匿名使用者

這種是動態更新的，需要抓包找到對應的請求位址。

9樓：匿名使用者

這是動態網頁，需要用網路分析工具找到對應的請求。

如何用python抓取**京東網頁所有審查元素，不是源**

10樓：背鍋俠丶李達康

審查元素顯示的其實就是格式化之後的源**，你可以用對比一下。

下面是乙個python3使用urllib庫讀取源**的例子，如果要處理成審查元素那樣的格式，需要對html標籤逐個處理下。

為什麼request爬取的網頁是是一大堆標籤

11樓：匿名使用者

問題出在你每次得到的都是同乙個list 每次取list[0] 當然永遠是重複的第乙個元素。

問題出在這個//*]/ul/li 取得的所有的li不是乙個個別的li。返回的list 雖然有幾十個元素，但每乙個用後面的xpath匹配都是可以得到相同的結果。

同學們，有人用python寫過京東的爬蟲嗎

12樓：匿名使用者

呼叫服務的過程以及接收到伺服器端的返回值後處理結果的過程。

程式呼叫了的 hellovoid 方法，在 hellovoid 方法中，通過 send_hellovoid 方法傳送對服務的呼叫請求，通過 recv_hellovoid 方法接收服務處理請求後返回的結果。