python關於用beautifulsoup匹配標題並儲存

時間 2021-06-28 17:23:14

1樓:匿名使用者

# encoding: gbk

import urllib2

import re

from beautifulsoup import beautifulsoup

patt = re.compile(r'.*href="(.*?)/.*".*?', re.i|re.x) # 按需求更換regex

page=urllib2.urlopen("") # 按需求更換地址soup=beautifulsoup(page,fromencoding="gb2312") # 按需求更換編碼

for a in soup.findall('a'):

a = a.__str__('gb2312')m = patt.match(a)

if m:

print m.groups(0)[0]

2樓:匿名使用者

因為你講的不是很詳細,所以有可能的錯誤時這樣的,titletag的編碼格式和y不一致

試一下, titletag = titletag.__str__('gb2312')

關於python的問題,關於python的問題

這裡有兩個知識點 1 切片,比如有乙個字串 name abcdef 那麼在記憶體中儲存如圖 取e 是 name 4 或者name 2 取ef 是 name 2 或者name 4 取bc 是name 1 3 或者name 5 3 需要注意的是,後面取的閉包,也就是不包括本身,這個例子裡name 3 的...

關於Python執行問題,python 執行檔案路徑問題

巴巴吖葩琦 python2與python3的區別不是很大 其中我知道的有 python2中有raw input 用於接受使用者輸入數字的函式 pythonb3中則沒有raw input,只有input,input接受的全都是字串型別。還有乙個就是python3.5以上的版本字典中的元素變得有序了,在...

關於python小白的問題,python小白的問題

土豪 只有float浮點數才可以用int轉換為整數,input得到的是string字串型別,不能直接轉換為int整型,需要先轉換為浮點型再轉換為整型,你的 應該這樣 加粗的是我新增的 我加的那句input是防止輸入正確之後直接退出 temp int float input 請輸入年份確定是否為閏年 ...