python爬取网站数据保存使用的方法

12 9月10 11月 by helenadmin

ç¼ç é®é¢å ä¸ºæ¶åå°ä¸æï¼æä»¥å¿ç¶å°æ¶åå°äºç¼ç çé®é¢ï¼è¿ä¸æ¬¡åè¿ä¸ªæºä¼ç®æ¯å½»åºææ¸æ¥äºãé®é¢è¦ä»æåçç¼ç è®²èµ·ãåæ¬çè±æç¼ç åªæ0~255ï¼åå¥½æ¯8ä½1ä¸ªåèãä¸ºäºè¡¨ç¤ºåç§ä¸åçè¯è¨ï¼èªç¶è¦è¿è¡æ©åãä¸æçè¯ægbç³»åãå¯è½è¿å¬è¯´è¿unicodeåutf-8ï¼é£ä¹ï¼å®ä»¬ä¹é´æ¯ä»ä¹å³ç³»å¢ï¼unicodeæ¯ä¸ç§ç¼ç æ¹æ¡ï¼åç§°ä¸å½ç ï¼å¯è§å¶åå«ä¹å¹¿ãä½æ¯å·ä½åå¨å°è®¡ç®æºä¸ï¼å¹¶ä¸ç¨è¿ç§ç¼ç ï¼å¯ä»¥è¯´å®èµ·çä¸ä¸ªä¸é´äººçä½ç¨ãä½ å¯ä»¥åæunicodeç¼ç (encode)ä¸ºutf-8ï¼æègbï¼ååå¨å°è®¡ç®æºä¸ãutf-8æègbä¹å¯ä»¥è¿è¡è§£ç (decode)è¿åä¸ºunicodeãå¨pythonä¸unicodeæ¯ä¸ç±»å¯¹è±¡ï¼è¡¨ç°ä¸ºä»¥uæå¤´çï¼æ¯å¦u’ä¸æ’ï¼èstringåæ¯ä¸ç±»å¯¹è±¡ï¼æ¯å¨å·ä½ç¼ç æ¹å¼ä¸çå®éåå¨è®¡ç®æºä¸çåç¬¦ä¸²ãæ¯å¦utf-8ç¼ç ä¸ç’ä¸æ’ågbkç¼ç ä¸ç’ä¸æ’ï¼å¹¶ä¸ç¸åãå¯ä»¥çå¦ä¸ä»£ç ï¼

ä»£ç å¦ä¸:

>>> str=u’ä¸æ’>>> str1=str.encode(‘utf8’)>>> str2=str.encode(‘gbk’)>>> print repr(str)u’\u4e2d\u6587’>>> print repr(str1)’\xe4\xb8\xad\xe6\x96\x87’>>> print repr(str2)’\xd6\xd0\xce\xc4′

å¯ä»¥çå°ï¼å¶å®åå¨å¨è®¡ç®æºä¸çåªæ¯è¿æ ·çç¼ç ï¼èä¸æ¯ä¸ä¸ªä¸ä¸ªçæ±åï¼å¨printçæ¶åè¦ç¥éå½æ¶æ¯ç¨çä»ä¹æ ·çç¼ç æ¹å¼ï¼æè½æ£ç¡®çprintåºæ¥ãæä¸ä¸ªè¯´æ³æå¾å¾å¥½ï¼pythonä¸çunicodeææ¯çæ£çåç¬¦ä¸²ï¼èstringæ¯åèä¸²æä»¶ç¼ç æ¢ç¶æä¸åçç¼ç ï¼é£ä¹å¦æå¨ä»£ç æä»¶ä¸ç´æ¥åstringçè¯ï¼é£ä¹å®å°åºæ¯åªä¸ç§ç¼ç å¢ï¼è¿ä¸ªå°±æ¯ç±æä»¶çç¼ç æå³å®çãæä»¶æ»æ¯ä»¥ä¸å®çç¼ç æ¹å¼ä¿åçãèpythonæä»¶å¯ä»¥åä¸codingçå£°æè¯å¥ï¼ç¨æ¥è¯´æè¿ä¸ªæä»¶æ¯ç¨ä»ä¹ç¼ç æ¹å¼ä¿åçãå¦æå£°æçç¼ç æ¹å¼åå®éä¿åçç¼ç æ¹å¼ä¸ä¸è´å°±ä¼åºç°å¼å¸¸ãå¯ä»¥è§ä¸é¢ä¾åï¼ ä»¥utf-8ä¿åçæä»¶å£°æä¸ºgbk

ä»£ç å¦ä¸:

#coding:gbkstr=u’æ±’str1=str.encode(‘utf8’)str2=str.encode(‘gbk’)str3=’æ±’print repr(str)print repr(str1)print repr(str2)print repr(str3)

æç¤ºéè¯¯ file “test.py”, line 1 syntaxerror: non-ascii character ‘\xe6’ in file test.py on line 1, but no encodi ng declared; see http://www.python.org/peps/pep-0263.html for details æ¹ä¸º

ä»£ç å¦ä¸:

#coding:utf8str=u’æ±’str1=str.encode(‘utf8’)str2=str.encode(‘gbk’)str3=’æ±’print repr(str)print repr(str1)print repr(str2)print repr(str3)

è¾åºæ£å¸¸ç»æ u’\u6c49′ ‘\xe6\xb1\x89’ ‘\xba\xba’ ‘\xe6\xb1\x89’

åºæ¬æ¹æ³å¶å®ç¨pythonç¬åç½é¡µå¾ç®åï¼åªæç®åçå å¥è¯

ä»£ç å¦ä¸:

import urllib2page=urllib2.urlopen(‘url’).read()

è¿æ ·å°±å¯ä»¥è·å¾å°é¡µé¢çåå®¹ãæ¥ä¸æ¥åç¨æ£åå¹éå»å¹éæéè¦çåå®¹å°±è¡äºãä½æ¯ï¼çæ£è¦åèµ·æ¥ï¼å°±ä¼æåç§åæ ·çç»èé®é¢ãç»å½è¿æ¯ä¸ä¸ªéè¦ç»å½è®¤è¯çç½ç«ãä¹ä¸å¤ªé¾ï¼åªè¦å¯¼å¥cookielibåurllibåºå°±è¡ã

ä»£ç å¦ä¸:

import urllib,urllib2,cookielibcookiejar = cookielib.cookiejar()urlopener = urllib2.build_opener(urllib2.httpcookieprocessor(cookiejar))

è¿æ ·å°±è£è½½è¿ä¸ä¸ªcookieï¼ç¨urlopenerå»openç»å½ä»¥åå°±å¯ä»¥è®°ä½ä¿¡æ¯ãæçº¿éè¿å¦æåªæ¯åå°ä¸é¢çç¨åº¦ï¼ä¸å¯¹openè¿è¡åè£çè¯ï¼åªè¦ç½ç»ç¶åµæäºèµ·ä¼ï¼å°±ç´æ¥æåºå¼å¸¸ï¼éåºæ´ä¸ªç¨åºï¼æ¯ä¸ªå¾ä¸å¥½çç¨åºãè¿ä¸ªæ¶åï¼åªè¦å¯¹å¼å¸¸è¿è¡å¤çï¼å¤è¯å æ¬¡å°±è¡äºï¼

ä»£ç å¦ä¸:

def multi_open(opener,*arg): while true: retrytimes=20 while retrytimes>0: try: return opener.open(*arg) except: print ‘.’, retrytimes-=1

æ£åå¹éå¶å®æ£åå¹éå¹¶ä¸ç®æ¯ä¸ä¸ªç¹å«å¥½çæ¹æ³ï¼å ä¸ºå®çå®¹éæ§å¾ä¸å¥½ï¼ç½é¡µè¦å®å¨ç»ä¸ãå¦ææç¨å¾®çä¸ç»ä¸ï¼å°±ä¼å¤±è´¥ãåæ¥çå°è¯´ææ ¹æ®xpathæ¥è¿è¡éåçï¼ä¸æ¬¡å¯ä»¥å°è¯ä¸ä¸ãåæ£åå¶å®æ¯æä¸å®æå·§çï¼éè´ªå©ªå¹éãæ¯å¦è¿æ ·ä¸ä¸ªæ ç¾ï¼helloï¼è¦ååºaæ¥ï¼å¦æåæè¿æ ·çè¡¨è¾¾å¼ï¼å°±ä¸è¡äºï¼helloãå ä¸º*è¿è¡äºè´ªå©ªå¹éãè¿æ¯è¦ç¨.?ï¼helloãè·¨è¡å¹éãå®ç°è·¨è¡æä¸ç§æè·¯æ¯è¿ç¨dotallæ å¿ä½ï¼è¿æ ·.å°±ä¼å¹éå°æ¢è¡ãä½æ¯è¿æ ·ä¸æ¥ï¼æ´ä¸ªå¹éè¿ç¨å°±ä¼åå¾å¾æ¢ãæ¬æ¥çå¹éæ¯ä»¥è¡ä¸ºåä½çãæ´ä¸ªè¿ç¨æå¤å°±æ¯o(nc2)ï¼næ¯è¡æ°ï¼cæ¯å¹³ååæ°ãç°å¨ææå¯è½åä¸ºo((nc)2)ãæçå®ç°æ¹æ¡æ¯è¿ç¨\næ¥å¹éæ¢è¡ï¼è¿æ ·å¯ä»¥æç¡®æåºå¹éæå¤è·¨è·å¤å°è¡ãæ¯å¦ï¼abc\s*\n\s*defï¼å°±æåºæ¥æ¾çæ¯éä¸è¡çã(.\n)?å°±å¯ä»¥æå®æ¯å¹éå°½å¯è½å°çè¡ãè¿éå¶å®è¿è¦æ³¨æä¸ä¸ªç¹ãæçè¡æ«æ¯å¸¦æ\rçãä¹å°±æ¯è¯´ä¸è¡æ¯ä»¥\r\nç»å°¾çãå½åä¸ç¥éè¿ä¸ç¹ï¼æ£åå°±è°è¯äºå¾ä¹ãç°å¨ç´æ¥ç¨\sï¼è¡¨ç¤ºè¡æ«ç©ºæ ¼å\rãæ æè·åç»ãä¸ºäºä¸å¯¹æè·çåç»é æå½±åï¼ä¸é¢ç(.\n)å¯ä»¥æ¹ä¸º(?:.\n)ï¼è¿æ ·æè·åç»æ¶ï¼å°±ä¼å¿½ç¥å®ãåæ¬å·è¦è¿è¡è½¬ä¹ãå ä¸ºåæ¬å·å¨æ£åéæ¯ç¨æ¥è¡¨ç¤ºåç»çï¼æä»¥ä¸ºäºå¹éåæ¬å·å°±è¿è¡è½¬ä¹ãæ£ååç¬¦ä¸²æå¥½ç¨çæ¯å¸¦æråç¼çåç¬¦ä¸²ï¼å¦æä¸æ¯çè¯ï¼åè¦å¯¹\åè¿è¡è½¬ä¹ãå¿«éæ£åãåäºé£ä¹å¤æ¨¡å¼ï¼ä¹æ»ç»åºä¸è§å¾åºæ¥ãåæè¦å¹éçåç¬¦ç¸å³çæ®µè½æ¿åºæ¥ãè¦å¹éçä¸è¥¿ç¨(.?)ä»£æ¿ãææ¢è¡\næ¿æ¢ä¸ºåç¬¦ä¸²\s\n\s*ï¼åå»æè¡é¦è¡æ«çç©ºæ ¼ãæ´ä¸ªè¿ç¨å¨vimä¸å¯ä»¥å¾å¿«å°±åå¥½ãexcelæä½è¿æ¬¡çæ°æ®æ¯æ¾è¿excelçãå°åé¢ææè¯å°å¦ææ¾è¿æ°æ®åºçè¯ï¼å¯è½å°±æ²¡æé£ä¹å¤äºäºãä½æ¯å·²ç»åå°ä¸åï¼é¾ä»¥åå¤´äºãæç´¢excelï¼å¯ä»¥å¾åºå ä¸ªæ¹æ¡æ¥ï¼ä¸ä¸ªæ¯ç¨xlrt/xlwtåºï¼è¿ä¸ªä¸ç®¡çµèä¸æ¯å¦å®è£äºexcelï¼é½å¯ä»¥è¿è¡ï¼ä½åªè½æ¯xlsæ ¼å¼çãè¿æä¸ä¸ªæ¯ç´æ¥åè£äºcomï¼éè¦çµèä¸å®è£äºè½¯ä»¶æè¡ãæéç¨çæ¯åä¸ç§ãåºæ¬çè¯»åæ²¡æé®é¢ãä½æ¯æ°æ®éä¸å¤§èµ·æ¥ï¼å°±æé®é¢äºãååä¸å¤ãç¨åºä¸è·èµ·æ¥ï¼ååå ç¨å°±ä¸ç¹ä¸ç¹å¾ä¸æ¶¨ãåé¢åæ¥äºä¸ä¸ï¼ç¥éè¦ç¨flush_row_dataãä½æ¯è¿æ¯ä¼åºéãä¸çååå ç¨ï¼æ²¡æä»ä¹é®é¢ï¼ä¸ç´å¾å¹³ç¨³ãä½æåè¿æ¯ä¼åºç°memory errorãè¿çæ¯è§é¬¼äºãåæ¯åå¤å°æ¥ï¼ åå¤å°è¿è¡ãä¸ç¹ç»æé½æ²¡æãè¦å½çæ¯bugåªå¨æ°æ®éå¤§èµ·æ¥æåºç°ï¼èçæ°æ®éå¤§èµ·æ¥å¾å¾è¦å¥½å ä¸ªå°æ¶ï¼è¿debugçææ¬å®å¨æ¯å¤ªé«äºãä¸ä¸ªå¶ç¶çæºä¼ï¼çªç¶åç°ååå ç¨ï¼è½ç¶æ»ä½å¹³ç¨³ï¼ä½æ¯ä¼è§å¾æ§çåºç°å°çé«æ¶¨ï¼èè¿è§å¾æ§ï¼ä¼ä¸ä¼åflush_row_dataï¼æå³ãä¸ç´çæçæ¯dataè¢«flushå°äºåªéãåæ¥xlwtçä½æ³æ¯å¾èç¼çä½æ³ãææ°æ®åå¨ååéï¼æèflushå°ä¸ä¸ªtempï¼å°saveçæ¶åï¼åä¸æ¬¡æ§åå¥ãèé®é¢æ£åºå¨è¿ä¸æ¬¡æ§åå¥ï¼ååçæ¶¨ãé£æè¦flush_row_dataä½ç¨ï¼ä¸ºä»ä¹ä¸ä¸å¼å§å°±flushè¿è¦åå¥çå°æ¹ãè¡æ°éå¶ãè¿ä¸ªæ¯xlsæ ¼å¼æ¬èº«å³å®çï¼æå¤è¡æ°åªè½æ¯65536ãèä¸æ°æ®ä¸å¤§ï¼æä»¶æå¼ä¹ä¸æ¹ä¾¿ãç»åä»¥ä¸ä¸¤ç¹ï¼æç»éåäºè¿ä¹ä¸ä¸ªçç¥ï¼å¦æè¡æ°æ¯1000çåæ°ï¼è¿è¡ä¸æ¬¡flushï¼å¦æè¡æ°è¶è¿65536ï¼æ°å¼ä¸ä¸ªsheetï¼å¦æè¶è¿3ä¸ªsheetï¼åæ°å»ºä¸ä¸ªæä»¶ãä¸ºäºæ¹ä¾¿ï¼æxlwtåè£äºä¸ä¸

ä»£ç å¦ä¸:

#coding:utf-8#import xlwtclass xls: ”’a class wrap the xlwt”’ max_row=65536 max_sheet_num=3 def __init__(self,name,captionlist,typelist,encoding=’utf8′,flushbound=1000): self.name=name self.captionlist=captionlist[:] self.typelist=typelist[:] self.workbookindex=1 self.encoding=encoding self.wb=xlwt.workbook(encoding=self.encoding) self.sheetindex=1 self.__addsheet() self.flushbound=flushbound def __addsheet(self): if self.sheetindex != 1: self.wb.save(self.name+str(self.workbookindex)+’.xls’) if self.sheetindex>xls.max_sheet_num: self.workbookindex+=1 self.wb=xlwt.workbook(encoding=self.encoding) self.sheetindex=1 self.sheet=self.wb.add_sheet(self.name.encode(self.encoding)+str(self.sheetindex)) for i in range(len(self.captionlist)): self.sheet.write(0,i,self.captionlist[i]) self.row=1 def write(self,data): if self.row>=xls.max_row: self.sheetindex += 1 self.__addsheet() for i in range(len(data)): if self.typelist[i]==”num”: try: self.sheet.write(self.row,i,float(data[i])) except valueerror: pass else: self.sheet.write(self.row,i,data[i]) if self.row % self.flushbound == 0: self.sheet.flush_row_data() self.row+=1 def save(self): self.wb.save(self.name+str(self.workbookindex)+’.xls’)

è½¬æ¢ç½é¡µç¹æ®åç¬¦ç±äºç½é¡µä¹æèªå·±ç¬ç¹çè½¬ä¹åç¬¦ï¼å¨è¿è¡æ£åå¹éçæ¶åå°±æäºéº»ç¦ãå¨å®æ¹ææ¡£ä¸æ¥å°ä¸ä¸ªç¨åå¸æ¿æ¢çæ¹æ¡ï¼ç§ä»¥ä¸ºä¸éï¼æ¿æ¥åäºä¸äºæ©åãå¶ä¸æä¸äºæ¯ä¸ºä¿ææ£åçæ£ç¡®æ§ã

ä»£ç å¦ä¸:

html_escape_table = { “&”: “&”, ‘”‘: “””, “‘”: “'”, “>”: “>”, “

发表评论取消回复

要发表评论，您必须先登录。