ä¾å¦ å ·æå¦ä¸ç»æçhtmlæ件
代ç å¦ä¸:
æå ´è¶£å 容1
æå ´è¶£å 容2
â¦â¦
æå ´è¶£å 容n
å 容1
å 容2
â¦â¦
å 容n
æ们å°è¯è·å¾’æå ´è¶£å 容’ 对äºææ¬å 容,æ们ä¿åå°idlistä¸ã å¯æ¯å¦ä½æ è®°æ们éå°çææ¬æ¯æå ´è¶£çå 容å¢ï¼ä¹å°±æ¯ï¼å¤äº
代ç å¦ä¸:
è¿éçå 容
è¿æè¿é
â¦â¦
以åè¿éçå 容
æè·¯å¦ä¸
éå°
设置æ è®°flag = true
éå°
å 设置æ è®°flag = false
å½flag 为trueæ¶éå°
设置æ è®°getdata = true
éå°
ä¸getdata = true,设置getdata = false
python为æ们æä¾äºsgmlparserç±»ï¼sgmlparser å° html åææ 8 ç±»æ°æ®[1]ï¼ç¶å对æ¯ä¸ç±»è°ç¨åç¬çæ¹æ³:使ç¨æ¶åªé继æ¿sgmlparser ç±»ï¼å¹¶ç¼å页é¢ä¿¡æ¯çå¤çå½æ°ã
å¯ç¨çå¤çå½æ°å¦ä¸ï¼
å¼å§æ è®° (start tag)
æ¯ä¸ä¸ªå¼å§ä¸ä¸ªåç html æ è®°ï¼è±¡ ï¼ï¼ æ çï¼ææ¯ä¸ä¸ªç¬ä¸çæ è®°ï¼è±¡ æ çãå½å®æ¾å°ä¸ä¸ªå¼å§æ è®° tagnameï¼sgmlparser å°æ¥æ¾å为 start_tagname æ do_tagname çæ¹æ³ãä¾å¦ï¼å½å®æ¾å°ä¸ä¸ª æ è®°ï¼å®å°æ¥æ¾ä¸ä¸ª start_pre æ do_pre çæ¹æ³ãå¦ææ¾å°äºï¼sgmlparser ä¼ä½¿ç¨è¿ä¸ªæ è®°çå±æ§å表æ¥è°ç¨è¿ä¸ªæ¹æ³ï¼å¦åï¼å®ç¨è¿ä¸ªæ è®°çåååå±æ§å表æ¥è°ç¨ unknown_starttag æ¹æ³ã
ç»ææ è®° (end tag)
æ¯ç»æä¸ä¸ªåç html æ è®°ï¼è±¡ ï¼ï¼ æ çãå½æ¾å°ä¸ä¸ªç»ææ è®°æ¶ï¼sgmlparser å°æ¥æ¾å为 end_tagname çæ¹æ³ãå¦ææ¾å°ï¼sgmlparser è°ç¨è¿ä¸ªæ¹æ³ï¼å¦åå®ä½¿ç¨æ è®°çååæ¥è°ç¨ unknown_endtag ã
å符å¼ç¨ (character reference)
ç¨å符çåè¿å¶æçåçåå
è¿å¶æ¥è¡¨ç¤ºç转ä¹å符ï¼è±¡ ãå½æ¾å°ï¼sgmlparser 使ç¨åè¿å¶æçåçåå
è¿å¶å符ææ¬æ¥è°ç¨ handle_charref ã
å®ä½å¼ç¨ (entity reference)
html å®ä½ï¼è±¡ ©ãå½æ¾å°ï¼sgmlparser ä½¿ç¨ html å®ä½çååæ¥è°ç¨ handle_entityref ã
注é (comment)
html 注é, å
æ¬å¨ ä¹é´ãå½æ¾å°ï¼sgmlparser ç¨æ³¨éå
容æ¥è°ç¨ handle_commentã
å¤çæ令 (processing instruction)
html å¤çæ令ï¼å
æ¬å¨