使用python提取html文件中的特定数据的实现代码

ä¾å¦ å·æå¦ä¸ç»æçhtmlæä»¶

ä»£ç å¦ä¸:

æå´è¶£åå®¹1

æå´è¶£åå®¹2

â¦â¦

æå´è¶£åå®¹n

åå®¹1

åå®¹2

â¦â¦

åå®¹n

ä»£ç å¦ä¸:

è¿éçåå®¹

è¿æè¿é

â¦â¦

ä»¥åè¿éçåå®¹

æè·¯å¦ä¸

éå°

è®¾ç½®æ è®°flag = true
éå°

å è®¾ç½®æ è®°flag = false
å½flag ä¸ºtrueæ¶éå°

è®¾ç½®æ è®°getdata = true
éå°

ä¸getdata = true,è®¾ç½®getdata = false

å¯ç¨çå¤çå½æ°å¦ä¸ï¼

ç»ææ è®° (end tag)
æ¯ç»æä¸ä¸ªåç html æ è®°ï¼è±¡ ï¼ï¼ æ çãå½æ¾å°ä¸ä¸ªç»ææ è®°æ¶ï¼sgmlparser å°æ¥æ¾åä¸º end_tagname çæ¹æ³ãå¦ææ¾å°ï¼sgmlparser è°ç¨è¿ä¸ªæ¹æ³ï¼å¦åå®ä½¿ç¨æ è®°çååæ¥è°ç¨ unknown_endtag ã

åç¬¦å¼ç¨ (character reference)
ç¨åç¬¦çåè¿å¶æçåçååè¿å¶æ¥è¡¨ç¤ºçè½¬ä¹åç¬¦ï¼è±¡ ãå½æ¾å°ï¼sgmlparser ä½¿ç¨åè¿å¶æçåçååè¿å¶åç¬¦ææ¬æ¥è°ç¨ handle_charref ã

æ³¨é (comment)
html æ³¨é, åæ¬å¨ ä¹é´ãå½æ¾å°ï¼sgmlparser ç¨æ³¨éåå®¹æ¥è°ç¨ handle_commentã

å¤çæä»¤ (processing instruction)
html å¤çæä»¤ï¼åæ¬å¨

发表评论 取消回复

发表评论取消回复