资源预览内容
第1页 / 共5页
第2页 / 共5页
第3页 / 共5页
第4页 / 共5页
第5页 / 共5页
亲,该文档总共5页全部预览完了,如果喜欢就下载吧!
资源描述
淘宝网决策搜索引擎在淘宝网购物时,顾客最关心的就是这两个页面,因此这两个页面的信 息对于顾客至关重要,这也是我的搜索引擎信息收集的地方。由于有成千上万的 这样格式的页面,所以我的目标就是设计出一个爬虫引擎在淘宝网上不断地 爬,以零下载为条件,直接将目标信息数据导入我创建的数据库中,再进行搜索。厂家直销足Ssoirr 口红情侣u盘4G买一送二(见公告)无货举报今生爱美眉&和我联系会员信用朋务承诺:w已交保证金,加入消费者保障服务 累计信用:爭增好评率:99.83%店舖动态评分宝贝与描述相符:* 4.7 卖家的服务态度:* * 4.8卖家发货的速度:*认证:PI%挑选更多商品进入学柜店铺血收藏本店铺厶!发站内信件订阅本店铺 詡分享到江湖4冷人侑息阿里旺欄哦际旺地址:江苏南京开店时 2W5-06-21间:认证憧|可奄埶2收旅本JS诵 .注站內涪件实京蛊务it副狂H4舞咿堆 讎商品立忌:cm 实樹商昌交晶三100%F买京康帜谨副E托申媲店时评分是怎弦打分的.有没有演宝网评价规则评价妇何悔葢和制除炒作悄用-妇何处目被建评怎幺办了一口伽 57.00元至北京:平邮20.0元 快ii: 10.0元ERIS: 30.0元30天售出:8件准看评价)W卖家已提交保证金,加入消费者保陣册务。卖家承诺:神如实描述 7天退换付款方式:支付宝卡谨网银支付找人代付消费卡网点支付支付宝余额颜色:红色蓝色我要买:|(牛库存157件)请迭择:號&件么是购物车測览次数:2次所在地区:江苏南京t-图 1 商品货物信息页面实羸m提:立诵逵金.加天消克奢煤障嵐务了黑赔忖潼翟与描迖相符4.7(650 A 打分)实康的妬&壹4.3 ( 647人打分)实克倉费怖速蓋4.8 ( 644人打分)匪务題30去内:适规行为天返誌纠紛天投诉纠鲂无谗生帘盪说明超过切去无适规疔詡若实康耒覆行上址氐左河宝蓮用樣证金进行生行時付題过180天无退款纠紛非曹不浦不浦意一殼非肯商怠最近斶St近1金月最近个月S月就息计635S11146741814总曰评0012300000总计6338111龍6741B14*宴簾累僉佶用士 1814母申申毎评逵:99.83买簸佶息找垂塞舉积佶用28兀申申歼评亀100.0%最近坏月最近&卜月S月前总计132174702S76瑶曰评000004 m理nnnnH图 2 卖家信息页面/type:typetypeinput input hi ddenhi ddenz,name二item_id value二445吐3749836e268c60a29543932e397 / name二aucticm_iinput type二hidden name二auctionype value二binput input input input inputtype type type type type:hi dden | namehiddenhi dden?hi dden*hi ddenz,name name name namex i d value= dbl /.sel_Ler_id| |va丄ue二ldcc9648d9Uacla6牡dca29X23.Xb5a9d彳 allcw quantitylvalue二15T Z2 seller_nicknaine |”alue二今生爱美眉/Glidden namefrorri value=item_detai/ type=hidden? name=/?seller_rank valued /input type=inputinputtypu 二hidden name 二who_p ay_ ship|value=卖家承担运费/ t yp e二” hi dden_Iinput(inputtype二”hidden tiainephcitci_ur.|v?.ue二i2/TJ.QC)FkXbxvXXbdSITa 090438.ip呂/彳input type二”hidden” h831二Pay_iriethod | value二款至I发|type二”hi dden” name二“point_pri ce” vinput二”hi dden name二”aut o_post vainputinputtyp亡二hidden name=autoj:os11z,value= /type二hidden id二quantity name二quantitv value二l/input图 3 商品信息页面 Html 源码的关键地方综合分析这两个典型页面,我们可以得到这样的信息:大部分淘宝网的 商品和店家信息都是依据这两个页面的格式形式存在的。所以依次便可以写出程 序推断出整个淘宝网的数据。列名埶据类型允许空intE主键ID匚 urrent_Pricsfloat当前价格BuyhloPricefloatE 现在购买价格TtienvarcharflOO)网页标题Photo_Urlvarchar(2ao)B 商品照片相对地址Regionnvarcfiar(5O)商品发货地5eller_Nidtnamenvarchar(3D)商家昵称SellerJTaobao_Idvarcharp卖家淘宝网ID5eller_Idint団卖家在本数据库IDTaobacSite 丄1nvarchar(300)淘宝网Url地址PayJletiiadnvarchar(5)B 本商品付款方式Who_Pay_Shipnvarchar(45)B谁承担运费Stock_Quantityint库存数量SecLire_Paybitn是否支持安全付款图 4 商品信息表字段别名数据类型允许空M ercha nd i seltem *IDCurrent_PrioeBuyNow_PriceTitlePhota 丄1RegionSeller_NicknameSellerJTaobao_IdSeller_IdTaobaaSiteJJrlPay_MethodWho_Pay_ShipStock_Quantity5ecure_PaySeller *IDSellerJTaabao_IdSeller_NicknameStart_DateSellerJTrustBuyerJTrustVirtual_Exchange_RatePhysical_ENchange_RateSeller_GoodFeedback_RateBuyer_GaadFeedba匚k_RmteTaabaoSiteJJrl1 Dint主键IDSeller JTaob a o_Idvarchar(33卖家淘宝网IDSeller_Nidsnamenvarchar(50)卖家昵称Start_Datedatetime开店时间MerJTrustint卖家积累信用BuyerJTrustint买家积累信用Virkial_E xch a nge_Ra te旳乳虚拟商品交易率Physio I_Em chang e_Ratefloat实体商品交易率5ell 已_GocdFeedbadc_.flcat卖家好评率Buyer_GoodFeedback.float 买家好评率TacbaoSite 丄1nvardiar(300)淘宝网Url地址图 5 卖家信息表字段图 6 数据库表关系图我在网上详细查阅了有关爬虫引擎的资料和仔细挑选了开源框架后。决定使 用以下几个框架作为我的爬虫引擎的主要框架。1. Html Parser这个开源框架主要用于解析Html格式的页面,这个框架的目的就是从当前 页面将关键数据提取出来,从而在零下载的情况下得到数据。由于这个框架时间 比较早,未免有些比较陈旧的
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号