使用Jsoup解决网页中图片链接问题
在做Facebook和WhatsApp分享的时候,分享出去的谷歌短链,Facebook获取不到大图,和竞品展示的不一样,WhatsApp分享出去的短链没有图片和描述。
WhatsApp:
分析竞品UCNews,发现他们分享出去的WhatsApp链接指向的网页,在meat标签中添加了相关的属性,然后在自己的站中加入相关标签,问题解决。
<meta property="og:image" content="http://img.masala-sg.goldenmob.com/img/f6cb4bd725a7ab15dac6579f769a4c5f/i_0_mla_1480059457-608.jpg">
<meta property="twitter:image" content="http://img.masala-sg.goldenmob.com/img/f6cb4bd725a7ab15dac6579f769a4c5f/i_0_mla_1480059457-608.jpg">
Facebook:
通过多次测试,发现Facebook是根据分享的链接中网页中的图片的大小,从而进行不同形式的展现的。我原来使用的是480的中图,这里需要将网页中所有图片链接改为608的大图。因为使用的是阿里的OSS,图片在爬虫入库的时候都已经经过处理,不同的图片大小只是链接后缀不同,所以这里就涉及到了修改整个网页中图片的地址。
整个Conten是一个大的JSON,我在这边获取到之后,需要对tcontent中的内容进行解析,并替换。
{"image":[{"url":"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_0_95db3c9b23b5de19685ca86fd1707c5b-208","w":480,"h":216,"s":23092},{"url":"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_1_honeyjar-208.jpg","w":362,"h":331,"s":76833},{"url":"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_2_718fdc7d637fe88f31c77eb90d8e22a0-208","w":480,"h":274,"s":24234},{"url":"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_3_muchgarlicpowderequalsoneclovegarlic_5c49a0162-208","w":700,"h":394,"s":31888}],"tcontent":"<p> <img src=\"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_0_95db3c9b23b5de19685ca86fd1707c5b-480\"></p><p></p> <p></p>\n<p>लहसुन और शहद एक बहुत ही पुरानी दवा है, जिसे बडे़ बडे़ रोगों को दूर करने के लिए खाया जाता था।</p>\n<p>अगर आप हर वक्त बीमार रहते हैं और थकान की वजह से आपका मन किसी काम में नहीं लगता तो, इसका साफ मतलब है कि आपका इम्यून सिस्टम कमजोर हो गया है। अगर इम्यून सिस्टम कमजोर हो जाता है तो इंसान को सौ तरह की बीमारियां घेर लेती हैं। पर क्या आप जानते हैं कि लहसुन और शहद को एक साथ मिला कर खाने से ये एंटीबायोटिक का काम करते हैं। यह एक प्रकार का सूपर फूड है।</p>\n<p><img src=\"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_1_honeyjar-480.jpg\"></p>\n<p>इसे बानने के लिये जाती 2-3 बड़ी लहसुन की कली को हल्का सा दबा कर कूट लीजिये और फिर उसमें शुद्ध कच्ची शहद मिलाइये। इसे कुछ देर के लिये ऐसे ही रहने दीजिये, जिससे लहसुन में पूरा शहद समा जाए। फिर इसे सुबह खाली पेट 7 दिनों तक खाइये और फिर देखिये कमाल। हमेशा कच्चे और शुद्ध शहद का ही प्रयोग करें क्योंकि यह कोलेस्ट्रॉल को कम करने के मदद करता है। साथ ही इसे खाने से वजन भी कम होता है।</p>\n<p> <img src=\"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_2_718fdc7d637fe88f31c77eb90d8e22a0-480\"></p><p></p> <p></p>\n<p>लहसुन और शहद के मेल से इस घोल की शक्ति बढ जाती है और फिर यह इम्यून सिस्टम को मजबूत कर देता है। इम्यून सिस्टम मजबूत होने से शरीर मौसम की मार से बचा रहता है और उसे कोई बीमारी नहीं होती। इस मिश्रण को खाने से हृदय तक जाने वाली धमनियों में जमा वसा निकल जाता है, जिससे खून का प्रवाह ठीक प्रकार से हृदय तक पहुंच पाता है। इससे हृदय की सुरक्षा होती है।</p>\n<p>इस मिश्रण को लेने से गले का संक्रमण दूर होता है क्योंकि इसमें एंटी-इंफ्लेमेटरी गुण हैं। यह गले की खराश और सूजन को कम करता है। अगर किसी को डायरिया हो रहा हो तो, उसे इसका मिश्रण खिलाएं। इससे उसका पाचन तंत्र दुरुस्त हो जाएगा और पेट के संक्रमण मर जाएंगे। इसको खाने से सर्दी-जुखाम के साथ साइनस की तकलीफ भी काफी कम हो जाती है।</p>\n<p><img src=\"http://img.masala-sg.goldenmob.com/img/7bf6da255a03b8b93ffa985957da34a1/i_3_muchgarlicpowderequalsoneclovegarlic_5c49a0162-480\"></p>\n<p>यह मिश्रण शरीर की गर्मी बढ़ाता है और बीमारियों को दूर रखता है। फंगल इंफेक्शन, शरीर के कई भागों पर हमला करते हैं, लेकिन एंटीबैक्टीरियल गुणों से भरा यह मिश्रण बैक्टीरिया को खतम कर के शरीर को बचाता है। यह एक प्राकृतिक डीटॉक्स मिश्रण है, जिसे खाने से शरीर से गंदगी और दूषित पदार्थ बाहर निकलता है।</p>"}
Content
初始方案:
直接使用String的replaceAll方法,将480替换成608,并且对没有后缀的图片链接添加.webp。在测试的时候发现没有任何问题,但是项目上线之后,OSS那边经常会出现如下错误。分析后发现,原来存在这样的情况<img src="xxx-480">这种图片没有后缀,在替换的时候只能替换480为608,但是无法添加上后缀,这样在网页进行访问的时候,浏览器请求图片地址会自动把后边的HTML代码带上去请求OSS。这种情况一般出现在印地语和马拉蒂语泰米尔语中,在content中还存在部分unicode编码,尝试过转码,正则,但是都不是很完美。
/img/7bf6da255a03b8b93ffa985957da34a1/i_2_718fdc7d637fe88f31c77eb90d8e22a0-608.%3E%3C/p%3E%3Cp%3E%3C/p%3E%20%3Cp%3E%3C/p%3E%3Cp%3E%E0%A4%B2%E0%A4%B9%E0%A4%B8%E0%A5%81%E0%A4%A8%20%E0%A4%94%E0%A4%B0%20%E0%A4%B6%E0%A4%B9%E0%A4%A6%20%E0%A4%95%E0%A5%87%20%E0%A4%AE%E0%A5%87%E0%A4%B2%20%E0%A4%B8%E0%A5%87%20%E0%A4%87%E0%A4%B8%20%E0%A4%98%E0%A5%8B%E0%A4%B2%20%E0%A4%95%E0%A5%80%20%E0%A4%B6%E0%A4%95%E0%A5%8D%E2%80%8D%E0%A4%A4%E0%A4%BF%20%E0%A4%AC%E0%A4%A2%20%E0%A4%9C%E0%A4%BE%E0%A4%A4%E0%A5%80%20%E0%A4%B9%E0%A5%88%20%E0%A4%94%E0%A4%B0%20%E0%A4%AB%E0%A4%BF%E0%A4%B0%20%E0%A4%AF%E0%A4%B9%20%E0%A4%87%E0%A4%AE%E0%A5%8D%E2%80%8D%E0%A4%AF%E0%A5%82%E0%A4%A8%20%E0%A4%B8%E0%A4%BF%E0%A4%B8%E0%A5%8D%E2%80%8D%E0%A4%9F%E0%A4%AE%20%E0%A4%95%E0%A5%8B%20%E0%A4%AE%E0%A4%9C%E0%A4%AC%E0%A5%82%E0%A4%A4%20%E0%A4%95%E0%A4%B0%20%E0%A4%A6%E0%A5%87%E0%A4%A4%E0%A4%BE%20%E0%A4%B9%E0%A5%88%E0%A5%A4%20%E0%A4%87%E0%A4%AE%E0%A5%8D%E2%80%8D%E0%A4%AF%E0%A5%82%E0%A4%A8%20%E0%A4%B8%E0%A4%BF%E0%A4%B8%E0%A5%8D%E2%80%8D%E0%A4%9F%E0%A4%AE%20%E0%A4%AE%E0%A4%9C%E0%A4%AC%E0%A5%82%E0%A4%A4%20%E0%A4%B9%E0%A5%8B%E0%A4%A8%E0%A5%87%20%E0%A4%B8%E0%A5%87%20%E0%A4%B6%E0%A4%B0%E0%A5%80%E0%A4%B0%20%E0%A4%AE%E0%A5%8C%E0%A4%B8%E0%A4%AE%20%E0%A4%95%E0%A5%80%20%E0%A4%AE%E0%A4%BE%E0%A4%B0%20%E0%A4%B8%E0%A5%87%20%E0%A4%AC%E0%A4%9A%E0%A4%BE%20%E0%A4%B0%E0%A4%B9%E0%A4%A4%E0%A4%BE%20%E0%A4%B9%E0%A5%88%20%E0%A4%94%E0%A4%B0%20%E0%A4%89%E0%A4%B8%E0%A5%87%20%E0%A4%95%E0%A5%8B%E0%A4%88%20%E0%A4%AC%E0%A5%80%E0%A4%AE%E0%A4%BE%E0%A4%B0%E0%A5%80%20%E0%A4%A8%E0%A4%B9%E0%A5%80%E0%A4%82%20%E0%A4%B9%E0%A5%8B%E0%A4%A4%E0%A5%80%E0%A5%A4%20%E0%A4%87%E0%A4%B8%20%E0%A4%AE%E0%A4%BF%E0%A4%B6%E0%A5%8D%E0%A4%B0%E0%A4%A3%20%E0%A4%95%E0%A5%8B%20%E0%A4%96%E0%A4%BE%E0%A4%A8%E0%A5%87%20%E0%A4%B8%E0%A5%87%20%E0%A4%B9%E0%A5%83%E0%A4%A6%E0%A4%AF%20%E0%A4%A4%E0%A4%95%20%E0%A4%9C%E0%A4%BE%E0%A4%A8%E0%A5%87%20%E0%A4%B5%E0%A4%BE%E0%A4%B2%E0%A5%80%20%E0%A4%A7%E0%A4%AE%E0%A4%A8%E0%A4%BF%E0%A4%AF%E0%A5%8B%E0%A4%82%20%E0%A4%AE%E0%A5%87%E0%A4%82%20%E0%A4%9C%E0%A4%AE%E0%A4%BE%20%E0%A4%B5%E0%A4%B8%E0%A4%BE%20%E0%A4%A8%E0%A4%BF%E0%A4%95%E0%A4%B2%20%E0%A4%9C%E0%A4%BE%E0%A4%A4%E0%A4%BE%20%E0%A4%B9%E0%A5%88,%20%E0%A4%9C%E0%A4%BF%E0%A4%B8%E0%A4%B8%E0%A5%87%20%E0%A4%96%E0%A5%82%E0%A4%A8%20%E0%A4%95%E0%A4%BE%20%E0%A4%AA%E0%A5%8D%E0%A4%B0%E0%A4%B5%E0%A4%BE%E0%A4%B9%20%E0%A4%A0%E0%A5%80%E0%A4%95%20%E0%A4%AA%E0%A5%8D%E0%A4%B0%E0%A4%95%E0%A4%BE%E0%A4%B0%20%E0%A4%B8%E0%A5%87%20%E0%A4%B9%E0%A5%83%E0%A4%A6%E0%A4%AF%20%E0%A4%A4%E0%A4%95%20%E0%A4%AA%E0%A4%B9%E0%A5%81%E0%A4%82%E0%A4%9A%20%E0%A4%AA%E0%A4%BE%E0%A4%A4%E0%A4%BE%20%E0%A4%B9%E0%A5%88%E0%A5%A4%20%E0%A4%87%E0%A4%B8%E0%A4%B8%E0%A5%87%20%E0%A4%B9%E0%A5%83%E0%A4%A6%E0%A4%AF%20%E0%A4%95%E0%A5%80%20%E0%A4%B8%E0%A5%81%E0%A4%B0%E0%A4%95%E0%A5%8D%E0%A4%B7%E0%A4%BE%20%E0%A4%B9%E0%A5%8B%E0%A4%A4%E0%A5%80%20%E0%A4%B9%E0%A5%88%E0%A5%A4%3C/p%3E%3Cp%3E%E0%A4%87%E0%A4%B8%20%E0%A4%AE%E0%A4%BF%E0%A4%B6%E0%A5%8D%E0%A4%B0%E0%A4%A3%20%E0%A4%95%E0%A5%8B%20%E0%A4%B2%E0%A5%87%E0%A4%A8%E0%A5%87%20%E0%A4%B8%E0%A5%87%20%E0%A4%97%E0%A4%B2%E0%A5%87%20%E0%A4%95%E0%A4%BE%20%E0%A4%B8%E0%A4%82%E0%A4%95%E0%A5%8D%E0%A4%B0%E0%A4%AE%E0%A4%A3%20%E0%A4%A6%E0%A5%82%E0%A4%B0%20%E0%A4%B9%E0%A5%8B%E0%A4%A4%E0%A4%BE%20%E0%A4%B9%E0%A5%88%20%E0%A4%95%E0%A5%8D%E2%80%8D%E0%A4%AF%E0%A5%8B%E0%A4%82%E0%A4%95%E0%A4%BF%20%E0%A4%87%E0%A4%B8%E0%A4%AE%E0%A5%87%E0%A4%82%20%E0%A4%8F%E0%A4%82%E0%A4%9F%E0%A5%80-%E0%A4%87%E0%A4%82%E0%A4%AB%E0%A5%8D%E0%A4%B2%E0%A5%87%E0%A4%AE%E0%A5%87%E0%A4%9F%E0%A4%B0%E0%A5%80%20%E0%A4%97%E0%A5%81%E0%A4%A3%20%E0%A4%B9%E0%A5%88%E0%A4%82%E0%A5%A4%20%E0%A4%AF%E0%A4%B9%20%E0%A4%97%E0%A4%B2%E0%A5%87%20%E0%A4%95%E0%A5%80%20%E0%A4%96%E0%A4%B0%E0%A4%BE%E0%A4%B6%20%E0%A4%94%E0%A4%B0%20%E0%A4%B8%E0%A5%82%E0%A4%9C%E0%A4%A8%20%E0%A4%95%E0%A5%8B%20%E0%A4%95%E0%A4%AE%20%E0%A4%95%E0%A4%B0%E0%A4%A4%E0%A4%BE%20%E0%A4%B9%E0%A5%88%E0%A5%A4%20%E0%A4%85%E0%A4%97%E0%A4%B0%20%E0%A4%95%E0%A4%BF%E0%A4%B8%E0%A5%80%20%E0%A4%95%E0%A5%8B%20%E0%A4%A1%E0%A4%BE%E0%A4%AF%E0%A4%B0%E0%A4%BF%E0%A4%AF%E0%A4%BE%20%E0%A4%B9%E0%A5%8B%20%E0%A4%B0%E0%A4%B9%E0%A4%BE%20%E0%A4%B9%E0%A5%8B%20%E0%A4%A4%E0%A5%8B,%20%E0%A4%89%E0%A4%B8%E0%A5%87%20%E0%A4%87%E0%A4%B8%E0%A4%95%E0%A4%BE%20%E0%A4%AE%E0%A4%BF%E0%A4%B6%E0%A5%8D%E0%A4%B0%E0%A4%A3%20%E0%A4%96%E0%A4%BF%E0%A4%B2%E0%A4%BE%E0%A4%8F%E0%A4%82%E0%A5%A4%20%E0%A4%87%E0%A4%B8%E0%A4%B8%E0%A5%87%20%E0%A4%89%E0%A4%B8%E0%A4%95%E0%A4%BE%20%E0%A4%AA%E0%A4%BE%E0%A4%9A%E0%A4%A8%20%E0%A4%A4%E0%A4%82%E0%A4%A4%E0%A5%8D%E0%A4%B0%20%E0%A4%A6%E0%A5%81%E0%A4%B0%E0%A5%81%E0%A4%B8%E0%A5%8D%E2%80%8D%E0%A4%A4%20%E0%A4%B9%E0%A5%8B%20%E0%A4%9C%E0%A4%BE%E0%A4%8F%E0%A4%97%E0%A4%BE%20%E0%A4%94%E0%A4%B0%20%E0%A4%AA%E0%A5%87%E0%A4%9F%20%E0%A4%95%E0%A5%87%20%E0%A4%B8%E0%A4%82%E0%A4%95%E0%A5%8D%E0%A4%B0%E0%A4%AE%E0%A4%A3%20%E0%A4%AE%E0%A4%B0%20%E0%A4%9C%E0%A4%BE%E0%A4%8F%E0%A4%82%E0%A4%97%E0%A5%87%E0%A5%A4%20%E0%A4%87%E0%A4%B8%E0%A4%95%E0%A5%8B%20%E0%A4%96%E0%A4%BE%E0%A4%A8%E0%A5%87%20%E0%A4%B8%E0%A5%87%20%E0%A4%B8%E0%A4%B0%E0%A5%8D%E0%A4%A6%E0%A5%80-%E0%A4%9C%E0%A5%81%E0%A4%96%E0%A4%BE%E0%A4%AE%20%E0%A4%95%E0%A5%87%20%E0%A4%B8%E0%A4%BE%E0%A4%A5%20%E0%A4%B8%E0%A4%BE%E0%A4%87%E0%A4%A8%E0%A4%B8%20%E0%A4%95%E0%A5%80%20%E0%A4%A4%E0%A4%95%E0%A4%B2%E0%A5%80%E0%A4%AB%20%E0%A4%AD%E0%A5%80%20%E0%A4%95%E0%A4%BE%E0%A4%AB%E0%A5%80%20%E0%A4%95%E0%A4%AE%20%E0%A4%B9%E0%A5%8B%20%E0%A4%9C%E0%A4%BE%E0%A4%A4%E0%A5%80%20%E0%A4%B9%E0%A5%88%E0%A5%A4%3C/p%3E%3Cp%3E%3Cimg%20src=
/img/7bf6da255a03b8b93ffa985957da34a1/i_0_95db3c9b23b5de19685ca86fd1707c5b-608.%3E%3C/p%3E%3Cp%3E%3C/p%3E%20%3Cp%3E%3C/p%3E%3Cp%3E%E0%A4%B2%E0%A4%B9%E0%A4%B8%E0%A5%81%E0%A4%A8%20%E0%A4%94%E0%A4%B0%20%E0%A4%B6%E0%A4%B9%E0%A4%A6%20%E0%A4%8F%E0%A4%95%20%E0%A4%AC%E0%A4%B9%E0%A5%81%E0%A4%A4%20%E0%A4%B9%E0%A5%80%20%E0%A4%AA%E0%A5%81%E0%A4%B0%E0%A4%BE%E0%A4%A8%E0%A5%80%20%E0%A4%A6%E0%A4%B5%E0%A4%BE%20%E0%A4%B9%E0%A5%88,%20%E0%A4%9C%E0%A4%BF%E0%A4%B8%E0%A5%87%20%E0%A4%AC%E0%A4%A1%E0%A5%87%E0%A4%BC%20%E0%A4%AC%E0%A4%A1%E0%A5%87%E0%A4%BC%20%E0%A4%B0%E0%A5%8B%E0%A4%97%E0%A5%8B%E0%A4%82%20%E0%A4%95%E0%A5%8B%20%E0%A4%A6%E0%A5%82%E0%A4%B0%20%E0%A4%95%E0%A4%B0%E0%A4%A8%E0%A5%87%20%E0%A4%95%E0%A5%87%20%E0%A4%B2%E0%A4%BF%E0%A4%8F%20%E0%A4%96%E0%A4%BE%E0%A4%AF%E0%A4%BE%20%E0%A4%9C%E0%A4%BE%E0%A4%A4%E0%A4%BE%20%E0%A4%A5%E0%A4%BE%E0%A5%A4%3C/p%3E%3Cp%3E%E0%A4%85%E0%A4%97%E0%A4%B0%20%E0%A4%86%E0%A4%AA%20%E0%A4%B9%E0%A4%B0%20%E0%A4%B5%E0%A4%95%E0%A5%8D%E2%80%8D%E0%A4%A4%20%E0%A4%AC%E0%A5%80%E0%A4%AE%E0%A4%BE%E0%A4%B0%20%E0%A4%B0%E0%A4%B9%E0%A4%A4%E0%A5%87%20%E0%A4%B9%E0%A5%88%E0%A4%82%20%E0%A4%94%E0%A4%B0%20%E0%A4%A5%E0%A4%95%E0%A4%BE%E0%A4%A8%20%E0%A4%95%E0%A5%80%20%E0%A4%B5%E0%A4%9C%E0%A4%B9%20%E0%A4%B8%E0%A5%87%20%E0%A4%86%E0%A4%AA%E0%A4%95%E0%A4%BE%20%E0%A4%AE%E0%A4%A8%20%E0%A4%95%E0%A4%BF%E0%A4%B8%E0%A5%80%20%E0%A4%95%E0%A4%BE%E0%A4%AE%20%E0%A4%AE%E0%A5%87%E0%A4%82%20%E0%A4%A8%E0%A4%B9%E0%A5%80%E0%A4%82%20%E0%A4%B2%E0%A4%97%E0%A4%A4%E0%A4%BE%20%E0%A4%A4%E0%A5%8B,%20%E0%A4%87%E0%A4%B8%E0%A4%95%E0%A4%BE%20%E0%A4%B8%E0%A4%BE%E0%A4%AB%20%E0%A4%AE%E0%A4%A4%E0%A4%B2%E0%A4%AC%20%E0%A4%B9%E0%A5%88%20%E0%A4%95%E0%A4%BF%20%E0%A4%86%E0%A4%AA%E0%A4%95%E0%A4%BE%20%E0%A4%87%E0%A4%AE%E0%A5%8D%E2%80%8D%E0%A4%AF%E0%A5%82%E0%A4%A8%20%E0%A4%B8%E0%A4%BF%E0%A4%B8%E0%A5%8D%E2%80%8D%E0%A4%9F%E0%A4%AE%20%E0%A4%95%E0%A4%AE%E0%A4%9C%E0%A5%8B%E0%A4%B0%20%E0%A4%B9%E0%A5%8B%20%E0%A4%97%E0%A4%AF%E0%A4%BE%20%E0%A4%B9%E0%A5%88%E0%A5%A4%20%E0%A4%85%E0%A4%97%E0%A4%B0%20%E0%A4%87%E0%A4%AE%E0%A5%8D%E2%80%8D%E0%A4%AF%E0%A5%82%E0%A4%A8%20%E0%A4%B8%E0%A4%BF%E0%A4%B8%E0%A5%8D%E2%80%8D%E0%A4%9F%E0%A4%AE%20%E0%A4%95%E0%A4%AE%E0%A4%9C%E0%A5%8B%E0%A4%B0%20%E0%A4%B9%E0%A5%8B%20%E0%A4%9C%E0%A4%BE%E0%A4%A4%E0%A4%BE%20%E0%A4%B9%E0%A5%88%20%E0%A4%A4%E0%A5%8B%20%E0%A4%87%E0%A4%82%E0%A4%B8%E0%A4%BE%E0%A4%A8%20%E0%A4%95%E0%A5%8B%20%E0%A4%B8%E0%A5%8C%20%E0%A4%A4%E0%A4%B0%E0%A4%B9%20%E0%A4%95%E0%A5%80%20%E0%A4%AC%E0%A5%80%E0%A4%AE%E0%A4%BE%E0%A4%B0%E0%A4%BF%E0%A4%AF%E0%A4%BE%E0%A4%82%20%E0%A4%98%E0%A5%87%E0%A4%B0%20%E0%A4%B2%E0%A5%87%E0%A4%A4%E0%A5%80%20%E0%A4%B9%E0%A5%88%E0%A4%82%E0%A5%A4%20%E0%A4%AA%E0%A4%B0%20%E0%A4%95%E0%A5%8D%E2%80%8D%E0%A4%AF%E0%A4%BE%20%E0%A4%86%E0%A4%AA%20%E0%A4%9C%E0%A4%BE%E0%A4%A8%E0%A4%A4%E0%A5%87%20%E0%A4%B9%E0%A5%88%E0%A4%82%20%E0%A4%95%E0%A4%BF%20%E0%A4%B2%E0%A4%B9%E0%A4%B8%E0%A5%81%E0%A4%A8%20%E0%A4%94%E0%A4%B0%20%E0%A4%B6%E0%A4%B9%E0%A4%A6%20%E0%A4%95%E0%A5%8B%20%E0%A4%8F%E0%A4%95%20%E0%A4%B8%E0%A4%BE%E0%A4%A5%20%E0%A4%AE%E0%A4%BF%E0%A4%B2%E0%A4%BE%20%E0%A4%95%E0%A4%B0%20%E0%A4%96%E0%A4%BE%E0%A4%A8%E0%A5%87%20%E0%A4%B8%E0%A5%87%20%E0%A4%AF%E0%A5%87%20%E0%A4%8F%E0%A4%82%E0%A4%9F%E0%A5%80%E0%A4%AC%E0%A4%BE%E0%A4%AF%E0%A5%8B%E0%A4%9F%E0%A4%BF%E0%A4%95%20%E0%A4%95%E0%A4%BE%20%E0%A4%95%E0%A4%BE%E0%A4%AE%20%E0%A4%95%E0%A4%B0%E0%A4%A4%E0%A5%87%20%E0%A4%B9%E0%A5%88%E0%A4%82%E0%A5%A4%20%E0%A4%AF%E0%A4%B9%20%E0%A4%8F%E0%A4%95%20%E0%A4%AA%E0%A5%8D%E0%A4%B0%E0%A4%95%E0%A4%BE%E0%A4%B0%20%E0%A4%95%E0%A4%BE%20%E0%A4%B8%E0%A5%82%E0%A4%AA%E0%A4%B0%20%E0%A4%AB%E0%A5%82%E0%A4%A1%20%E0%A4%B9%E0%A5%88%E0%A5%A4%3C/p%3E%3Cp%3E%3Cimg%20src=
OSS Error
改进后(使用jsoup):
改进后,使用了jsoup去解析整个HTML代码,然后获取到图片地址,在对其进行替换和添加后缀,完美解决问题。
public static String replaceImgOfContent(String content){
Document doc = Jsoup.parseBodyFragment(content);
Elements img = doc.getElementsByTag("img");
for (Element link : img) {
link.removeAttr("data-src");
link.removeAttr("data-lazy-src");
link.removeAttr("alt");
link.removeAttr("title");
link.removeAttr("src-set");
link.removeAttr("id");
link.removeAttr("class");
String linkHref = link.attr("src");
if(!linkHref.endsWith(".gif")){
if (linkHref.indexOf("masala-sg") > 0) {
int size = linkHref.lastIndexOf(".");
if (linkHref.length() - size < 10) {
String im = linkHref.substring(size - 3, linkHref.lastIndexOf("."));
if (im.equals("480")) {
String idu = linkHref.substring(linkHref.lastIndexOf("480"), linkHref.length());
linkHref = linkHref.replace(idu, "608.webp");
}
} else {
if (linkHref.endsWith("480")) {
linkHref = linkHref.replaceAll("480","608");
linkHref = linkHref+".webp";
}
}
link.attr("src", linkHref);
}
}
}
content = doc.body().html().toString();
return content;
}
jsoup Cookbook(中文版) : http://www.open-open.com/jsoup/ maven dependency:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
使用Jsoup解决网页中图片链接问题的更多相关文章
- jsoup 对网页中图片解析
Elements article = new Elements(); Elements Img = new Elements(); article = doc.select("div#con ...
- 使用jquery获取网页中图片的高度——解惑
jQuery获取网页中图片的高度 使用jquery获取网页中图片的高度其实很简单,有两种常用的方法都可以打到我们的目的 $("img").whith();(返回纯数字) $(&qu ...
- iOS 解决LaunchScreen中图片加载黑屏问题
iOS 解决LaunchScreen中图片加载黑屏问题 原文: http://blog.csdn.net/chengkaizone/article/details/50478045 iOS 解决Lau ...
- php获取网页中图片并保存到本地
php获取网页中图片并保存到本地的代码,将网页中图片保存本地文件夹: save_img("http://www.jbxue.com" ?>
- php获取网页中图片并保存到本地的代码
php获取网页中图片并保存到本地的代码,将网页中图片保存本地文件夹: <?php /** * 获取网页中图片,并保存至本地 * by www.jbxue.com */ header(" ...
- 解决网页中Waiting (TTFB)数据加载过慢的问题
解决网页中Waiting (TTFB)数据加载过慢的问题 最近做了一个网页,在本地测试良好,数据可以得到很快的反馈,但是当部署到云端Linux上时候,就会出现加载缓慢的问题.本地测试,得到数据大概3s ...
- 使用selenium的方式获取网页中图片的链接和网页的链接,来判断是否是死链(二)
上一篇使用Java正则表达式来判断和获取图片的链接以及跳转的网址,这篇使用selenium的自带的API(getAttribute)来获取网页中指定的内容 实现内容:获取下面所有图片的链接地址以及跳转 ...
- C# 网络编程之webBrowser获取网页url和下载网页中图片
该文章主要是通过C#网络编程的webBrowser获取网页中的url并简单的尝试瞎子啊网页中的图片,主要是为以后网络开发的基础学习.其中主要的通过应用程序结合网页知识.正则表达式实现浏览.获取url. ...
- [爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块
Extractor的工作是从下载的网页中将它包含的所有URL提取出来.这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换 ...
随机推荐
- 重新安装Linux自带的JDK
1.卸载现有jdk 查看本机已经安装的JDK的版本: [root@mcb ~]# java -version java version "1.6.0" OpenJDK Runtim ...
- [python][django学习篇][12]继续设计博客首页,点击博客标题能显示文章的详情
回顾一下开发流程:配置url, 编写视图函数,编写对应模板 配置URL 首页视图匹配的 URL 去掉域名后,是一个空的字符串.每篇文章的详情有着不同的 URL,因此可以设计文章详情页面URl:< ...
- 重做LVM文件系统之减小PV
命令 缩小PV空间到120G,即PV上的vg00已将缩小到120G pvresize --setphysicalvolumesize 120g /dev/sda2 背景 机器上有一块900G本地的本地 ...
- IIS8 不能在此路径中使用此配置节。如果在父级别上锁定了该节
问题: 不能在此路径中使用此配置节.如果在父级别上锁定了该节,便会出现这种情况.锁定是默认设置的(overrideModeDefault="Deny"),或者是通过包含 overr ...
- hdu 3874 树状数组
思路:和求区间内有多少个不同的数一样,只不过改下权值. #include<iostream> #include<cstdio> #include<algorithm> ...
- 超简单(super)
超简单(super) 题目描述 有一个n面的骰子,第i面的数是vi,朝上的概率是pi. 教室的最后一排有一个人,不停地抛这个骰子,直到某一面朝上了两次,就停止抛骰子,但他不知道所有朝上的面的数字的和的 ...
- String.intern() (jdk1.8)
1.通过字面量赋值创建字符串 (如:String str=”aaa”)时,会先在常量池中查找是否存在相同的字符串,若存在,则将栈中的引用直接指向该字符串:若不存在,则在常量池中生成一个字符串,再将栈中 ...
- Maven多模块项目依赖管理
Maven多模块项目依赖管理及dependencies与dependencyManagement的区别 转自:http://blog.csdn.net/liutengteng130/article/d ...
- java 去html标签,去除字符串中的空格,回车,换行符,制表符
public static String getonerow(String allLine,String myfind) { Pattern ...
- JDBC加载驱动的方法+statement
加载驱动方法 1.Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver"); 2. DriverManager.r ...