小言_互联网的博客

python工具脚本,网站广告违禁词检测脚本源码

270人阅读  评论(0)

自从广告法公布以来,广告违禁词,极限词投诉愈发增多,不仅仅是电商广告,网站也开始收到投诉,处罚,其中也有不少同行蠢蠢欲动的投诉,举报,如果你有发现此类同行,不妨可以尝试一下,绝对会令对手焦头烂额!

不少网站也推出了此类检测工具,当然割韭菜的居多,要不让你注册会员,购买会员或者积分,实质上很难检测你的问题,处理掉违禁词,如果你公司配有程序员还好,没有的话,那就只能自己上手操作一番,好在有python,直接写脚本开撸!

广告违禁词图片

从上面的图片提取出广告违禁词,这里推荐QQ图片文字识别,应用python读取输出为列表!

违禁词获取参考源码:


   
  1. #违禁词词库
  2. # -*- coding: utf -8 -*-
  3. # 20210112 by 微信:huguo00289
  4. Zui= "最佳、最具、最爱、最嫌、最优、最优秀、最好、最大、最人程度、最高、最高级、最高端、最耆侈、最低、最低级、最低价、最底、最便宜、史上最低价、最流行、最受欢迎、最时尚、最聚拢、最符合、最舒适、最先、最先进、最先进科学、最先进加工工艺、最先享受、最后、最后—波、最新、最新技术、最新科学"
  5. Yi= "第一、中国第一、全网第一、销量第一、排名第一、唯一、第一品牌、NO.1、TOP1、独一无二、全国第一、—流、一天、仅此一次、仅此一款、最后—波、大品牌之一"
  6. Sj= "首个、首选、独家、独家配方、首发、全网首发、全国首发、首家、全网首家、全国首家、网独家、网首发、首次、首款、全国销量冠军、国家级产品、国家、国家免检、国家领导人、填补、国内空白、中国驰名、驰名商标、国际品质"
  7. Shj= "随时结束、随时涨价、马上降价、倒计时、趁现在、特惠趴、购物大趴、闪购"
  8. Zh= "国家级、国家级产品、全球级、宇宙级、世界级、顶级、顶尖、尖端、顶级工艺、顶级享受、高级、极品、极佳、绝佳、绝对、终极、极致"
  9. Pp= "大牌、金牌、名牌、王牌、领袖品牌、世界领先、遥遥、领先、领导者、缔造者、创领品牌、领先上市、巨星、著名、掌门人、至尊、巅峰、者侈、优秀、资深、领袖、之王、王者、冠军"
  10. Qw= "老字号、中国驰名商标、特供、专供、专家推荐、质量免检、无需国家质量检测、免抽检、领导人推荐、机关推荐"
  11. Qz= "1点击领奖、恭喜获奖、全民免单、点击有惊喜、点击领取、点击转身、点击试穿、点击翻转、领取奖品、秒杀、抢爆、再不抢就没了、不会再便宜了.没有他就、错过就没机会了、万人疯抢、全民疯抢、抢购、卖疯了、抢疯了"
  12. def wj():
  13.     wjc=f '{Zui}{Yi}{Sj}{Shj}{Zh}{Pp}{Qw}{Qz}'
  14.     wjc=wjc.split( "、")
  15.      return wjc
  16. if __name__== "__main__":
  17.     wj()

当然如果有其他违禁词需求,可以再继续添加到列表中,进行匹配!

违禁词的检测,其实就是一个简单的匹配处理,直接用in即可获取,然后进行判断选择输出即可!

检测效果

检测参考源码:


   
  1. #违禁词处理筛选
  2. # 20210112 by 微信:huguo00289
  3. # -*- coding: utf -8 -*-
  4. import requests
  5. from lxml  import etree
  6. from ck  import wj
  7. from fake_useragent  import UserAgent
  8. #读取网页链接
  9. def read_txt(path):
  10.     with open(path) as f:
  11.         urls=f.readlines()
  12.      print(urls)
  13.      return urls
  14. #写入txt
  15. def save_txt(nr):
  16.     with open(f "jjweijin.txt", 'a+',encoding= 'utf-8') as f:
  17.         f.write(f '{nr}\n')
  18. def jcwy(url):
  19.     headers={
  20.          "User-Agent":UserAgent().random,
  21.     }
  22.     html=requests.get(url,headers=headers,timeout= 8,).content.decode( 'utf-8')
  23.     # print(html)
  24.     html_str=str(html)
  25.     html_strs=html_str.split( '\n')
  26.      print(html_strs)
  27.     cks=wj()
  28.     k= "**"* 50
  29.     j= "--"* 50
  30.      print(k)
  31.     save_txt(k)
  32.     zzjc=f "正在检查网页:{url}"
  33.      print(zzjc)
  34.     save_txt(zzjc)
  35.      for html_str in html_strs:
  36.          for ck in cks:
  37.              if ck in html_str:
  38.                  print(j)
  39.                  print(f "发现违禁词:{ck}")
  40.                  print(f '存在于:{html_str}')
  41.                  print(j)
  42.                 save_txt(f '{j}\n发现违禁词:{ck}\n存在于:{html_str}\n{j}')
  43.      print(k)
  44.     save_txt(k)
  45. #课程内容
  46. def get_hrefs():
  47.     headers={
  48.          "User-Agent":UserAgent().random,
  49.     }
  50.     url= "http://www.xxxx.com/curriculum/c-0.html"
  51.     html=requests.get(url,headers=headers,timeout= 5).content.decode( 'utf-8')
  52.     tree=etree.HTML(html)
  53.     hrefs=tree.xpath( '//div[@class="courses-3"]/a/@href')
  54.      for href in hrefs:
  55.         href=f 'http://m.xxx.com{href}'
  56.         jcwy(href)
  57. def main():
  58.     path = r 'pinsuo.txt'
  59.     urls = read_txt(path)
  60.      for url in urls:
  61.         url = url.strip()
  62.         url=url.replace( 'https://www.', 'https://m.')
  63.          print(url)
  64.         jcwy(url)
  65. def jj():
  66.     path = r 'jj.txt'
  67.     urls = read_txt(path)
  68.      for url in urls:
  69.         url = url.strip()
  70.          print(url)
  71.         jcwy(url)
  72. if __name__== '__main__':
  73.     #get_hrefs()
  74.     #jj()
  75.     main()

需要说明的是,网站移动端如果是重写,也需要进行匹配处理,其实就是在PC端的基础上,www改成移动端,m端即可,其实也没有什么好说明的!

最后,收录的快照页面,需要进行投诉快照提交,这样在百度搜索的页面上才能看到更新效果!

      

微信公众号:二爷记

不定时分享python源码及工具


转载:https://blog.csdn.net/minge89/article/details/112551353
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场