python工具脚本，网站广告违禁词检测脚本源码_小言_互联网的博客

python工具脚本，网站广告违禁词检测脚本源码

2021-01-22 11:41 467人阅读评论(0)

自从广告法公布以来，广告违禁词，极限词投诉愈发增多，不仅仅是电商广告，网站也开始收到投诉，处罚，其中也有不少同行蠢蠢欲动的投诉，举报，如果你有发现此类同行，不妨可以尝试一下，绝对会令对手焦头烂额！

不少网站也推出了此类检测工具，当然割韭菜的居多，要不让你注册会员，购买会员或者积分，实质上很难检测你的问题，处理掉违禁词，如果你公司配有程序员还好，没有的话，那就只能自己上手操作一番，好在有python，直接写脚本开撸！

广告违禁词图片

从上面的图片提取出广告违禁词，这里推荐QQ图片文字识别，应用python读取输出为列表！

违禁词获取参考源码：


   
    
     
      
     
     
      
       #违禁词词库
      
     
    
     
      
     
     
      
       # -*- coding: utf
       -8 -*-
      
     
    
     
      
     
     
      
       #
       20210112 by 微信：huguo00289
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       Zui=
       "最佳、最具、最爱、最嫌、最优、最优秀、最好、最大、最人程度、最高、最高级、最高端、最耆侈、最低、最低级、最低价、最底、最便宜、史上最低价、最流行、最受欢迎、最时尚、最聚拢、最符合、最舒适、最先、最先进、最先进科学、最先进加工工艺、最先享受、最后、最后—波、最新、最新技术、最新科学"
      
     
    
     
      
     
     
      
       Yi=
       "第一、中国第一、全网第一、销量第一、排名第一、唯一、第一品牌、NO.1、TOP1、独一无二、全国第一、—流、一天、仅此一次、仅此一款、最后—波、大品牌之一"
      
     
    
     
      
     
     
      
       Sj=
       "首个、首选、独家、独家配方、首发、全网首发、全国首发、首家、全网首家、全国首家、网独家、网首发、首次、首款、全国销量冠军、国家级产品、国家、国家免检、国家领导人、填补、国内空白、中国驰名、驰名商标、国际品质"
      
     
    
     
      
     
     
      
       Shj=
       "随时结束、随时涨价、马上降价、倒计时、趁现在、特惠趴、购物大趴、闪购"
      
     
    
     
      
     
     
      
       Zh=
       "国家级、国家级产品、全球级、宇宙级、世界级、顶级、顶尖、尖端、顶级工艺、顶级享受、高级、极品、极佳、绝佳、绝对、终极、极致"
      
     
    
     
      
     
     
      
       Pp=
       "大牌、金牌、名牌、王牌、领袖品牌、世界领先、遥遥、领先、领导者、缔造者、创领品牌、领先上市、巨星、著名、掌门人、至尊、巅峰、者侈、优秀、资深、领袖、之王、王者、冠军"
      
     
    
     
      
     
     
      
       Qw=
       "老字号、中国驰名商标、特供、专供、专家推荐、质量免检、无需国家质量检测、免抽检、领导人推荐、机关推荐"
      
     
    
     
      
     
     
      
       Qz=
       "1点击领奖、恭喜获奖、全民免单、点击有惊喜、点击领取、点击转身、点击试穿、点击翻转、领取奖品、秒杀、抢爆、再不抢就没了、不会再便宜了.没有他就、错过就没机会了、万人疯抢、全民疯抢、抢购、卖疯了、抢疯了"
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       def wj():
      
     
    
     
      
     
     
      
           wjc=f
       '{Zui}{Yi}{Sj}{Shj}{Zh}{Pp}{Qw}{Qz}'
      
     
    
     
      
     
     
      
           wjc=wjc.split(
       "、")
      
     
    
     
      
     
     
      
           
       return wjc
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       if __name__==
       "__main__":
      
     
    
     
      
     
     
      
           wj()

当然如果有其他违禁词需求，可以再继续添加到列表中，进行匹配！

违禁词的检测，其实就是一个简单的匹配处理，直接用in即可获取，然后进行判断选择输出即可！

检测效果

检测参考源码：


   
    
     
      
     
     
      
       #违禁词处理筛选
      
     
    
     
      
     
     
      
       #
       20210112 by 微信：huguo00289
      
     
    
     
      
     
     
      
       # -*- coding: utf
       -8 -*-
      
     
    
     
      
     
     
      
       import requests
      
     
    
     
      
     
     
      
       from lxml 
       import etree
      
     
    
     
      
     
     
      
       from ck 
       import wj
      
     
    
     
      
     
     
      
       from fake_useragent 
       import UserAgent
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       #读取网页链接
      
     
    
     
      
     
     
      
       def read_txt(path):
      
     
    
     
      
     
     
      
           with open(path) as f:
      
     
    
     
      
     
     
      
               urls=f.readlines()
      
     
    
     
      
     
     
      
           
       print(urls)
      
     
    
     
      
     
     
      
           
       return urls
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       #写入txt
      
     
    
     
      
     
     
      
       def save_txt(nr):
      
     
    
     
      
     
     
      
           with open(f
       "jjweijin.txt",
       'a+',encoding=
       'utf-8') as f:
      
     
    
     
      
     
     
      
               f.write(f
       '{nr}\n')
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       def jcwy(url):
      
     
    
     
      
     
     
      
           headers={
      
     
    
     
      
     
     
      
               
       "User-Agent":UserAgent().random,
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
           html=requests.get(url,headers=headers,timeout=
       8,).content.decode(
       'utf-8')
      
     
    
     
      
     
     
      
           #
       print(html)
      
     
    
     
      
     
     
      
           html_str=str(html)
      
     
    
     
      
     
     
      
           html_strs=html_str.split(
       '\n')
      
     
    
     
      
     
     
      
           
       print(html_strs)
      
     
    
     
      
     
     
      
           cks=wj()
      
     
    
     
      
     
     
      
           k=
       "**"*
       50
      
     
    
     
      
     
     
      
           j=
       "--"*
       50
      
     
    
     
      
     
     
      
           
       print(k)
      
     
    
     
      
     
     
      
           save_txt(k)
      
     
    
     
      
     
     
      
           zzjc=f
       "正在检查网页:{url}"
      
     
    
     
      
     
     
      
           
       print(zzjc)
      
     
    
     
      
     
     
      
           save_txt(zzjc)
      
     
    
     
      
     
     
      
           
       for html_str in html_strs:
      
     
    
     
      
     
     
      
               
       for ck in cks:
      
     
    
     
      
     
     
      
                   
       if ck in html_str:
      
     
    
     
      
     
     
      
                       
       print(j)
      
     
    
     
      
     
     
      
                       
       print(f
       "发现违禁词：{ck}")
      
     
    
     
      
     
     
      
                       
       print(f
       '存在于：{html_str}')
      
     
    
     
      
     
     
      
                       
       print(j)
      
     
    
     
      
     
     
      
                       save_txt(f
       '{j}\n发现违禁词：{ck}\n存在于：{html_str}\n{j}')
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
           
       print(k)
      
     
    
     
      
     
     
      
           save_txt(k)
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       #课程内容
      
     
    
     
      
     
     
      
       def get_hrefs():
      
     
    
     
      
     
     
      
           headers={
      
     
    
     
      
     
     
      
               
       "User-Agent":UserAgent().random,
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
           url=
       "http://www.xxxx.com/curriculum/c-0.html"
      
     
    
     
      
     
     
      
           html=requests.get(url,headers=headers,timeout=
       5).content.decode(
       'utf-8')
      
     
    
     
      
     
     
      
           tree=etree.HTML(html)
      
     
    
     
      
     
     
      
           hrefs=tree.xpath(
       '//div[@class="courses-3"]/a/@href')
      
     
    
     
      
     
     
      
           
       for href in hrefs:
      
     
    
     
      
     
     
      
               href=f
       'http://m.xxx.com{href}'
      
     
    
     
      
     
     
      
               jcwy(href)
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       def main():
      
     
    
     
      
     
     
      
           path = r
       'pinsuo.txt'
      
     
    
     
      
     
     
      
           urls = read_txt(path)
      
     
    
     
      
     
     
      
           
       for url in urls:
      
     
    
     
      
     
     
      
               url = url.strip()
      
     
    
     
      
     
     
      
               url=url.replace(
       'https://www.',
       'https://m.')
      
     
    
     
      
     
     
      
               
       print(url)
      
     
    
     
      
     
     
      
               jcwy(url)
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       def jj():
      
     
    
     
      
     
     
      
           path = r
       'jj.txt'
      
     
    
     
      
     
     
      
           urls = read_txt(path)
      
     
    
     
      
     
     
      
           
       for url in urls:
      
     
    
     
      
     
     
      
               url = url.strip()
      
     
    
     
      
     
     
      
               
       print(url)
      
     
    
     
      
     
     
      
               jcwy(url)
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       if __name__==
       '__main__':
      
     
    
     
      
     
     
      
           #get_hrefs()
      
     
    
     
      
     
     
      
           #jj()
      
     
    
     
      
     
     
      
           main()

需要说明的是，网站移动端如果是重写，也需要进行匹配处理，其实就是在PC端的基础上，www改成移动端，m端即可，其实也没有什么好说明的！

最后，收录的快照页面，需要进行投诉快照提交，这样在百度搜索的页面上才能看到更新效果！

微信公众号：二爷记

不定时分享python源码及工具

转载：https://blog.csdn.net/minge89/article/details/112551353

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

python工具脚本，网站广告违禁词检测脚本源码

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场