自从广告法公布以来,广告违禁词,极限词投诉愈发增多,不仅仅是电商广告,网站也开始收到投诉,处罚,其中也有不少同行蠢蠢欲动的投诉,举报,如果你有发现此类同行,不妨可以尝试一下,绝对会令对手焦头烂额!
不少网站也推出了此类检测工具,当然割韭菜的居多,要不让你注册会员,购买会员或者积分,实质上很难检测你的问题,处理掉违禁词,如果你公司配有程序员还好,没有的话,那就只能自己上手操作一番,好在有python,直接写脚本开撸!
广告违禁词图片
从上面的图片提取出广告违禁词,这里推荐QQ图片文字识别,应用python读取输出为列表!
违禁词获取参考源码:
-
#违禁词词库
-
# -*- coding: utf
-8 -*-
-
#
20210112 by 微信:huguo00289
-
-
Zui=
"最佳、最具、最爱、最嫌、最优、最优秀、最好、最大、最人程度、最高、最高级、最高端、最耆侈、最低、最低级、最低价、最底、最便宜、史上最低价、最流行、最受欢迎、最时尚、最聚拢、最符合、最舒适、最先、最先进、最先进科学、最先进加工工艺、最先享受、最后、最后—波、最新、最新技术、最新科学"
-
Yi=
"第一、中国第一、全网第一、销量第一、排名第一、唯一、第一品牌、NO.1、TOP1、独一无二、全国第一、—流、一天、仅此一次、仅此一款、最后—波、大品牌之一"
-
Sj=
"首个、首选、独家、独家配方、首发、全网首发、全国首发、首家、全网首家、全国首家、网独家、网首发、首次、首款、全国销量冠军、国家级产品、国家、国家免检、国家领导人、填补、国内空白、中国驰名、驰名商标、国际品质"
-
Shj=
"随时结束、随时涨价、马上降价、倒计时、趁现在、特惠趴、购物大趴、闪购"
-
Zh=
"国家级、国家级产品、全球级、宇宙级、世界级、顶级、顶尖、尖端、顶级工艺、顶级享受、高级、极品、极佳、绝佳、绝对、终极、极致"
-
Pp=
"大牌、金牌、名牌、王牌、领袖品牌、世界领先、遥遥、领先、领导者、缔造者、创领品牌、领先上市、巨星、著名、掌门人、至尊、巅峰、者侈、优秀、资深、领袖、之王、王者、冠军"
-
Qw=
"老字号、中国驰名商标、特供、专供、专家推荐、质量免检、无需国家质量检测、免抽检、领导人推荐、机关推荐"
-
Qz=
"1点击领奖、恭喜获奖、全民免单、点击有惊喜、点击领取、点击转身、点击试穿、点击翻转、领取奖品、秒杀、抢爆、再不抢就没了、不会再便宜了.没有他就、错过就没机会了、万人疯抢、全民疯抢、抢购、卖疯了、抢疯了"
-
-
def wj():
-
wjc=f
'{Zui}{Yi}{Sj}{Shj}{Zh}{Pp}{Qw}{Qz}'
-
wjc=wjc.split(
"、")
-
return wjc
-
-
-
if __name__==
"__main__":
-
wj()
当然如果有其他违禁词需求,可以再继续添加到列表中,进行匹配!
违禁词的检测,其实就是一个简单的匹配处理,直接用in即可获取,然后进行判断选择输出即可!
检测效果
检测参考源码:
-
#违禁词处理筛选
-
#
20210112 by 微信:huguo00289
-
# -*- coding: utf
-8 -*-
-
import requests
-
from lxml
import etree
-
from ck
import wj
-
from fake_useragent
import UserAgent
-
-
-
#读取网页链接
-
def read_txt(path):
-
with open(path) as f:
-
urls=f.readlines()
-
print(urls)
-
return urls
-
-
#写入txt
-
def save_txt(nr):
-
with open(f
"jjweijin.txt",
'a+',encoding=
'utf-8') as f:
-
f.write(f
'{nr}\n')
-
-
def jcwy(url):
-
headers={
-
"User-Agent":UserAgent().random,
-
}
-
html=requests.get(url,headers=headers,timeout=
8,).content.decode(
'utf-8')
-
#
print(html)
-
html_str=str(html)
-
html_strs=html_str.split(
'\n')
-
print(html_strs)
-
cks=wj()
-
k=
"**"*
50
-
j=
"--"*
50
-
print(k)
-
save_txt(k)
-
zzjc=f
"正在检查网页:{url}"
-
print(zzjc)
-
save_txt(zzjc)
-
for html_str in html_strs:
-
for ck in cks:
-
if ck in html_str:
-
print(j)
-
print(f
"发现违禁词:{ck}")
-
print(f
'存在于:{html_str}')
-
print(j)
-
save_txt(f
'{j}\n发现违禁词:{ck}\n存在于:{html_str}\n{j}')
-
-
print(k)
-
save_txt(k)
-
-
-
#课程内容
-
def get_hrefs():
-
headers={
-
"User-Agent":UserAgent().random,
-
}
-
url=
"http://www.xxxx.com/curriculum/c-0.html"
-
html=requests.get(url,headers=headers,timeout=
5).content.decode(
'utf-8')
-
tree=etree.HTML(html)
-
hrefs=tree.xpath(
'//div[@class="courses-3"]/a/@href')
-
for href in hrefs:
-
href=f
'http://m.xxx.com{href}'
-
jcwy(href)
-
-
def main():
-
path = r
'pinsuo.txt'
-
urls = read_txt(path)
-
for url in urls:
-
url = url.strip()
-
url=url.replace(
'https://www.',
'https://m.')
-
print(url)
-
jcwy(url)
-
-
-
def jj():
-
path = r
'jj.txt'
-
urls = read_txt(path)
-
for url in urls:
-
url = url.strip()
-
print(url)
-
jcwy(url)
-
-
-
-
if __name__==
'__main__':
-
#get_hrefs()
-
#jj()
-
main()
需要说明的是,网站移动端如果是重写,也需要进行匹配处理,其实就是在PC端的基础上,www改成移动端,m端即可,其实也没有什么好说明的!
最后,收录的快照页面,需要进行投诉快照提交,这样在百度搜索的页面上才能看到更新效果!
微信公众号:二爷记
不定时分享python源码及工具
转载:https://blog.csdn.net/minge89/article/details/112551353
查看评论