需求说明

发布于 2018-02-01,来源:

一、绿网数据简介

绿网(http://lvwang.org.cn)是由广州绿网环境保护服务中心建立的公益环境数据库产品。数据主要来源:1.抓取程序到不同的网站抓取。2.人工收集整理。
主要数据:
1、企业相关的环境数据
  • 企业基本信息数据
  • 企业排污在线监测数据(企业废气、废水排放各项指标实时监测数据)
  • 企业环评数据
  • 企业环境违法处罚数据
  • 企业违法违规建设项目数据
  • 企业排污许可信息数据
  • 企业污染地块数据
  • 尾矿库数据
  • 企业危险废物信息
2、环境质量数据
  • 空气质量数据
  • 地表水质量数据
  • 饮用水信息数据(包含水厂、水源地、水源水质数据)
  • 土壤(污染地块)
企业相关的数据基本都含有了地理位置信息(点坐标或者区域)
数据关联的两条线索:企业、污染类型要素(废水、废气、固废等)
二、协助需求说明

1、结构化数据抽取
抓取回来的数据为全文,希望利用技术自动进行结构化数据抽取。
原文
以下为环境违法处罚信息全文
霍州市环境保护局
行 政 处 罚 决 定 书
霍环罚字[2017]20号
霍州市煤电集团有限责任公司辛置煤矿:
工商营业执照号:140000106063575
组织机构代码号:81309289-7
详细地址:霍州市辛置镇辛置村
法定代表人:常纪民
霍州市煤电集团有限责任公司辛置煤矿(以下简称“公司”)环境违法一案,经我局环境监察大队现场调查,现已审查终结。
一、环境违法事实和证据
经调查核实,你公司实施了以下环境违法行为:该单位运煤道路污泥未采取三防措施以上事实,有环境监察大队2017年9月29日《环境保护执法检查记录》和《案件调查报告》为证。
你公司上述行为违反了《中华人民共和国固体废物污染环境防治法》第十七条规定,依法应当予以处罚。
我局于2017年9月30日告知你公司违法事实、处罚依据和拟作出的处罚决定,并告知你公司有权进行陈述、申辩和要求听证。
以上事实,有我局 2017年9月30日《行政处罚事先、听证告知书》(霍环事听告字[2017]20号 )及《送达回执》为证。
二、责令改正和行政处罚的依据、种类及其履行方式和期限
我局依据 《中华人民共和国固体废物污染环境防治法》第六十八条规定。决定对你公司作出如下行政处罚和决定:
责令改正违法行为,立即办理相关手续 ,并处罚款拾万元整
罚款限于接到本处罚决定书之日起十五日内缴纳罚款,并将“山西省代收罚款收据(第三联)”交霍州市环保局法制股。逾期不缴纳罚款的,我局将每日按罚款数额的3%加处罚款。
三、申请复议或者提起诉讼的途径和期限
如不服本处罚决定,可在接到决定书之日起六十日内向临汾市环境保护局或者向霍州市人民政府申请复议,也可在六个月内直接向当地人民法院起诉。
逾期不申请复议,也不向人民法院起诉,又不履行本处罚决定的,我局将依法强制执行。
[正本一份,副本二份]
2017年10月 10日
目标抽取字段信息
抽取字段
备注
被处罚企业名称
霍州市煤电集团有限责任公司

处罚文书号
霍环罚字[2017]20号

处罚单位
霍州市环境保护局

处罚时间
2017-10-10

违法行为
运煤道路污泥未采取三防措施以上事实

违反法律
你公司上述行为违反了《中华人民共和国固体废物污染环境防治法》第十七条规定
可能多个法律,多个规定
处罚依据
《中华人民共和国固体废物污染环境防治法》第六十八条规
可能多个法律,多个规定
处罚措施
责令改正,罚款

罚款金额
10
单位万元
污染类型
固体废物
可多个,根据一些违法行为、处罚依据、违反法律的一些关键词来判定
更多数据样本
数据来源于数十个不同的环保局网站,所以内容原文在格式上以及表述上会有不同,以下是更多的样本数据。
序号
地区
网址
1
山西省霍州市
2
山西省临汾市乡宁县
3
山西省忻州市代县
4
重庆市
5
重庆市大渡口区
6
重庆市九龙坡区
7
陕西省宝鸡市凤县
8
江西省萍乡市安源区
9
江西省景德镇市浮梁县
10
江西省九江市瑞昌市
11
甘肃省甘南州卓尼县
12
甘肃省庆阳市合水县
13
甘肃省定西市安定区
14
福建省平潭综合实验区
15
福建省厦门市
16
福建省莆田市城厢区
17
北京市朝阳区
采集程序已经完成,主要瓶颈是抽取。

2、阿里云大数据产品的选择
绿网目前的数据主要存储在RDS MySql数据库中,有几类数据量已经超过千万、过亿,数据库也出现了一些瓶颈,同时数据也存在质量不高的问题,如部分字段不完整、不规范等。
绿网规划未来对这些数据进行大数据的挖掘以及分析,所以希望能提前规划良好的技术架构,以便于未来的应用。也希望能运用上阿里云更多的产品来把绿网做的更好。
3、其他目前希望能改进的技术问题
企业排污在线监测数据每天产生数十万数据,数据总量过亿,查询缓慢。当前存在MySQL,已做按季度分表处理。做历史数据统计分析耗时。希望能给出一些优化建议。
字段名称
类型